आपका डेटा कितना संरचित है? संरचित, असंरचित और अर्ध-संरचित डेटा की जांच करना

लेखक: Roger Morrison
निर्माण की तारीख: 25 सितंबर 2021
डेट अपडेट करें: 21 जून 2024
Anonim
CCC:Chapter - 9: Part-1
वीडियो: CCC:Chapter - 9: Part-1

विषय



स्रोत: मोनसिट्ज / आईस्टॉकफोटो

ले जाओ:

संरचित, असंरचित और अर्ध-संरचित डेटा के बारे में जानें।

ऐतिहासिक रूप से, डेटा विश्लेषक केवल एक प्रकार के डेटा: संरचित डेटा से जानकारी को डीक्रिप्ट और निकालने में सक्षम थे। इस प्रकार का डेटा अपने स्पष्ट पैटर्न के कारण आसानी से खोजा जा सकता था, लेकिन उपलब्ध कुल डेटा का मामूली प्रतिशत प्रतिनिधित्व करता था।

अनस्ट्रक्चर्ड डेटा में वीडियो, ऑडियो, एस और सोशल मीडिया और मोबाइल उपकरणों से आने वाले डेटा शामिल थे। यह, नीचे उपलब्ध कच्ची जानकारी का सबसे बड़ा भंडार था, फिर भी कोई भी इस संसाधन को विश्वसनीय ढंग से टैप करने में सक्षम नहीं था।

हालांकि, चीजें बदल गई हैं, क्योंकि भंडारण की बढ़ती उपलब्धता और बेहतर प्रसंस्करण क्षमताओं ने असंरचित डेटा विश्लेषिकी को जन्म दिया - एक नया और इस प्रकार अपरिपक्व, प्रौद्योगिकी का रूप। बेहतर व्यावसायिक बुद्धिमत्ता इस अवसर का पूरा लाभ उठा रही है, और जानकारी के इस स्पष्ट रूप से अंतहीन सोने के उपयोग के लिए संरचित और असंरचित डेटा विश्लेषिकी को समुचित रूप से निवेश करने के लिए पर्याप्त निवेश किया जा रहा है।


अपने अंतर को समझने के लिए इन दो डेटा स्वरूपों पर एक नज़र डालते हैं, और भविष्य सभी डेटा विश्लेषकों के लिए क्या है।

संरचित डेटा क्या है?

संरचित डेटा मानव- या मशीन-जनित और उच्च संगठित जानकारी है जिसे आसानी से पंक्ति डेटाबेस संरचनाओं में संग्रहीत किया जा सकता है जिसे रिलेशनल डेटाबेस (RDB) के रूप में जाना जाता है। यह कुछ भी है जो एक प्रारूप में मौजूद है जिसे बाद में विश्लेषण करने के लिए आरडीबी संरचना में आसानी से कब्जा, संग्रहीत और व्यवस्थित किया जा सकता है। (डेटाबेस के बारे में अधिक जानने के लिए, हमारा परिचय डेटाबेस से देखें।)

उदाहरणों में ज़िप कोड, फ़ोन नंबर और उपयोगकर्ता जनसांख्यिकी जैसे आयु या लिंग शामिल हैं। इन डेटाबेस में पाए जाने वाले डेटा को एक्सेल स्प्रेडशीट के भीतर स्ट्रक्चर्ड क्वेरी लैंग्वेज (SQL) या VLOOKUP फ़ंक्शन के साथ क्वेर किया जा सकता है। एल्गोरिदम को विभिन्न क्षेत्रों में पाए जाने वाले डेटा को अपने अनुक्रमित या उनके संख्यात्मक और वर्णमाला डेटा का उपयोग करके जल्दी से खोज करने के लिए भी बनाया जा सकता है। हालांकि, सभी डेटा को फ़ील्ड प्रकार और नाम के संदर्भ में कड़ाई से परिभाषित किया गया है, और इस प्रकार स्टोर, क्वेरी और विश्लेषण करने की क्षमता कुछ हद तक प्रतिबंधित है।


विशिष्ट अनुप्रयोग जो संरचित डेटा का उपयोग करते हैं, उनमें अस्पताल प्रबंधन सॉफ्टवेयर, ग्राहक संबंध प्रबंधन (CRM) अनुप्रयोग और एयरलाइन आरक्षण प्रणाली शामिल हैं। इसकी साफ-सुथरी संस्था और आसान पहुंच के कारण, संरचित डेटा उपयोगी और कुशल है, जब सूचनाओं के बड़े संस्करणों के साथ काम किया जाता है। जब मानवता द्वारा हर दिन उत्पादित डेटा की बढ़ती मात्रा में छिपे हुए काले तेल के लिए ड्रिलिंग की जाती है, हालांकि, संरचित डेटा की तलाश सतह को खरोंच करने के अलावा और कुछ नहीं है।

अनस्ट्रक्चर्ड डेटा क्या है?

एक संगठन में पाया गया अधिकांश डेटा असंरचित है, और कुछ का अनुमान है कि वर्तमान में उपलब्ध कुल डेटा का 80 प्रतिशत तक। परिभाषा के अनुसार, असंरचित डेटा वह सब कुछ है जिसकी कोई पहचान योग्य आंतरिक संरचना नहीं है। हालाँकि, कुछ प्रकार के डेटा इस श्रेणी में आते हैं ज़रूरत है अस्पष्ट आंतरिक संरचना के कुछ रूप, फिर भी यह डेटाबेस या स्प्रेडशीट के अनुरूप नहीं है।

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ


जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार कर सकते हैं।

अधिकांश व्यावसायिक डेटा असंरचित है, जिसमें ग्राहक सेवा इंटरैक्शन, फ़ाइलें, वेब लॉग, वीडियो और अन्य मल्टीमीडिया सामग्री, बिक्री स्वचालन, एस और सोशल मीडिया पोस्ट शामिल हैं। Theres को यह समझाने की आवश्यकता नहीं है कि यह डेटा कितना मूल्यवान हो सकता है यदि इसे खनन, संगठित और विश्लेषण किया जा सकता है।

अधिकांश असंरचित डेटा मनुष्यों द्वारा उत्पन्न होता है, और इस प्रकार इसे अन्य मनुष्यों द्वारा समझा जाता है। इसका मतलब यह है कि मशीन कंप्यूटर की भाषा और संरचित डेटाबेस से बहुत दूर होने के बाद भी इस प्रकार की जानकारी को इस प्रकार की कंप्यूटर समझ नहीं समझती है।

बीच में पड़ना: अर्ध-संरचित डेटा

अर्ध-संरचित डेटा एक तीसरे प्रकार का डेटा है जो पूरे पाई (5-10 प्रतिशत) के बहुत छोटे टुकड़े का प्रतिनिधित्व करता है। दोनों दुनियाओं के बीच में पकड़े गए, अर्ध-संरचित डेटा में आंतरिक शब्दार्थ टैग और अंकन होते हैं जो अलग-अलग तत्वों की पहचान करते हैं, लेकिन एक संबंधपरक डेटाबेस में फिट होने के लिए आवश्यक संरचना का अभाव होता है।

उदाहरण के लिए, एस संरचित डेटा की तरह लग सकता है क्योंकि उन्हें तिथि, फ़ाइल आकार या समय के अनुसार वर्गीकृत किया जा सकता है। हालांकि, वे नहीं हैं, क्योंकि उनके अपेक्षाकृत सरल लेबल के बजाय सबसे मूल्यवान जानकारी उनके भीतर पाई जाती है। कठबोली को वास्तव में सामग्री और विषय द्वारा व्यवस्थित किया जाना चाहिए, क्योंकि मनुष्य मशीन को असमान रूप से समझने के लिए ऐसे सख्त पैटर्न में नहीं बोलते हैं। अर्ध-संरचित डेटा के अन्य उदाहरणों में NoSQL डेटाबेस, खुले मानक JSON और मार्कअप भाषा XML शामिल हैं।

अर्ध-संरचित डेटा को आमतौर पर मेटाडेटा विश्लेषण का उपयोग करके विश्लेषण के लिए उद्धृत और सूचीबद्ध किया जाता है। उदाहरण के लिए, एक एक्स-रे स्कैन में बड़ी संख्या में पिक्सेल होते हैं जो छवि बनाते हैं - जो स्वाभाविक रूप से असंरचित डेटा होते हैं जिन्हें एक्सेस नहीं किया जा सकता है। हालाँकि, स्कैन फ़ाइल में अभी भी मेटाडेटा भाग शामिल होगा जो इसके बारे में जानकारी प्रदान करता है, जैसे कि एनोटेशन और उपयोगकर्ता आईडी।

क्या संरचित डेटा में अनस्ट्रक्चर्ड डेटा ट्रांसफ़ॉर्म किया जा सकता है?

मौलिक चुनौती, जिसका सामना हर डेटा एनालिस्ट को करना होता है, वह जानकारी को साफ-सुथरे, व्यवस्थित तरीके से व्यवस्थित करती है ताकि उसे एक्सेस किया जा सके और उसे समझा जा सके। डेटा माइनिंग टूल्स आमतौर पर पार्स जानकारी से लैस नहीं होते हैं, जो परिभाषा के अनुसार, मानव भाषा के लिए बहुत अधिक है, जिसका अर्थ है कि केवल एक और मानव इसे इकट्ठा और वर्गीकृत कर सकता है।

हालाँकि, असंरचित डेटा की सरासर मात्रा इसे अत्यंत श्रमसाध्य और महंगी बनाने या व्यवस्थित करने का कोई प्रयास करती है। एक वेब-आधारित खोज इंजन का कहना है कि सूचना का पूल इतना विशाल है, कि अधिकांश तत्वों को काम और संसाधनों के संदर्भ में भारी निवेश की आवश्यकता होती है। यहां तक ​​कि सबसे कुशल डेटा माइनिंग तकनीक अभी भी वेब पर पाई गई पर्याप्त मात्रा में जानकारी को याद करती है और, और भी बदतर, गहरी वेब के अंदर।

लेकिन तकनीक मौजूद है। और वे एक अद्भुत गति से विकसित हो रहे हैं। उदाहरण के लिए, मेटाडेटा का उपयोग संरचित और असंरचित डेटा को एक साथ जोड़ने के लिए किया जा सकता है। कटाई की गई जानकारी को केवल प्रासंगिक डेटा का विश्लेषण करने के लिए उपयोगकर्ताओं और एल्गोरिदम दोनों द्वारा फ़िल्टर और अनुक्रमित किया जा सकता है। अन्य समाधानों में "डेटा की विकृति" शामिल है, जो एक ऐसी प्रक्रिया है जिसके माध्यम से गैर-तकनीकी उपयोगकर्ताओं द्वारा जटिल डेटा को उत्तरोत्तर चरणबद्ध रूप से व्यवस्थित किया जाता है। (डेटा संभालने वाले सामान्य उपयोगकर्ताओं पर अधिक जानकारी के लिए, देखें कि बिग डेटा स्वयं-सेवा विश्लेषिकी में कैसे मदद कर सकता है।)

कुछ बिंदु पर, हम इन बड़े पैमाने पर असंगठित मात्रा की जानकारी को एक अधिक संगठित और पुनर्गठन प्रारूप में कुशलता से बदलने में सक्षम होंगे। शायद आज नहीं, शायद कल नहीं, लेकिन जल्द ही हम छापा मार पाएंगे कि सबसे बड़ी तिजोरी मानव जाति ने कभी देखी है: बड़ा डेटा।