सुझाव की शक्ति: कैसे एक डेटा कैटलॉग विश्लेषकों का अधिकार देता है

ले जाओ: होस्ट रेबेका जोजवियाक, डीज़ ब्लांचफील्ड, रॉबिन ब्लोर और डेविड क्रॉफोर्ड के साथ डेटा कैटलॉग के फायदों पर चर्चा करती है।

वीडियो देखने के लिए आपको इस घटना के लिए पंजीकरण करना होगा। वीडियो देखने के लिए रजिस्टर करें।

रेबेका जोजवाक: देवियों और सज्जनों, नमस्ते और 2016 की हॉट टेक्नोलॉजीज में आपका स्वागत है। आज हमें मिल गया, "सुझाव की शक्ति: कैसे एक डेटा कैटलॉग विश्लेषकों का सशक्तिकरण करता है।" दुनिया की यात्रा कर रहा है, इसलिए हमारे साथ जुड़ने के लिए धन्यवाद। यह वर्ष गर्म है, यह टेक्सास में न केवल गर्म है, जहां मैं हूं, लेकिन यह सभी जगह गर्म है। सभी प्रकार की नई तकनीकों का विस्फोट हो रहा है। Weve को IoT, स्ट्रीमिंग डेटा, क्लाउड एडॉप्शन, Hadoop को परिपक्व और अपनाया जाना जारी है। हमारे पास ऑटोमेशन, मशीन लर्निंग है, और यह सारा सामान बेशक डेटा द्वारा रेखांकित है। और उद्यम दिन पर दिन अधिक से अधिक डेटा संचालित होते जा रहे हैं। और निश्चित रूप से, यह ज्ञान और खोज की ओर ले जाता है, और आप जानते हैं, बेहतर निर्णय लेते हैं। लेकिन वास्तव में डेटा से सबसे अधिक मूल्य प्राप्त करने के लिए, इसे प्राप्त करना आसान है। यदि आप इसे बंद करके रखते हैं, या उद्यम के भीतर कुछ लोगों के मस्तिष्क में दफनाया जाता है, तो यह उद्यम के लिए बहुत अच्छा नहीं होगा।

और मैं डेटा कैटलॉगिंग के बारे में सोच रहा था और पुस्तकालयों के पाठ्यक्रम के बारे में सोच रहा था, जहां बहुत समय पहले आप जहां गए थे अगर आपको किसी विषय पर शोध करने की जरूरत थी, या किसी जानकारी को देखने के लिए, आप लाइब्रेरी में गए थे , और निश्चित रूप से आप कार्ड कैटलॉग, या वहाँ काम करने वाली केकड़ी महिला के पास गए। लेकिन यह चारों ओर घूमने के लिए भी मजेदार था, अगर आप बस देखना चाहते थे, और निश्चित रूप से आप बस कुछ साफ-सुथरा खोज सकते हैं, तो आपको कुछ दिलचस्प तथ्य पता चल सकते हैं, जो आपको पता नहीं है, लेकिन अगर आपको वास्तव में कुछ खोजने की जरूरत है, और आप जानते थे कि आप क्या देख रहे थे, आपको कार्ड कैटलॉग की आवश्यकता थी, और निश्चित रूप से एंटरप्राइज़ समतुल्य एक डेटा कैटलॉग है, जो हमारे उपयोगकर्ताओं को समृद्ध, खोज, साझा, उपभोग और वास्तव में लोगों को प्राप्त करने में मदद करने के लिए सभी डेटा पर प्रकाश को चमकाने में मदद कर सकता है तेजी से और आसान डेटा के लिए।

इसलिए आज हमें अपने स्वयं के डेटा वैज्ञानिक डीज़ ब्लांचफील्ड मिले, और हमारे पास डॉक्टर रॉबिन ब्लोर, हमारे स्वयं के प्रमुख विश्लेषक हैं, जो हमें अल्वेशन से डेविड क्रॉफोर्ड मिला है, जो उनकी कंपनी की डेटा कैटलॉग कहानी के बारे में बात करने जा रहे हैं, लेकिन पहले हम जा रहे हैं Dez के साथ नेतृत्व करने के लिए Dez, मैं तुम्हारे पास गेंद पास कर रहा हूँ और मंजिल तुम्हारी है।

डीज़ ब्लांचफील्ड: धन्यवाद, आज मुझे होने के लिए धन्यवाद। यह एक ऐसा मामला है जिसमें मैं बेहद दिलचस्पी रखता हूं, क्योंकि लगभग हर संगठन जो मैं अपने दिन-प्रतिदिन के काम में आता हूं, मुझे ठीक वही मुद्दा मिलता है जिसके बारे में हमने प्री-शो के बारे में बहुत संक्षेप में बात की थी, और वह यह है कि अधिकांश संगठन जो कुछ वर्षों से अधिक समय से व्यवसाय में हैं, उनके पास संगठन के चारों ओर दफन डेटा का ढेर है, विभिन्न प्रारूप हैं, और वास्तव में मेरे पास ऐसे ग्राहक हैं जिनके पास डेटा सेट हैं जो लोटस नोट्स पर वापस जाते हैं, डेटाबेस जो अभी भी कुछ में चल रहे हैं उनके छद्म प्रशिक्षुओं के रूप में मामले, और वे, सभी वास्तव में इस चुनौती में चल रहे हैं कि उनका डेटा कहां है, और इसे कैसे प्राप्त किया जाए, इसे किस तक पहुंच प्रदान की जाए, कब उन्हें पहुंच प्रदान की जाए, और कैसे बस कैटलॉग, और इसे एक ऐसी जगह पर कैसे पहुँचा जा सकता है जहाँ हर कोई: ए) इस बात से अवगत हो सके कि वहाँ क्या है और इसमें क्या है, और बी), इसे कैसे प्राप्त करें और इसका उपयोग कैसे करें। और निश्चित रूप से सबसे बड़ी चुनौतियों में से एक यह है, दूसरी बड़ी चुनौती यह जान रही है कि इसमें क्या है और इसे कैसे एक्सेस किया जाए।

मैं अच्छी तरह से जान सकता हूं कि मुझे दर्जनों डेटाबेस मिल चुके हैं, लेकिन मैं वास्तव में नहीं जानता कि वहां क्या है या कैसे पता करें कि वहां क्या है, और इसलिए हमेशा की तरह जब हम प्री-शो डेटा में अब खोज रहे हैं, तो आप चलना चाहते हैं कार्यालय के चारों ओर और प्रश्न पूछें, और क्यूबिकल दीवारों के पार चिल्लाएं और कोशिश करें और समझें, अक्सर मेरा अनुभव है, आप यह भी पा सकते हैं कि आप फ्रंट डेस्क, रिसेप्शन के लिए भटक रहे हैं, और पूछ रहे हैं कि क्या आप किसी को जानते हैं ' बात करने जा रहे हैं। अक्सर, यह हमेशा आईटी लोक नहीं होता है क्योंकि वे डेटा सेट से अनजान होते हैं क्योंकि किसी ने अभी इसे बनाया है, और यह कुछ सरल हो सकता है - काफी बार हम किसी तरह का एक प्रोजेक्ट पाएंगे जो आईटी वातावरण में खड़ा है और परियोजना प्रबंधक ने सभी चीजों की एक स्प्रेडशीट का उपयोग किया, और यह संपत्ति और चोर और नामों के आसपास मूल्यवान जानकारी के कुछ बड़े पैमाने पर मिल गया है, और जब तक आप उस परियोजना को नहीं जानते हैं और आप उस व्यक्ति को जानते हैं, तो आप बस उस जानकारी को ढूंढ नहीं सकते हैं। यह अभी उपलब्ध नहीं है, और आपको उस मूल फ़ाइल को पकड़ना है।

एक ऐसा वाक्यांश है जिसे डेटा के संबंध में चारों ओर से बैन किया गया है और मैं जरूरी नहीं कि इससे सहमत हूं, लेकिन मुझे लगता है कि यह एक प्यारा सा है, और यह एक निश्चित राशि है कि लोगों को लगता है कि डेटा नया तेल है, और मुझे यकीन है कि हम 'किसी भी सूरत में कवर करने जा रहे हैं, बाद में आज। लेकिन मैंने जो देखा है, निश्चित रूप से उस परिवर्तन का हिस्सा होने के नाते, व्यवसायों के संगठनों ने अपने डेटा को महत्व देने के लिए सीखा है, उनके प्रतिद्वंद्वियों पर महत्वपूर्ण लाभ प्राप्त किया है।

आईबीएम द्वारा लगभग पांच या छह साल पहले एक दिलचस्प पेपर था, और उन्होंने ऑस्ट्रेलिया में लगभग 4,000 कंपनियों का सर्वेक्षण किया, और उन्होंने सभी जानकारी, सभी प्रदर्शन डेटा, सभी वित्त डेटा ले लिए और एक उबलते बर्तन में एक साथ रखा। इसे ऑस्ट्रेलियन स्कूल ऑफ इकोनॉमिक्स में भेज दिया, और उन्होंने वास्तव में यहां एक आम चलन शुरू किया, और वह यह था कि प्रौद्योगिकी का लाभ उठाने वाली कंपनियों ने अपने सहकर्मियों और प्रतियोगियों के प्रति इस तरह का प्रतिस्पर्धात्मक लाभ प्राप्त किया कि उनके प्रतियोगी लगभग कभी भी पकड़ में नहीं आए, और मुझे लगता है डेटा के साथ अब बहुत ज्यादा ऐसा मामला है कि हमने देखा है कि लोग एक डिजिटल परिवर्तन कहते हैं, जहां संगठनों ने स्पष्ट रूप से पता लगाया है कि उन्हें कैसे डेटा मिला है, उस डेटा को उपलब्ध करने के लिए, और इसे कुछ बहुत ही आसान उपभोज्य में उपलब्ध कराएं। संगठन को फैशन, हमेशा यह जानने के बिना कि संगठन को इसकी आवश्यकता क्यों हो सकती है, और प्रतियोगियों पर महत्वपूर्ण लाभ प्राप्त करें।

मुझे इस स्लाइड पर कुछ उदाहरण मिले हैं, जिन्हें आप देख सकते हैं। मेरी एक लाइन है, यह है कि लगभग हर उद्योग क्षेत्र में बड़े पैमाने पर व्यवधान, मेरे विचार में, डेटा द्वारा संचालित किया जा रहा है, और अगर वर्तमान रुझान कुछ भी हो जाए, तो मेरा विचार है कि हमने केवल वास्तव में प्राप्त किया है शुरू हुआ क्योंकि लंबे समय तक चलने वाले ब्रांड आखिरकार इसका क्या मतलब है और खेल में प्रवेश करते हैं, वे थोक में खेल में प्रवेश करने जा रहे हैं। जब डेटा के पहाड़ वाले प्रमुख रिटेलर्स डेटा पर कुछ ऐतिहासिक विश्लेषण लागू करना शुरू करते हैं, अगर उन्हें पता है कि यह मौजूद है, तो कुछ ऑनलाइन खिलाड़ियों को थोड़ा सा जियो कॉल मिलने वाला है।

लेकिन इनमें से अधिकांश ब्रांडों के साथ, मेरा मतलब है कि हमें Uber मिल गया है जो दुनिया की सबसे बड़ी टैक्सी कंपनी है। वे किसी भी टैक्सी के मालिक नहीं हैं, तो यह क्या है जो उन्हें जादू करता है, उनका डेटा क्या है? Airbnb, सबसे बड़ा आवास प्रदाता, हमें WeChat मिला, जो दुनिया की सबसे बड़ी फोन कंपनी है, लेकिन उन्हें कोई वास्तविक बुनियादी ढांचा नहीं मिला, और न ही कोई हैंडसेट, न ही कोई फोन लाइन। अलीबाबा, ग्रह पर सबसे बड़ा खुदरा विक्रेता है, लेकिन वे न ही किसी भी सूची के मालिक हैं। शब्द में सबसे बड़ी मीडिया कंपनी। मुझे लगता है कि अंतिम गणना में उनके पास 1.4 बिलियन सक्रिय डेटा उपयोगकर्ता थे, जो एक मनगढंत संख्या है। यह कहीं भी आस-पास नहीं है - मुझे लगता है कि किसी ने दावा किया था कि ग्रह का एक चौथाई वास्तव में हर दिन वहां है, और फिर भी यहां एक सामग्री प्रदाता है जो वास्तव में सामग्री नहीं बनाता है, उनके द्वारा सेवा किए जाने वाले सभी डेटा उनके द्वारा नहीं बनाए जाते हैं, यह उनके द्वारा बनाया गया है ग्राहक, और हम सभी इस मॉडल को जानते हैं।

सोसाइटेन, जिसके बारे में आपने सुना हो या न हो, यह एक स्थानीय ब्रांड है, मुझे लगता है कि यह उन देशों में से एक बैंक है जो वास्तव में पीयर-टू-पीयर लेंडिंग करता है, इसलिए दूसरे शब्दों में, इसके पास कोई पैसा नहीं है। सभी इसे करते हैं यह लेनदेन का प्रबंधन करता है और डेटा इसके नीचे बैठता है। नेटफ्लिक्स, हम सभी बहुत, उससे परिचित हैं। यहां एक दिलचस्प वन-लाइनर है। जब नेटफ्लिक्स कानूनी रूप से ऑस्ट्रेलिया में उपयोग करने में सक्षम था, जब आधिकारिक तौर पर इसकी घोषणा की गई थी, तो आपको इसे प्राप्त करने के लिए वीपीएन का उपयोग करने की आवश्यकता नहीं थी, दुनिया भर के कई लोग करते हैं - यदि आप इसे अपने स्थानीय क्षेत्र में नहीं पाते हैं - जब नेटफिक्स को ऑस्ट्रेलिया में लॉन्च किया गया था, इसने हमारे इंटरनेट लिंक पर अंतर्राष्ट्रीय बैंडविड्थ में 40 प्रतिशत की वृद्धि की, इसलिए इसने ऑस्ट्रेलिया में रातोंरात इंटरनेट उपयोग को लगभग दोगुना कर दिया, केवल एक एप्लिकेशन, एक क्लाउड-होस्टेड एप्लिकेशन जो डेटा के साथ खेलने के अलावा कुछ भी नहीं करता है। यह केवल एक मनमौजी स्थिति है।

और हां, हम सभी Apple और Google से परिचित हैं, लेकिन ये ग्रह पर सबसे बड़े सॉफ्टवेयर व्यवसाय हैं, फिर भी वे वास्तव में ऐप्स नहीं लिखते हैं। इन सभी संगठनों के साथ सुसंगत बात क्या है? ठीक है, यह डेटा है, और वे वहां नहीं पहुंचे क्योंकि उन्हें पता नहीं था कि उनका डेटा कहाँ है, और वे नहीं जानते कि इसे कैसे सूचीबद्ध किया जाए।

अब हम जो खोज रहे हैं वह यह है कि इस पूरे नए परिसंपत्ति वर्ग को डेटा के रूप में संदर्भित किया गया है, और कंपनियां इसके लिए जाग रही हैं। लेकिन उनके पास हमेशा उपकरण और जानकारी नहीं होती है और उस डेटा को मैप करने के लिए, उस सभी डेटा को कैटलॉग करने और उसे उपलब्ध करने के लिए, लेकिन हमने पाया है कि लगभग कोई भौतिक संपत्ति वाली कंपनियों ने रिकॉर्ड समय में उच्च बाजार मूल्य प्राप्त नहीं किया है। इस नए डेटा परिसंपत्ति वर्ग के माध्यम से। जैसा कि मैंने कहा है, पुराने खिलाड़ियों में से कुछ अब जाग रहे हैं और निश्चित रूप से इसे बाहर ला रहे हैं।

मैं थोड़ी यात्रा पर लोगों को लेने का बहुत बड़ा प्रशंसक हूं, इसलिए अठारह सौ, अठारहवीं सदी के अंत में, और आप अमेरिकी बाजार में इस से परिचित होंगे, यह पता चला कि एक जनगणना को चलाने के लिए प्रत्येक वर्ष या तो, मुझे लगता है कि उन्होंने उस बिंदु पर हर दस साल में उन्हें चलाया, लेकिन अगर आप हर साल एक जनगणना चलाने जा रहे हैं, तो आपको डेटा विश्लेषण करने में आठ या नौ साल लग सकते हैं। यह पता चला कि डेटा सेट तब कागज में स्थानों में बक्से में छोड़ दिया गया था, और लगभग कोई भी इसे नहीं ढूंढ सका। वे केवल इन रिपोर्टों को निकालते रहे, लेकिन वास्तविक डेटा को प्राप्त करना बहुत कठिन था, हमारे पास 1940 के दशक में, दूसरे विश्व युद्ध के साथ, एक अन्य विश्व महत्वपूर्ण क्षण के साथ एक ऐसी ही स्थिति है, और यह बात Bletchley Park Bombe ने BOMBE को मंत्रमुग्ध कर दिया है , और यह एक विशाल संख्या-क्रंचिंग विश्लेषणात्मक उपकरण था, जो छोटे डेटा सेटों के माध्यम से जाता था और इसमें सिग्नल ढूंढता था, और एनगामा के माध्यम से कोड को क्रैक करने में मदद करने के लिए उपयोग किया जाता था।

यह चीज़ फिर से, अनिवार्य रूप से डिज़ाइन किया गया उपकरण था, कैटलॉग के लिए नहीं, बल्कि डेटा को टैग और मैप करने के लिए, और पैटर्न लेना और डेटा सेट के अंदर इसे खोजने के लिए संभव बनाना, इस मामले में, कोड तोड़ें, कुंजी और वाक्यांश ढूंढें और खोजें। उन्हें नियमित रूप से डेटा सेट में, और इसलिए हम डेटा में चीजों को खोजने की इस यात्रा के माध्यम से किया गया है, और डेटा को सूचीबद्ध करने की ओर अग्रसर हैं।

और फिर ये चीजें साथ आईं, मशीनों के ये बड़े पैमाने पर कम लागत वाले रैक, सिर्फ ऑफ-द-शेल्फ मशीनें। और हमने कुछ बहुत ही दिलचस्प चीजें कीं, और उनमें से एक चीज जो हमने उनके साथ की, वह है हमने बहुत कम लागत वाले क्लस्टर बनाए जो ग्रह को अनुक्रमित करना शुरू कर सकते थे, और बहुत प्रसिद्ध ये बड़े ब्रांड जो आए और चले गए, लेकिन शायद Google का सबसे आम घर है ब्रांड जिसे हमने सुना है - यह एक वास्तविक क्रिया बन गया है, और आपको पता है कि जब आपका ब्रांड क्रिया बन जाता है तो आप सफल होते हैं। लेकिन Google ने जो कुछ भी सिखाया है, संभवत: व्यवसाय की दुनिया में, वह यह है कि वे पूरे ग्रह को एक निश्चित स्तर पर अनुक्रमित करने में सक्षम थे, और दुनिया भर के डेटा को सूचीबद्ध करते हैं, और इसे बहुत आसान में उपलब्ध कराते हैं, एक छोटा सा एक-लाइन सूत्र में सुविधाजनक रूप, एक वेब पेज जिस पर लगभग कुछ भी नहीं है, और आप अपनी क्वेरी में टाइप करते हैं, यह जाता है और इसे पाता है क्योंकि उन्होंने पहले ही ग्रह को क्रॉल कर दिया था, इसे अनुक्रमित किया और आसानी से उपलब्ध कराया।

और जो हमने देखा, "अच्छी तरह से लटका हुआ है, हम संगठनों में ऐसा कर रहे हैं - ऐसा क्यों है? ऐसा क्यों है कि हमें एक ऐसा संगठन मिला है जो पूरे ग्रह को मैप कर सकता है और उसे क्रॉल कर सकता है, क्रॉल कर सकता है और उसे उपलब्ध कर सकता है, हम उसे खोज सकते हैं, और फिर उस चीज़ पर क्लिक करके उसे ढूंढ सकते हैं, हम कैसे आए आंतरिक रूप से किया गया havent? ”तो अब दुनिया भर में मशीनों के इन छोटे रैक के बहुत सारे हैं जो इंट्रानेट और चीजों को खोजने के लिए करते हैं, लेकिन वे अभी भी वास्तव में पारंपरिक वेब पेज से परे जाने के विचार के साथ आ रहे हैं, या फ़ाइल सर्वर।

डेटा कैटलॉग की अगली पीढ़ी में कई तरीकों से प्रवेश करने के बजाय, पोस्ट-इट नोट्स और वाटर कूलर वार्तालापों के माध्यम से डेटा एक्सेस की खोज करना वास्तव में डेटा की खोज और अब कैटलॉगिंग के लिए एक उपयुक्त तरीका नहीं है, और वास्तव में, मुझे नहीं लगता कि यह वास्तव में कभी था। । हम अब उस पूरी चुनौती का नेतृत्व नहीं कर सकते हैं जो लोगों को सिर्फ नोट पास करने, और नोट्स पोस्ट करने और इसके बारे में बातचीत करने के लिए चुनौती देता है। अब हम उस क्षेत्र से अच्छी तरह से वाकिफ हैं जहाँ डेटा कैटलॉग के लिए यह अगली-जीन दृष्टिकोण आ गया है और चला गया है। हमें इसके चारों ओर अपनी भुजाएँ प्राप्त करनी होंगी। यदि यह एक आसान मुद्दा था, तो हम इसे पहले ही कई तरीकों से हल कर चुके होंगे, लेकिन मुझे लगता है कि यह एक आसान मुद्दा नहीं है, बस डेटा को इंडेक्स करना और कॉल करना इसका केवल एक हिस्सा है, यह जानना कि डेटा और बिल्डिंग मेटाडेटा में क्या है हम जो कुछ भी खोजते हैं उसके आसपास, और फिर इसे एक आसान, उपभोग्य रूप में उपलब्ध कराना, विशेष रूप से स्वयं-सेवा और विश्लेषण के लिए। यह अभी भी एक समस्या हल हो रही है, लेकिन पाँच वर्षों में पहेली के कई हिस्से अच्छी तरह से और सही मायने में हल किए गए और उपलब्ध हैं।

जैसा कि हम जानते हैं, डेटा को सूचीबद्ध करने वाला मनुष्य विफलता का एक नुस्खा है क्योंकि मानव त्रुटि सबसे बड़ी बुरे सपने में से एक है जिसे हम डेटा प्रोसेसिंग में निपटाते हैं, और मैं नियमित रूप से इस विषय पर बात करता हूं जहां मेरे विचार में, कागज के रूपों में भरने वाले मनुष्य शायद सबसे महान दुःस्वप्न हैं। हम बड़े डेटा और एनालिटिक्स के साथ काम करते हैं, लगातार उन चीजों को ठीक करने के लिए जो वे करते हैं, यहां तक कि दिनांक और फ़ील्ड जैसी सरल चीज़ों के लिए भी, लोग इसे गलत प्रारूप में डालते हैं।

लेकिन जैसा कि मैंने कहा है, हमने हर दिन इंटरनेट सर्च इंजन को दुनिया में देखा है, इसलिए अब हम यह सोच रहे हैं कि खोज प्रक्रिया में व्यावसायिक डेटा सेट पर किया जा सकता है, और उपकरण और सिस्टम अब हैं आसानी से उपलब्ध है जैसा कि आप आज सीखने वाले हैं। तो चाल, वास्तव में मेरे विचार में, सही उपकरण का चयन कर रहा है, नौकरी के लिए सबसे अच्छा उपकरण। और उस के ऊपर अधिक उचित रूप से, इसका सही हिस्सा खोजने में मदद करने के लिए आपको इस मार्ग को शुरू करना है। और मेरा मानना है कि हम आज के बारे में सुनने जा रहे हैं, लेकिन इससे पहले कि हम ऐसा करें, मैं अपने कॉलेज, रॉबिन ब्लोर को पारित करने जा रहा हूं और इस विषय पर उनकी बात सुनूंगा। रॉबिन, क्या मैं आपके ऊपर से गुजर सकता हूं?

रॉबिन ब्लोर: हां, निश्चित रूप से आप कर सकते हैं। चलो देखते हैं अगर यह काम करता है, ओह हाँ यह करता है। ठीक है, मैं वास्तव में डीज़ की तुलना में एक अलग दिशा से आ रहा हूं, लेकिन मैं उसी स्थान पर समाप्त हो जाऊंगा। यह डेटा से कनेक्ट करने के बारे में है, इसलिए मैंने अभी सोचा कि मैं डेटा से कनेक्ट होने की वास्तविकता से गुजरता हूं, वास्तव में बिंदु से इंगित करता हूं।

एक तथ्य यह है कि डेटा पहले से कहीं अधिक खंडित है। डेटा की मात्रा अभूतपूर्व रूप से बढ़ रही है, लेकिन वास्तव में, डेटा के विभिन्न स्रोत भी अविश्वसनीय दर से बढ़ रहे हैं, और इसलिए हर समय डेटा तेजी से खंडित होता जा रहा है। लेकिन विशेष रूप से विश्लेषिकी अनुप्रयोगों के कारण - लेकिन वे केवल अनुप्रयोग नहीं हैं - हमें इस डेटा से जुड़ने के लिए वास्तव में एक अच्छा कारण मिला है, इसलिए हम एक कठिन जगह में फंस गए हैं, हम खंडित डेटा की दुनिया में फंस गए हैं, और डेटा में अवसर के रूप में Dez इसे बुला रहा था, नया तेल।

डेटा के बारे में, अच्छी तरह से, यह फाइल सिस्टम या डेटाबेस में या तो कताई डिस्क पर रहता था। अब यह बहुत अधिक विविध वातावरण में रहता है, यह फाइल सिस्टम में रहता है लेकिन यह आजकल हडोप इंस्टेंसेस या स्पार्क इंस्टेंस में भी रहता है। यह डेटाबेस की कई प्रजातियों में रहता है। बहुत पहले नहीं, हमने कुछ रिलेशनल डेटाबेस को मानकीकृत किया, अच्छी तरह से आप जानते हैं कि पिछले पाँच वर्षों में खिड़की से बाहर चला गया, क्योंकि दस्तावेज़ डेटाबेस की आवश्यकता है, और ग्राफ़ डेटाबेस की आवश्यकता है, इसलिए आप जानते हैं, खेल है बदला हुआ। तो यह कताई डिस्क पर रहता था, लेकिन अब यह एसएसडी पर रहता है। एसएसडी की नवीनतम राशि - निश्चित रूप से नवीनतम एसएसडी इकाई सैमसंग से आ रही है - बीस गीगाबाइट, जो बहुत बड़ा है। अब यह स्मृति में रहता है, इस अर्थ में कि डेटा की मुख्य प्रति मेमोरी में हो सकती है, डिस्क पर होने के बजाय, हमने सिस्टम की तरह निर्माण करने के लिए उपयोग नहीं किया; अब हम करते हैं। और यह बादल में रहता है। इसका मतलब है कि यह इन चीजों में से किसी में भी रह सकता है, बादल में, आप जरूरी नहीं जानते कि यह एक बादल में कहां है, आपको केवल इसका पता होगा।

बस घर को इंगित करने के लिए, Hadoop अब तक एक एक्स्टेंसिबल डेटा स्टोर के रूप में विफल रहा है। हमें उम्मीद थी कि यह एक एक्स्टेंसिबल स्केल-आउट डेटा स्टोर बन जाएगा, और यह सब कुछ के लिए बस एक फ़ाइल सिस्टम बन जाएगा, और यह होगा - इंद्रधनुष आकाश में दिखाई देगा, मूल रूप से, और यूनिकॉर्न चारों ओर नृत्य करेंगे, और इसमें से कोई भी नहीं हुआ। जिसका अर्थ है कि हम डेटा ट्रांसपोर्ट की समस्या को समाप्त करते हैं, और कई बार डेटा ट्रांसपोर्ट के लिए कोई आवश्यकता नहीं होती है, लेकिन यह एक कठिनाई भी है। डेटा में वास्तव में आजकल गुरुत्वाकर्षण होता है, एक बार जब आप डेटा के बहु-टेराबाइट्स में जमा हो जाते हैं, तो इसे उठाते हैं और इसे चारों ओर फेंक देते हैं, इस तरह के कारण आपके नेटवर्क पर प्रकट होने के लिए, या विभिन्न स्थानों में प्रकट होते हैं। यदि आप डेटा को चारों ओर ले जाना चाहते हैं, तो टाइमिंग एक कारक है। लगभग हमेशा, आजकल, कुछ सीमाएँ हैं कि आपको एक चीज़ को प्राप्त करने के लिए कितना समय मिला है, एक डेटा एक स्थान से दूसरे स्थान पर। वहाँ होता था जो हम बैच विंडो के रूप में सोचते थे, जब मशीन एक प्रकार की निष्क्रिय थी, और आपके पास कितना भी डेटा था, आप बस इसे चारों ओर फेंक सकते हैं और यह सब बाहर काम करेगा। ठीक है, हम बहुत अधिक वास्तविक समय की दुनिया में रह रहे हैं। इसलिए समय एक कारक है। जैसे ही आप डेटा को चारों ओर ले जाना चाहते हैं, इसलिए यदि डेटा में गुरुत्वाकर्षण है, तो आप शायद इसे स्थानांतरित नहीं कर सकते।

डेटा प्रबंधन इस अर्थ में एक कारक है कि आपको वास्तव में इस सभी डेटा को प्रबंधित करने के लिए मिला है, आपको न तो मुफ्त में मिल रहा है, और न ही वास्तव में डेटा को उस काम को प्राप्त करने के लिए प्रतिकृति आवश्यक हो सकती है, क्योंकि यह करने की आवश्यकता है जहाँ भी आपने इसे रखा है, वह नहीं। डेटा का सामान्य प्रसंस्करण करने के लिए इसके पास पर्याप्त संसाधन नहीं हो सकते हैं। इसलिए डेटा को दोहराया जाता है, और जितना आप कल्पना करेंगे उससे अधिक डेटा दोहराया जाता है। मुझे लगता है कि किसी ने मुझे बहुत पहले बताया था कि डेटा का औसत टुकड़ा कम से कम ढाई गुना है। ईएसबी या काफ्का डेटा प्रवाह के लिए एक विकल्प प्रस्तुत करते हैं, लेकिन आजकल यह वास्तुकला की मांग करता है। आजकल आपको वास्तव में एक या दूसरे तरीके से सोचने की ज़रूरत है, कि डेटा को फेंकने का वास्तव में क्या मतलब है। इसलिए, डेटा को एक्सेस करने के लिए जहां यह है, आमतौर पर बेहतर होता है, जब तक कि निश्चित रूप से, आपको उस प्रदर्शन की आवश्यकता हो सकती है जब आप वास्तव में डेटा के लिए जाते हैं और जो कि कॉन पर निर्भर करता है। तो यह एक मुश्किल स्थिति है, वैसे भी। डेटा प्रश्नों के संदर्भ में, हम SQL के संदर्भ में सोचने में सक्षम थे, weve अब वास्तव में आते हैं, आप जानते हैं, विभिन्न प्रकार के क्वेरीज़, SQL हाँ, लेकिन आसन्न, ग्राफ़ क्वेरी भी, स्पार्क ग्राफ़ करने का केवल एक उदाहरण है , क्योंकि हमें भी खोज करने की आवश्यकता है, जितना हमने कभी किया था, उससे भी अधिक प्रकार की खोजें, जो कि वास्तव में पैटर्न के लिए जटिल खोजें, और वास्तविक पैटर्न से मेल खाती हैं, ये सभी चीजें वास्तव में बुदबुदाती हैं। और वे सभी उपयोगी हैं क्योंकि वे आपको वही प्राप्त करते हैं जो आप खोज रहे हैं, या वे आपको प्राप्त कर सकते हैं जो आप देख रहे हैं।

क्वेरीज़ अब कई डेटा फैलाती है, इसलिए यह हमेशा ऐसा नहीं करता है, और यदि आप ऐसा करते हैं तो अक्सर प्रदर्शन भयावह होता है। तो, यह परिस्थितियों पर निर्भर करता है, लेकिन लोग कई डेटा स्रोतों से डेटा को क्वेरी करने में सक्षम होने की उम्मीद करते हैं, इसलिए एक प्रकार या किसी अन्य का डेटा फेडरेशन अधिक से अधिक वर्तमान हो रहा है। डेटा वर्चुअलाइजेशन, जो प्रदर्शन के आधार पर इसे करने का एक अलग तरीका है, यह भी बहुत आम है। डेटा क्वेरी वास्तव में एक प्रक्रिया का एक हिस्सा है, न कि पूरी प्रक्रिया। यह केवल यह इंगित करने के लायक है कि यदि आप वास्तव में एनालिटिक्स प्रदर्शन देख रहे हैं, तो वास्तविक एनालिटिक्स डेटा एकत्र करने की तुलना में बहुत अधिक समय ले सकता है, क्योंकि यह परिस्थितियों पर निर्भर करता है, लेकिन यदि आप कोई भी करना चाहते हैं, तो डेटा क्वेरी एक परम आवश्यकता है कई डेटा स्रोतों पर विश्लेषण की तरह, और यह बस, आपको वास्तव में क्षमताओं को फैलाना होगा।

इसलिए कैटलॉग के बारे में।कैटलॉग एक कारण के लिए मौजूद हैं, कम से कम हम कह रहे हैं कि, आप जानते हैं, इसकी, हमारे पास निर्देशिकाएं हैं, और हमारे पास डेटाबेस में स्कीमा हैं, और हमारे पास प्रत्येक कैटलॉग है और आपके पास जहां भी आप जाते हैं, आपको एक जगह मिलेगी और फिर आप वास्तव में पाएंगे पता लगाएं कि कुछ प्रकार की कैटलॉग है, और एकीकृत वैश्विक कैटलॉग इस तरह का एक अच्छा विचार है। लेकिन बहुत कम कंपनियों में ऐसा होता है। मुझे याद है, वर्ष में दो हज़ार - वर्ष दो हज़ार घबराहट - मुझे याद है कि कम्युनिस्ट यह भी बता सकते हैं कि उनके पास कितने निष्पादक थे, उनके पास कभी नहीं था कि उनके पास कितने अलग-अलग डेटा स्टोर हैं, और शायद अब यह मामला है, आप पता है, कि ज्यादातर कंपनियां वैश्विक अर्थों में सक्रिय रूप से नहीं जानती हैं कि उन्हें क्या डेटा मिला है। लेकिन यह स्पष्ट रूप से एक वैश्विक कैटलॉग, या कम से कम डेटा स्रोतों की वृद्धि, और अनुप्रयोगों के निरंतर विकास के कारण क्या चल रहा है की एक वैश्विक तस्वीर है के लिए तेजी से आवश्यक होता जा रहा है, और यह विशेष रूप से विश्लेषिकी के लिए आवश्यक है, क्योंकि आप एक तरह से भी हैं, और यहाँ अन्य मुद्दे भी हैं जैसे वंश और डेटा के साथ समस्याएं, और यह सुरक्षा के लिए आवश्यक है, डेटा शासन के कई पहलू, यदि आप वास्तव में नहीं जानते कि आपको क्या डेटा मिला है, तो विचार है कि आप यह केवल बेतुका है शासन करने के लिए जा रहे हैं। तो, उस में, किसी भी तरह से सभी डेटा को सूचीबद्ध किया जाता है। सवाल यह है कि क्या सूची सुसंगत है, और वास्तव में आप इसके साथ क्या कर सकते हैं। तो मैं रेबेका को वापस कर दूंगा।

रेबेका जोजवाक: ठीक है, धन्यवाद रॉबिन। अगली बार हमें अल्वेशन से डेविड क्रॉफर्ड मिला है, डेविड मैं आगे जा रहा हूं और आपको गेंद को पास कर दूंगा, और आप इसे ले जा सकते हैं।

डेविड क्रॉफोर्ड: बहुत बहुत धन्यवाद। मैं वास्तव में आप लोगों की सराहना करता हूं कि इस शो में मेरे पास हैं। मुझे लगता है कि मैं इसे शुरू करने जा रहा हूं, इसलिए मुझे लगता है कि मेरी भूमिका यहां है, उस सिद्धांत को लेना है और देखना है कि यह वास्तव में कैसे लागू किया जाता है, और परिणाम जो हम वास्तविक ग्राहकों पर ड्राइव करने में सक्षम हैं और इसलिए आप देख सकते हैं स्लाइड पर कुछ, मैं इस बारे में बात करना चाहता हूं कि हम विश्लेषणात्मक रूप से संभावित सुधारों में कौन से परिणाम देख पाएंगे। इसलिए चर्चा को प्रेरित करने के लिए, हम इस बारे में बात करने जा रहे हैं कि वे वहां कैसे पहुंचे। इसलिए मैं भाग्यशाली हूं कि वास्तव में बहुत सारे स्मार्ट लोगों, इन ग्राहकों के साथ मिलकर काम करने के लिए मैं बहुत करीब हूं, और मैं केवल कुछ लोगों को इंगित करना चाहता हूं जो वास्तव में मापने में सक्षम हैं, और इस बारे में बात करते हैं कि डेटा कैटलॉग ने उनके विश्लेषक को कैसे प्रभावित किया है। कार्यप्रवाह। और बस संक्षेप में सामने रहने के लिए, मुझे लगता है कि चीजों में से एक है जिसे हम परिवर्तन देखते हैं, डेटा कैटलॉग पिछले मध्यस्थ समाधानों को छंद करता है और उन तरीकों में से एक है जो संबंध वास्तव में उन समाधानों के बारे में सोचते हैं जो हम एक साथ रखते हैं, विश्लेषकों से शुरू करना है। और पीछे की ओर काम करते हैं। कहने के लिए, यह विश्लेषकों की उत्पादकता को सक्षम करने के बारे में बनाता है। जैसा कि केवल अनुपालन के विपरीत, या केवल एक इन्वेंट्री होने के विपरीत, हम एक उपकरण बना रहे हैं जो विश्लेषकों को अधिक उत्पादक बनाता है।

इसलिए, जब मैं वित्तीय सेवा कंपनी स्क्वायर के एक डेटा साइंटिस्ट से बात करता हूं, तो एक लड़का है, निक, जो हमें इस बारे में बता रहा है कि कैसे, एक रिपोर्ट शुरू करने के लिए सही डेटा सेट खोजने के लिए उसे कई घंटे लगते थे, अब वह कर सकता है बाजार हिस्सेदारी पर खोज का उपयोग करते हुए सेकंड के मामले में, हमने उनके सीटीओ से बात की, जिन्होंने अपने विश्लेषकों को खींचा जो स्क्वायर का उपयोग कर रहे थे, मुझे माफ करना, अलेशन का उपयोग कर रहे थे, यह पता लगाने के लिए कि उनके, क्या लाभ देखे, और उन्होंने एक 50 की सूचना दी प्रतिशत उत्पादकता में वृद्धि, और यह कि, दुनिया के शीर्ष खुदरा विक्रेताओं में से एक, ईबे, उनके पास एक हजार से अधिक लोग हैं जो नियमित रूप से एसक्यूएल विश्लेषण कर रहे हैं, और मैं वहां पर डेब सेस के साथ मिलकर काम करता हूं, जो परियोजना है उनकी डेटा टूल टीम में प्रबंधक, और उन्होंने पाया कि जब क्लेयर अल्शन को अपनाते हैं, तो एक कैटलॉग को अपनाते हैं, वे डेटाबेस के खिलाफ नए प्रश्नों को लिखने की गति को दोगुना कर रहे हैं।

तो ये वास्तविक परिणाम हैं, ये लोग वास्तव में अपने संगठन में कैटलॉग को लागू कर रहे हैं, और मैं आपको इसे स्थापित करने के लिए क्या लेना चाहता हूं। एक कंपनी में एक कैटलॉग कैसे स्थापित हो जाता है, और शायद सबसे महत्वपूर्ण बात यह कहना है, कि इसका बहुत कुछ स्वचालित रूप से होता है, इसलिए डीज़ ने सिस्टम के बारे में बात की, सिस्टम के बारे में सीखा, और यह वही है जो एक आधुनिक डेटा कैटलॉग करता है। इसलिए वे अपने डेटा सेंटर में Alation इंस्टॉल करते हैं और फिर वे इसे अपने डेटा वातावरण में मेटाडेटा के विभिन्न स्रोतों से जोड़ते हैं। मैं डेटाबेस और बीआई टूल पर थोड़ा ध्यान केंद्रित करूंगा - इन दोनों से हम तकनीकी मेटाडेटा को निकालने जा रहे हैं, जो मूल रूप से मौजूद हैं। सही है, तो क्या टेबल? क्या रिपोर्ट? रिपोर्ट की परिभाषाएं क्या हैं? इसलिए वे उस तकनीकी मेटाडेटा को निकालते हैं, और एक कैटलॉग पेज स्वचालित रूप से उन सिस्टम के अंदर प्रत्येक ऑब्जेक्ट के लिए बनाया जाता है, और फिर, वे उस तकनीकी मेटाडेटा के शीर्ष पर भी निकालते हैं और परत करते हैं, वे उपयोग डेटा के ऊपर परत करते हैं। यह मुख्य रूप से डेटाबेस से क्वेरी लॉग पढ़कर किया जाता है, और यह वास्तव में जानकारी का एक दिलचस्प स्रोत है। इसलिए, जब भी कोई विश्लेषक एक क्वेरी लिखता है, जब भी कोई रिपोर्टिंग टूल, चाहे वह घर में उगाया गया हो, या शेल्फ से बाहर हो, चाहे डैशबोर्ड को अपडेट करने के लिए एक रिपोर्टिंग टूल क्वेरी चलाता है, जब कोई एप्लिकेशन डेटा को संचालित करने के लिए डेटा डालने के लिए क्वेरी चलाता है। एक डेटा सेट - उन सभी चीजों को डेटाबेस क्वेरी लॉग में कैप्चर किया जाता है। आपके पास कैटलॉग है या नहीं, वे डेटाबेस के साथ क्वेरी लॉग में कैप्चर किए जाते हैं। डेटा कैटलॉग क्या कर सकता है, और विशेष रूप से ऑल्यूशन कैटलॉग क्या कर सकता है, उन लॉग्स को पढ़ता है, उनके अंदर के प्रश्नों को पूछता है, और उन लॉग्स के आधार पर वास्तव में एक दिलचस्प उपयोग ग्राफ बनाता है, और हम भविष्य के उपयोगकर्ताओं को सूचित करने के लिए इसे खेलते हैं। डेटा के पिछले उपयोगकर्ताओं ने इसका उपयोग कैसे किया है इसके बारे में डेटा।

इसलिए, हम उस सभी ज्ञान को एक सूची में एक साथ लाते हैं, और इस तरह का वास्तविक बनाने के लिए, ये ऐसे एकीकरण हैं जो पहले से ही ग्राहकों पर तैनात हैं, इसलिए, हमने Oracle, Teradata, Redshift, Vertica और अन्य का एक गुच्छा देखा है। संबंधपरक डेटाबेस। Hadoop की दुनिया में, Hadoop पर SQL की एक श्रृंखला है, Hadoop फ़ाइल सिस्टम के शीर्ष पर रिलेशनल, मेटा स्टोर्स की तरह, इम्पाला, Tez, प्रेस्टो और Hive, हमने Altiscale जैसे क्लाउड Hopop निजी प्रदाताओं के साथ भी सफलता देखी है, और हम भी झांकी सर्वर, MicroStrategy सर्वर से कनेक्ट करने और डैशबोर्ड्स को इंडेक्स करने में सक्षम है, साथ ही साथ प्लॉटली जैसे डेटा साइंस चार्टिंग टूल के साथ एकीकरण भी।

इसलिए, हम इन सभी प्रणालियों से जुड़ते हैं, हमने इन प्रणालियों को ग्राहकों से जोड़ा है, हमने तकनीकी मेटाडेटा में खींच लिया है, हमने उपयोग डेटा में खींच लिया है, और हम डेटा कैटलॉग को स्वचालित रूप से छांटते हैं, लेकिन उस तरह से, हम ज्ञान को केंद्रीकृत करें, लेकिन सिर्फ डेटा कैटलॉग में चीजों को केंद्रीकृत करने से, वास्तव में उन अद्भुत उत्पादकता को बढ़ावा देता है जो हम eBay, स्क्वायर और बाजार हिस्सेदारी के बारे में बात करते हैं। ऐसा करने के लिए, हमें वास्तव में विश्लेषकों को ज्ञान देने के बारे में सोचने के तरीके को बदलने की आवश्यकता है। उनमें से एक प्रश्न जो वे इसके लिए तैयार करने के लिए कह रहे हैं, वह था "कैटलॉग वास्तव में एक विश्लेषक के वर्कफ़्लो को कैसे प्रभावित करता है?"

यह वही है जो हम पूरे दिन के बारे में सोचकर बिताते हैं, और सोच में इस बदलाव के बारे में बात करने के लिए, एक पुश मॉडल को खींचता है, मैं चाहता था कि एक किंडल पर पढ़ने से पहले और बाद में दुनिया क्या थी। तो यह सिर्फ एक अनुभव है जो आप में से कुछ हो सकता है, जब आप एक भौतिक पुस्तक पढ़ रहे हों, तो आप एक शब्द भर में आते हैं, आपको यकीन नहीं है कि आपको पता है कि शब्द की परिभाषा सुपर अच्छी तरह से है, आप शायद इसे अनुमान से अनुमान लगा सकते हैं, न कि संभावना है कि आप सोफे से उठने के लिए जा रहे हैं, अपने बुकशेल्फ़ पर जाएं, अपना शब्दकोश ढूंढें, उसे धूल चटाएं और यह सुनिश्चित करने के लिए शब्दों की वर्णमाला सूची में सही जगह पर फ्लिप करें, हाँ, आपके पास वह परिभाषा बस सही थी, और आप जानते हैं इसकी बारीकियां। तो यह वास्तव में नहीं होता है। इसलिए आप एक किंडल ऐप खरीदते हैं और आप वहां किताबें पढ़ना शुरू करते हैं, और आप एक ऐसा शब्द देखते हैं जिसके बारे में आप पूरी तरह से निश्चित नहीं हैं और आप इस शब्द को छू लेते हैं। उसी स्क्रीन में अचानक, सही शब्द की शब्द परिभाषा है, इसकी सभी बारीकियों के साथ, विभिन्न उदाहरण usages, और आप थोड़ा स्वाइप करते हैं, और आपको उस विषय पर एक विकिपीडिया लेख मिलता है, आप फिर से स्वाइप करते हैं, आपको एक अनुवाद उपकरण मिलता है जो इसे अन्य भाषाओं में या अन्य भाषाओं से अनुवाद कर सकता है, और अचानक भाषा का आपका ज्ञान इतना अधिक समृद्ध होता है, और यह सिर्फ एक आश्चर्यजनक संख्या में होता है, जबकि आपको जाना था और उस संसाधन को अपने लिए खींचो।

और इसलिए मैं जो तर्क देने जा रहा हूं, वह यह है कि एक विश्लेषक के लिए वर्कफ़्लो और जिस तरह से एक विश्लेषक डेटा डॉक्यूमेंटेशन से निपटेगा, वह वास्तव में बहुत ही समान है कि कैसे एक पाठक शब्दकोश के साथ बातचीत करेगा, चाहे एक भौतिक हो, या यद्यपि किंडल, और इसलिए हम क्या करते हैं, जिस तरह से हमने वास्तव में इस उत्पादकता को बढ़ावा दिया है, वह कैटलॉग को स्पिल नहीं कर रहा है, लेकिन इसे विश्लेषक के वर्कफ़्लो से जोड़ रहा है, और इसलिए, उन्होंने मुझे यहां एक डेमो करने के लिए कहा है, और मैं चाहता हूं इस प्रस्तुति का फ़ोकस बनाने के लिए। लेकिन मैं सिर्फ डेमो के लिए कोन सेट करना चाहता हूं। जब हम उपयोगकर्ताओं को डेटा ज्ञान को धक्का देने के बारे में सोचते हैं जब उन्हें इसकी आवश्यकता होती है, तो हम सोचते हैं कि ऐसा करने के लिए सही जगह है, वह स्थान जहां वे अपना समय बिताते हैं और जहां वे विश्लेषण कर रहे हैं, एक SQL क्वेरी उपकरण है। ऐसी जगह जहाँ आप SQL क्वेरी लिखते और चलाते हैं। और इसलिए हमने एक बनाया, और हमने इसे बनाया, और यह बात अन्य क्वेरी टूल्स से इसके बारे में वास्तव में अलग है, डेटा कैटलॉग के साथ इसका गहन एकीकरण है।

तो हमारे क्वेरी टूल को Alation Compose कहा जाता है। इसका वेब-आधारित क्वेरी टूल और इल आपको इसे एक सेकंड में दिखाता है। एक वेब-आधारित क्वेरी टूल जो उन सभी डेटाबेस लोगो पर काम करता है जिन्हें आपने पिछली स्लाइड पर देखा था। Im विशेष रूप से डेमो करने की कोशिश करने जा रहा है वह तरीका है जो कैटलॉग जानकारी उपयोगकर्ताओं के लिए आता है। और यह इस तरह के तीन अलग-अलग तरीकों से करता है। यह हस्तक्षेपों के माध्यम से करता है, और ऐसा होता है, जहां कोई व्यक्ति डेटा गवर्नर, या डेटा स्टूअर्ड, या किसी तरह के प्रशासक या किसी प्रबंधक, या किसी तरह का व्यवस्थापक कह सकता है, "मैं एक नोट या चेतावनी के साथ हस्तक्षेप करना चाहता हूं वर्कफ़्लो और सुनिश्चित करें कि यह सही समय पर उपयोगकर्ताओं को वितरित किया गया है। ”तो यह एक हस्तक्षेप और अच्छी तरह से दिखाता है।

स्मार्ट सुझाव एक ऐसा तरीका है जहां टूल कैटलॉग के अपने सभी एकत्रित ज्ञान का उपयोग करके ऑब्जेक्ट और क्वेरी के कुछ हिस्सों को सुझाव देता है जैसा कि आप इसे लिख रहे हैं। वहाँ जानने के लिए सबसे महत्वपूर्ण बात यह है कि यह वास्तव में क्वेरी लॉग का लाभ उठाता है, ताकि उपयोग के आधार पर चीजों का सुझाव दिया जा सके और प्रश्नों के उन हिस्सों को भी खोजा जा सके जो पहले लिखे गए हैं। और अच्छी तरह से दिखाओ।

और फिर पूर्वावलोकन। पूर्वावलोकन हैं, जैसा कि आप ऑब्जेक्ट के नाम से टाइप करते हैं, हम आपको वह सब कुछ दिखाते हैं जो कैटलॉग जानता है, या कम से कम सबसे अधिक प्रासंगिक चीजें जो कैटलॉग उस ऑब्जेक्ट के बारे में जानता है। तो डेटा के नमूने, जिन्होंने इसे पहले इस्तेमाल किया था, उस वस्तु का तार्किक नाम और विवरण, सभी आपके पास आते हैं जबकि आप इसे लिखने के लिए जाने बिना इसे लिखते हैं।

तो बिना किसी और बात के, बीमार डेमो के लिए मिलता है, और मैं बस इसके प्रकट होने का इंतजार करने जा रहा हूं। Im आपको यहां क्या दिखाने जा रहा है, यह क्वेरी टूल है। इसका एक समर्पित SQL लेखन इंटरफ़ेस है। एक निश्चित अर्थ में, कैटलॉग से इसका अलग इंटरफ़ेस। डीज़ और रॉबिन ने कैटलॉग के बारे में बात की, और इम ने कैटलॉग इंटरफ़ेस पर थोड़ा सा छलांग लगाई कि कैसे सीधे अपने वर्कफ़्लो को सेवा में लाया।

मैं यहाँ एक जगह दिखा रहा हूँ जहाँ मैं एसक्यूएल टाइप कर सकता हूँ, और नीचे आप देख सकते हैं कि हम वस्तुओं के बारे में कुछ ऐसी जानकारी रखते हैं जो संदर्भित कर रहे थे। इसलिए जब मैं इनमें से किसी एक हस्तक्षेप पर पहुँचता हूँ तो Im एक क्वेरी और Ill stop लिखना शुरू करता हूँ। तो बीमार "चयन करें," और मैं वर्ष चाहता हूं। मुझे नाम चाहिए। और Im कुछ वेतन डेटा देखने जा रहा हूं। तो यह एक शिक्षा डेटा सेट है। इसमें उच्च शिक्षा संस्थानों के बारे में जानकारी है, और Im इन तालिकाओं में से एक में औसत संकाय वेतन को देख रहा है।

इसलिए Ive ने वास्तव में "वेतन" शब्द टाइप किया। यह बिल्कुल उस तरह से कॉलम के नाम पर नहीं है। हम सुझाव देने के लिए तार्किक मेटाडेटा और भौतिक मेटाडेटा दोनों का उपयोग करते हैं। और जो मैं यहां इंगित करना चाहता हूं वह यह है कि यह पीले रंग का बॉक्स है। यह कहता है कि इस स्तंभ पर एक चेतावनी है। मैं उस के लिए देख रहा था, मैं इस डेटा का उपयोग कैसे ठीक से करने के लिए एक वर्ग ले लिया। यह मेरे पास आया, और यह एक गोपनीयता समझौते के बारे में एक चेतावनी है जो इस डेटा के साथ करना है। तो कुछ प्रकटीकरण नियमों के अनुसार। यदि Im इस डेटा को क्वेरी करने जा रहा है, तो Im इस तालिका से डेटा लेने जा रहा है, मुझे इस बारे में सावधान रहना चाहिए कि मैं इसे कैसे प्रकट करता हूं। इसलिए आपके यहाँ शासन की नीति है। कुछ अनुपालन चुनौतियों का सामना करता है जो इस नीति का अनुपालन करने के लिए बहुत आसान बनाता है जब मुझे उस समय के बारे में पता होता है कि Im डेटा को देख रहा है।

इसलिए Ive मेरे पास आ रहा है, और फिर Im भी ट्यूशन देखने जा रहा है। और यहाँ हम प्रीव्यू को खेलते हुए देखते हैं। इस ट्यूशन कॉलम पर, मैं देखता हूं - संस्थान की मेज पर एक ट्यूशन कॉलम, और Im उस की एक प्रोफ़ाइल देखकर। Alation जाता है और टेबलों से सैंपल डेटा खींचता है, और इस मामले में, यह मुझे कुछ दिलचस्प दिखा रहा है। इसका मुझे मूल्यों के वितरण से पता चलता है, और मुझे यह दिखाते हुए कि शून्य मान नमूने में 45 गुना, और किसी भी अन्य मूल्य से अधिक दिखा। इसलिए Ive को कुछ समझ में आया कि हम कुछ डेटा गायब कर रहे हैं।

यदि Im एक उन्नत विश्लेषक है, तो यह पहले से ही मेरे वर्कफ़्लो का हिस्सा हो सकता है। खासकर अगर Im एक विशेष रूप से सावधानीपूर्वक, जहां मैं समय से पहले प्रोफाइलिंग प्रश्नों का एक समूह बनाऊंगा। जब भी Im डेटा के एक नए टुकड़े के करीब आता है, मैं हमेशा सोचता हूं कि हमारा डेटा कवरेज क्या है। लेकिन अगर Im डेटा विश्लेषण के लिए नया है, अगर Im इस डेटा सेट के लिए नया है, तो मैं मान सकता हूं कि यदि कोई कॉलम, उसके सभी समय में भरा हुआ है। या मैं यह मान सकता हूं कि यदि यह नहीं भरा है, तो यह शून्य नहीं है, यह शून्य या ऐसा कुछ है। लेकिन इस मामले में, हमारे पास बहुत सारे शून्य हैं, और अगर मैंने एक औसत किया, तो वे शायद गलत होंगे, अगर मैंने सिर्फ यह मान लिया कि वे शून्य वास्तव में लापता डेटा के बजाय शून्य थे।

लेकिन Alation, इस पूर्वावलोकन को आपके वर्कफ़्लो में लाकर, आपको इस जानकारी पर एक नज़र डालने के लिए कहता है और यहां तक कि नौसिखिए विश्लेषकों को यह देखने का मौका देता है कि उस डेटा के बारे में यहाँ कुछ नोटिस करने के लिए। तो हमारे पास वह पूर्वावलोकन है।

Im जो करने जा रहा है वह अगली चीज है, यह जानने की कोशिश करने जा रहा है कि यह जानकारी किस तालिकाओं से मिलेगी। इसलिए यहां हम स्मार्ट सुझावों को देखते हैं। यह हर समय जा रहा है, लेकिन विशेष रूप से यहां, मैंने कुछ भी टाइप किया है, लेकिन इसका सुझाव मुझे जा रहा है कि मैं इस क्वेरी के लिए कौन सी तालिका का उपयोग करना चाहता हूं। और इसके बारे में जानने के लिए सबसे महत्वपूर्ण बात यह है कि यह उपयोग के आँकड़ों का लाभ उठाता है। उदाहरण के लिए, उदाहरण के लिए, ईबे, जहां आपके पास एक डेटाबेस में सैकड़ों हज़ारों टेबल हैं, एक ऐसा उपकरण है जो गेहूं के टुकड़े से टकरा सकता है और उन उपयोग के आँकड़ों का उपयोग कर सकता है, वास्तव में इन्हें बनाने के लिए महत्वपूर्ण है कुछ लायक सुझाव।

तो यह इस तालिका का सुझाव देने के लिए जा रहा है। जब मैं पूर्वावलोकन देखता हूं, तो हम वास्तव में उन तीन स्तंभों को उजागर करते हैं जिनका मैंने पहले ही उल्लेख किया है। तो मुझे पता है कि इसके तीन मिल गए, लेकिन इसका नाम नहीं है। मुझे नाम प्राप्त करने की आवश्यकता है, इसलिए मैं एक जॉइन करने जा रहा हूं। जब मैं एक जॉइन करता हूं, तो अब मुझे ये ढूंढने में मदद मिलेगी कि मुझे नाम के साथ टेबल कहां है। इसलिए मैं देखता हूं कि यह एक अच्छी तरह से स्वरूपित है, ठीक तरह से पूंजीकृत नाम। ऐसा लगता है कि प्रत्येक संस्थान के लिए एक नाम के साथ एक पंक्ति है, इसलिए Im उसे हथियाने जा रहा हूं, और अब मुझे एक सम्मिलित स्थिति की आवश्यकता है।

और इसलिए, यहाँ जो Alation कर रहा है, वह फिर से क्वेरी लॉग में दिख रहा है, पिछली बार यह देखते हुए कि ये दोनों टेबल जुड़ गए हैं, और उन्हें शामिल करने के लिए अलग-अलग तरीके सुझा रहे हैं। एक बार फिर, कुछ हस्तक्षेप के साथ। यदि मैं इनमें से किसी एक को देखता हूं, तो इसकी चेतावनी मिली जो मुझे दिखाती है कि इसका उपयोग केवल समग्र विश्लेषण के लिए किया जाना चाहिए। यदि आप संस्था द्वारा संस्था के माध्यम से कुछ करने की कोशिश कर रहे हैं तो शायद यह गलत चीज का उत्पादन करेगा। जबकि यह एक, OPE ID के साथ इन दो तालिकाओं में शामिल होने के उचित तरीके के रूप में समर्थित है, यदि आप विश्वविद्यालय स्तर के डेटा चाहते हैं। इसलिए मैं ऐसा करता हूं, और इसकी एक छोटी क्वेरी है, लेकिन Ive ने वास्तव में जरूरी डेटा के बारे में कोई जानकारी नहीं होने के बिना मेरी क्वेरी लिखी है। Ive ने वास्तव में इस डेटा सेट के ईआर आरेख को कभी नहीं देखा, लेकिन मैं इस डेटा के बारे में पहले से ही काफी कुछ जानता हूं क्योंकि प्रासंगिक जानकारी मेरे पास आ रही है।

इसलिए, वे तीन तरीके हैं जो एक कैटलॉग कर सकते हैं, एक एकीकृत क्वेरी टूल के माध्यम से, सीधे प्रश्न लिखने के रूप में वर्कफ़्लो को प्रभावित कर सकते हैं। लेकिन एक क्वेरी टूल के कैटलॉग के साथ एकीकृत होने के अन्य लाभों में से एक यह है कि, जब मैं अपनी क्वेरी समाप्त करता हूं और मैं इसे सहेजता हूं, तो मैं "इंस्टीट्यूशन ट्यूशन एंड फैकल्टी सैलरी" जैसे शीर्षक रख सकता हूं, और फिर मेरे पास यहां एक बटन है मुझे सिर्फ कैटलॉग में प्रकाशित करने की अनुमति देता है। मेरे लिए इस पीठ को खिलाना बहुत आसान हो गया। यहां तक कि अगर मैं इसे प्रकाशित नहीं करते हैं, तो इसे क्वेरी लॉग के भाग के रूप में कैप्चर किया जा रहा है, लेकिन जब मैं इसे प्रकाशित करता हूं, तो यह वास्तव में उस तरीके का हिस्सा बन जाता है जहां केंद्रीकृत जगह होती है जहां सभी डेटा ज्ञान रहते हैं।

इसलिए अगर मैं खोज में सभी प्रश्नों के लिए क्लिक करता हूं, तो Im लिया जा रहा है - और यहां आपको कैटलॉग इंटरफ़ेस के कुछ और विकल्प दिखाई देंगे - Im एक समर्पित क्वेरी खोज में ले जाया गया जो मुझे पूरे संगठन में प्रश्नों को खोजने का एक तरीका दिखाता है। और आप देखते हैं कि मेरी नई प्रकाशित क्वेरी शीर्ष पर है। और कुछ यहाँ पर नोटिस कर सकते हैं, जैसा कि हम प्रश्नों को कैप्चर करते हैं, हम लेखकों को भी कैप्चर करते हैं, और हम एक लेखक और इन डेटा ऑब्जेक्ट्स के रूप में मेरे बीच इस संबंध को स्थापित करते हैं, जिसके बारे में मुझे अब कुछ पता है। और Im इस क्वेरी पर और इन डेटा ऑब्जेक्ट पर एक विशेषज्ञ के रूप में स्थापित किया जा रहा है। थॉट्स वास्तव में मददगार होते हैं जब लोगों को डेटा के बारे में जानने की जरूरत होती है, तब वे सही व्यक्ति के बारे में जानने के लिए जा सकते हैं। और अगर Im वास्तव में डेटा के लिए नया है, चाहे Im एक उन्नत विश्लेषक - एक उन्नत विश्लेषक के रूप में, मैं इसे देख सकता हूं और उन उदाहरणों का एक गुच्छा देख सकता हूं जो मुझे एक नए डेटा सेट पर शुरू करेंगे। किसी ऐसे व्यक्ति के रूप में जो SQL के साथ सुपर प्रेमी महसूस नहीं कर सकता है, मुझे पूर्व-निर्मित प्रश्न मिल सकते हैं जो ऐसी रिपोर्टें हैं जिनका मैं लाभ उठा सकता हूं।

मंझला सैट स्कोर के बारे में फिल माजानेट द्वारा एक। इस पर क्लिक करें, और मुझे क्वेरी के लिए केवल एक कैटलॉग पेज मिलता है। यह एक लेख के बारे में बात करता है जो लिखा गया था कि इस क्वेरी को संदर्भित करता है, इसलिए मुझे पढ़ने के लिए कुछ दस्तावेज़ीकरण की आवश्यकता होती है यदि मैं सीखना चाहता हूं कि इसका उपयोग कैसे करना है। और मैं इसे कंपोज बटन पर क्लिक करके क्वेरी टूल में खोल सकता हूं, और मैं इसे बिना एडिट किए भी इसे यहां चला सकता हूं। और वास्तव में, आपको हमारी हल्की रिपोर्टिंग क्षमताओं का थोड़ा सा हिस्सा देखने को मिलता है, जहां, जब आप एक प्रश्न लिख रहे होते हैं, तो आप इस तरह से एक टेम्प्लेट चर में छोड़ सकते हैं और यह क्वेरी के आधार पर फॉर्म निष्पादित करने का एक सरल तरीका बनाता है मापदंडों के कुछ।

इसलिए डेमो के लिए मेरे पास जो कुछ है वह है। Im स्लाइड्स पर वापस जा रहा हूँ।बस पुनरावृत्ति के लिए, हमने दिखाया कि कैसे एक व्यवस्थापक, एक डेटा गवर्नर, क्वेरी टूल में दिखाई देने वाली वस्तुओं पर चेतावनी देकर हस्तक्षेप कर सकता है, कैसे Alation स्मार्ट सुझावों का उपयोग करने के लिए डेटा ऑब्जेक्ट्स के उपयोग के अपने ज्ञान का उपयोग करता है, यह कैसे लाता है प्रोफाइलिंग और अन्य युक्तियों में विश्लेषकों की वर्कफ़्लोज़ को बेहतर बनाने के लिए जब वे विशेष वस्तुओं को छूते हैं, और नए प्रश्नों के लिखे जाने पर उस तरह के सभी फीड में कैसे वापस आते हैं।

जाहिर है मैं कंपनी की ओर से एक प्रवक्ता हूं। Im डेटा कैटलॉग के बारे में अच्छी बातें कहने जा रहा हूं। यदि आप हमारे ग्राहकों में से एक से सीधे सुनना चाहते हैं, तो Safeway में क्रिस्टी एलन विश्लेषकों की एक टीम चलाता है और एक समय के बारे में एक बहुत अच्छी कहानी है जब उसे विपणन प्रयोग देने के लिए घड़ी को वास्तव में हरा देने की आवश्यकता होती है, और उसकी पूरी कैसे होती है टीम ने सहयोग के लिए और उस परियोजना पर वास्तव में जल्दी से बारी करने के लिए Alation का उपयोग किया। तो आप उस कहानी की जाँच करने के लिए इस bit.ly लिंक का अनुसरण कर सकते हैं, या यदि आप इस बारे में थोड़ा सुनना चाहते हैं कि कैसे Alation आपके संगठन में डेटा कैटलॉग ला सकता है, तो हम एक व्यक्तिगत डेमो सेट करके खुश हैं। बहुत बहुत धन्यवाद।

रेबेका जोजवाक: बहुत बहुत धन्यवाद, डेविड। मुझे यकीन है कि इससे पहले कि मैं दर्शकों को क्यू एंड ए में बदल दूं, डीज़ और रॉबिन के कुछ सवाल हैं। Dez, क्या आप पहले जाना चाहते हैं?

डीज़ ब्लांचफील्ड: पूर्ण रूप से। मुझे प्रकाशित प्रश्नों की इस अवधारणा का विचार पसंद है और इसे संलेखन के स्रोत से जोड़ना है। Ive इन-हाउस ऐप स्टोर के इस विचार का एक लंबे समय तक चैंपियन रहा है और मुझे लगता है कि यह उस पर निर्माण करने के लिए एक बहुत बड़ी नींव है।

मैं कुछ संगठनों में कुछ अंतर्दृष्टि प्राप्त करने के लिए आया था, जिन्हें आप ऐसा करते हुए देख रहे हैं, और कुछ सफलता की कहानियां जो उन्हें इस पूरी यात्रा के साथ न केवल आपके टूल और प्लेटफ़ॉर्म को डेटा की खोज करने के लिए मिलनी चाहिए, बल्कि तब भी चारों ओर उनके आंतरिक सांस्कृतिक और व्यवहार लक्षणों को बदलना। अब इस तरह का इन-हाउस ऐप स्टोर होना चाहिए जहाँ आप केवल डाउनलोड को पसंद करते हैं, वह अवधारणा जहाँ वे न केवल इसे खोज सकते हैं, बल्कि वे वास्तव में उस ज्ञान के रखवाले के साथ छोटे समुदायों को विकसित करना शुरू कर सकते हैं।

डेविड क्रॉफोर्ड: हाँ, मुझे लगता है कि हम हैरान थे। हम प्रश्नों को साझा करने के मूल्य में विश्वास करते हैं, मेरे अतीत से Adtech में एक उत्पाद प्रबंधक के रूप में और उन सभी ग्राहकों से, जिन्होंने weve से बात की थी, लेकिन Ive अभी भी आश्चर्यचकित था कि इसकी सबसे पहली चीजों में से एक जो ग्राहकों के बारे में बात करती है। मूल्य वे Alation से बाहर निकलते हैं।

मैं अपने एक ग्राहक इनवॉयस 2 एगो नामक क्वेरी टूल का कुछ उपयोगकर्ता परीक्षण कर रहा था, और उनके पास एक उत्पाद प्रबंधक था जो अपेक्षाकृत नया था, और उन्होंने कहा - उन्होंने वास्तव में मुझे बताया, उपयोगकर्ता परीक्षण के दौरान अप्रकाशित, "मैं वास्तव में नहीं लिखूंगा एसक्यूएल को छोड़कर इसके अल्टेशन द्वारा आसान बनाया गया। "और निश्चित रूप से, पीएम के रूप में, मैं एक तरह से जाना चाहता हूं," आपका क्या मतलब है, हमने ऐसा कैसे किया? "और उन्होंने कहा," ठीक है, वास्तव में इसका सिर्फ इसलिए मैं लॉग इन कर सकते हैं और मैं इन सभी मौजूदा प्रश्नों को देख सकता हूं। ”SQL के साथ एक खाली स्लेट के साथ शुरू करना एक अविश्वसनीय रूप से कठिन काम है, लेकिन एक मौजूदा क्वेरी को संशोधित करना जहां आप परिणाम देख सकते हैं, जो कि बाहर रखा गया है और आप कह सकते हैं,“ ओह , मुझे बस इस अतिरिक्त स्तंभ की आवश्यकता है, "या," मुझे इसे तारीखों की एक विशेष सीमा तक फ़िल्टर करने की आवश्यकता है, "ऐसा करने के लिए बहुत आसान चीज है।

Weve ने इस तरह की सहायक भूमिकाओं को देखा, जैसे उत्पाद प्रबंधक, शायद बिक्री ऑप्स के लोग, जो चुनना शुरू करते हैं, और जो हमेशा SQL सीखना चाहते थे और इस कैटलॉग का उपयोग करके इसे चुनना शुरू करते हैं। Weve ने यह भी देखा कि बहुत सारी कंपनियों ने खुले स्रोत की तरह काम करने की कोशिश की है। Ive ने आंतरिक रूप से इस प्रकार की चीजों को बनाने की कोशिश की, जहां वे प्रश्नों को ट्रैक करते हैं और इसे उपलब्ध करते हैं, और उन्हें वास्तव में उपयोगी बनाने के लिए कुछ प्रकार की मुश्किल डिजाइन चुनौतियों का सामना करते हैं। एक आंतरिक उपकरण है कि वे HiPal कहा जाता है कि छत्ते पर लिखे गए सभी प्रश्नों पर कब्जा कर लिया है, लेकिन आपको जो पता चलता है, वह यह है कि यदि आप उपयोगकर्ताओं को सही तरीके से नंगा नहीं करते हैं, तो आप बहुत लंबी सूची के साथ समाप्त हो जाते हैं चुनिंदा कथनों का। और यदि कोई क्वेरी मेरे लिए उपयोगी है या यदि उसका कोई अच्छा है, तो मैं यह जानने की कोशिश कर रहा हूं कि अगर मैं सिर्फ चुनिंदा बयानों की लंबी सूची देखूं, तो मुझे वहां से कुछ और हासिल करने में ज्यादा समय लगेगा। आरंभ से शुरुआत करते हुए। हमने इस बात पर बहुत ध्यान से सोचा कि कैसे एक क्वेरी कैटलॉग बनाया जाए जो सही सामान को सामने लाए और इसे उपयोगी तरीके से प्रदान करे।

डीज़ ब्लांचफील्ड: मुझे लगता है कि हम सभी बहुत कम उम्र से, वयस्कता के माध्यम से, कई मायनों में इस यात्रा से गुजरते हैं। प्रौद्योगिकियों का एक समूह। मैं, व्यक्तिगत रूप से, Ive कोड को सीखना, उसी समान वास्तविक चीज़ से गुजरा। मैं पत्रिकाओं और फिर पुस्तकों के माध्यम से जाता हूं, और मैं एक निश्चित स्तर तक अध्ययन करूंगा, और फिर मुझे जाने की जरूरत थी और वास्तव में इस पर कुछ और प्रशिक्षण और शिक्षा प्राप्त की।

लेकिन अनजाने में मैंने पाया कि जब मैं खुद को पढ़ाने और पत्रिकाओं को पढ़ने और अन्य लोगों के कार्यक्रमों को काटने और इस पर पाठ्यक्रमों के लिए जाने से दूर था, तब भी मैंने पाठ्यक्रमों को करने से उतना ही सीख लिया जितना मैंने अन्य से बात करना जिन लोगों के पास कुछ अनुभव थे। और मुझे लगता है कि इसकी एक दिलचस्प खोज, जो कि अब आप डेटा एनालिटिक्स के लिए लाते हैं, मूल रूप से उसी समान को देख रहे थे, कि मानव हमेशा काफी स्मार्ट होते हैं।

दूसरी बात यह है कि इम वास्तव में समझने के लिए उत्सुक है, बहुत उच्च स्तर पर, कई संगठन पूछने जा रहे हैं, "उस बिंदु पर पहुंचने में कितना समय लगता है?" स्थापित किया गया है और उन्होंने उपकरणों के प्रकारों की खोज शुरू कर दी है? लोग इस बात को कितनी जल्दी देखते हैं कि यह वास्तव में तत्काल "ए-हा" पल में बदल जाता है, जहां उन्हें एहसास होता है कि उन्हें अब आरओआई के बारे में चिंता भी नहीं है, लेकिन अब वे वास्तव में व्यापार करने के तरीके को बदल रहे हैं? और उन्होंने एक खोई हुई कला की खोज की और उन्हें उम्मीद है कि वे वास्तव में कुछ कर सकते हैं, वास्तव में इसके साथ मज़ेदार हैं।

डेविड क्रॉफोर्ड: हाँ, मैं इसे थोड़ा सा छू सकता हूँ। मुझे लगता है कि जब हम स्थापित हो जाते हैं, तो यह है कि एक अच्छी चीज, एक ऐसी चीज के बारे में जो लोगों को एक कैटलॉग के बारे में पसंद है जो सीधे डेटा सिस्टम में जुड़ा हुआ है, यह है कि आप खाली नहीं शुरू करते हैं जहां आपको पृष्ठ द्वारा इसे भरना होगा पृष्ठ। और यह पिछले डेटा समाधानों के बारे में सच है जहाँ आप एक खाली टूल से शुरू करते हैं और आपको उन सभी चीजों के लिए एक पेज बनाना शुरू करना होता है जिन्हें आप दस्तावेज़ में लाना चाहते हैं।

चूंकि हम मेटाडेटा को निकालने के द्वारा स्वचालित रूप से इतनी सारी चीजों का दस्तावेज़ बनाते हैं, अनिवार्य रूप से सॉफ़्टवेयर स्थापित होने के कुछ दिनों के भीतर, आपके पास उपकरण में कम से कम 80 प्रतिशत तक आपके डेटा वातावरण की एक तस्वीर हो सकती है। और फिर मुझे लगता है कि जैसे ही लोग उपकरण के साथ प्रश्न लिखना शुरू करते हैं, वे स्वचालित रूप से सूची में वापस आ जाते हैं, और इसलिए वे भी दिखाई देने लगते हैं।

मैं इसे बताते हुए अति-उत्सुक होना नहीं चाहता। मुझे लगता है कि दो सप्ताह एक बहुत अच्छा रूढ़िवादी अनुमान है, एक महीने के लिए। दो महीने से एक महीने, रूढ़िवादी अनुमान वास्तव में चारों ओर घूम रहा है और महसूस कर रहे हैं जैसे कि आप इसे प्राप्त कर रहे हैं, जैसे कि आप कुछ ज्ञान साझा करने और वहां जाने और अपने डेटा के बारे में चीजों का पता लगाने में सक्षम होने लगते हैं।

डीज़ ब्लांचफील्ड: यह काफी आश्चर्यजनक है, वास्तव में, जब आप इसके बारे में सोचते हैं। तथ्य यह है कि कुछ बड़े डेटा प्लेटफ़ॉर्म जो कि आप प्रभावी रूप से अनुक्रमण और कैटलॉग करते हैं, उन्हें लागू करने और तैनात करने और ठीक से खड़े होने में कभी-कभी वर्ष लगेंगे।

रॉबिन ब्लोर को हाथ लगाने से पहले Ive के लिए आखिरी सवाल, कनेक्टर है। चीजों में से एक है कि तुरंत मुझ पर कूदता है youve जाहिर है कि पूरी चुनौती को हल किया गया है। तो वास्तव में जल्दी से एक दो सवालों के theres। एक, कनेक्टर कितनी तेजी से कार्यान्वित होते हैं? जाहिर है आप सबसे बड़े मंच से शुरू करते हैं, जैसे ओरकल्स और टेराडाटा और आगे और डीबी 2 एस। लेकिन आप नियमित रूप से नए कनेक्टर्स को कैसे देख रहे हैं, और वे किस मोड़ पर आते हैं? मुझे लगता है कि आपके पास उनके लिए एक मानक ढांचा है। और तुम कितने गहरे में जाते हो? उदाहरण के लिए, दुनिया के ओरेकल और आईबीएम, और यहां तक कि टेरेडाटा, और फिर देर से ओपन-सोर्स प्लेटफार्मों के कुछ अधिक लोकप्रिय। क्या वे सीधे आपके साथ काम कर रहे हैं? क्या आप इसे स्वयं खोज रहे हैं? क्या आपको उन प्लेटफार्मों पर ज्ञान होना चाहिए?

एक कनेक्टर को विकसित करने के लिए यह कैसा दिखता है, और आप उन साझेदारों को यह सुनिश्चित करने के लिए कितनी गहराई तक शामिल करते हैं कि वे उन कनेक्टरों की खोज कर रहे हैं जो संभवतः आप कर सकते हैं?

डेविड क्रॉफोर्ड: हाँ, यकीन है, यह एक महान सवाल है। मुझे लगता है कि अधिकांश भाग के लिए, हम कनेक्टर्स विकसित कर सकते हैं। हमने निश्चित रूप से तब किया जब हम एक छोटे स्टार्टअप थे और कोई ग्राहक नहीं था। हम किसी भी आंतरिक पहुंच की आवश्यकता के बिना निश्चित रूप से कनेक्शन विकसित कर सकते हैं। हमें कभी भी सार्वजनिक रूप से उपलब्ध डेटा सिस्टम के लिए कोई विशेष पहुंच नहीं मिलती है, और अक्सर बिना किसी अंदर की जानकारी के। हम डेटा सिस्टम द्वारा उपलब्ध मेटाडेटा सेवाओं का लाभ स्वयं लेते हैं। अक्सर उन लोगों के साथ काम करने के लिए बहुत जटिल और कठिन हो सकता है। मैं विशेष रूप से SQL सर्वर को जानता हूं, जिस तरह से वे क्वेरी लॉग को प्रबंधित करते हैं, वह कई अलग-अलग कॉन्फ़िगरेशन और इसकी कुछ चीज़ों को पूरा करता है। आपको इसे ठीक से सेट करने के लिए बारीकियों और knobs और उस पर डायल को समझना होगा, और कुछ ऐसा काम करना होगा जिसे हम ग्राहकों के साथ काम करते हैं क्योंकि weve ने इसे कई बार पहले किया था।

लेकिन एक निश्चित सीमा तक, इसके प्रकार के सार्वजनिक एपीआई जो उपलब्ध हैं या सार्वजनिक इंटरफेस उपलब्ध हैं जो हम लाभ उठाते हैं। इन कंपनियों में से कई के साथ हमारी भागीदारी है, जो ज्यादातर प्रमाणीकरण के लिए एक आधार है, ताकि वे यह कहते हुए सहज महसूस करें कि हम काम करते हैं और यह भी कि वे हमें परीक्षण के लिए संसाधन प्रदान कर सकते हैं, कभी-कभी एक प्लेटफॉर्म पर जल्दी पहुंच संभवत: यह सुनिश्चित करने के लिए सामने आती है। हम नए संस्करणों पर काम करते हैं।

एक नए कनेक्शन को चालू करने के लिए, मैं फिर से कहूंगा कि रूढ़िवादी होने की कोशिश कर रहा है, छह सप्ताह से दो महीने तक कहता है। यह इस पर निर्भर करता है कि यह कैसा है। तो कुछ Postgre Redshift के समान दिखने वाले काम करता है। रेडशिफ्ट और वर्टिका उनके विवरण का एक बहुत साझा करते हैं। तो हम उन चीजों का फायदा उठा सकते हैं। लेकिन हाँ, छह सप्ताह से दो महीने तक उचित होगा।

हमारे पास API भी हैं, ताकि हम - Alation को एक मेटाडेटा प्लेटफ़ॉर्म के रूप में अच्छी तरह से समझें, इसलिए यदि कोई भी चीज़ हमारे लिए उपलब्ध नहीं है और स्वचालित रूप से हड़पने के लिए उपलब्ध है, तो ऐसे तरीके हैं जो आप कनेक्टर को स्वयं लिख सकते हैं और इसे हमारे सिस्टम में धकेल सकते हैं कि सब कुछ अभी भी एक ही खोज इंजन में केंद्रीकृत हो जाता है।

डीज़ ब्लांचफील्ड: बहुत खुबस। मैं सराहना करता हूँ। इसलिए इसे रॉबिन को सौंपने जा रहे थे, क्योंकि मुझे यकीन है कि उसके पास सवालों का ढेर है। रॉबिन?

रेबेका जोजवाक: रॉबिन म्यूट पर हो सकते हैं।

डीज़ ब्लांचफील्ड: Youve मूक पर अपने आप को मिल गया।

रॉबिन ब्लोर: हाँ सही। क्षमा करें, मैंने खुद को मौन कर लिया। जब आप इसे लागू करते हैं, तो क्या प्रक्रिया है? Im तरह के उत्सुक क्योंकि कई जगहों पर बहुत अधिक डेटा हो सकता है। तो वह कैसे काम करता है?

डेविड क्रॉफोर्ड: हां यकीनन। हम अंदर जाते हैं, पहले यह सुनिश्चित करते हैं कि हमारे सर्वर प्रावधानित हैं, यह सुनिश्चित करते हुए कि नेटवर्क कनेक्शन उपलब्ध हैं, ताकि पोर्ट खुले रहें ताकि हम वास्तव में सिस्टम तक पहुंच बना सकें। वे सभी अक्सर जानते हैं कि वे किन प्रणालियों के साथ शुरू करना चाहते हैं। एक डेटा सिस्टम के अंदर जानना, जो - और कभी-कभी हम वास्तव में उनकी मदद करेंगे। अच्छी तरह से उन्हें यह समझने में मदद करता है कि किसी सिस्टम पर उनके कितने उपयोगकर्ताओं का उपयोग करके व्हाट्सएप को समझने के लिए उनके क्वेरी लॉग पर प्रारंभिक नज़र डालें। तो अच्छी तरह से यह पता लगाने में मदद करें कि वे कहाँ हैं - यदि अक्सर, उन्हें सैकड़ों या हजारों लोग मिलते हैं, जो डेटाबेस में लॉग इन हो सकते हैं, वे वास्तव में नहीं जानते हैं कि वे कहाँ लॉग इन कर रहे हैं, इसलिए हम क्वेरी लॉग से पता लगा सकते हैं कि कितने अद्वितीय उपयोगकर्ता खाते हैं आपने वास्तव में एक या एक महीने में यहां प्रश्नों को लॉग इन किया है।

तो हम इसका लाभ उठा सकते हैं, लेकिन अक्सर केवल सबसे महत्वपूर्ण लोगों पर। हम उन्हें स्थापित करते हैं और फिर कहने की प्रक्रिया को आगे बढ़ाते हैं, "प्राथमिकता दें।" ऐसी गतिविधियों की एक श्रृंखला है जो समानांतर में हो सकती हैं। मैं क्वेरी टूल का उपयोग करने के लिए प्रशिक्षण पर ध्यान केंद्रित करूंगा। एक बार जब लोग क्वेरी टूल का उपयोग करना शुरू कर देते हैं, तो सबसे पहले, बहुत सारे लोग इस तथ्य से प्यार करते हैं कि यह उनके सभी विभिन्न प्रणालियों के लिए एक एकल इंटरफ़ेस है। वे इस तथ्य से भी प्यार करते हैं कि अगर वे नहीं चाहते हैं तो उनके वेब-आधारित में कोई भी संस्थापन शामिल नहीं है। एक सुरक्षा दृष्टिकोण से, वे एक प्रविष्टि बिंदु के प्रकार को पसंद करते हैं, एक नेटवर्क दृष्टिकोण से, एक कॉर्प आईटी नेटवर्क और डेटा सेंटर के बीच जहां उत्पादन डेटा स्रोत रहते हैं। और इसलिए, उन्होंने एलेशन को एक क्वेरी टूल के रूप में स्थापित किया और इन सभी प्रणालियों के लिए एक बिंदु के रूप में कंपोज़ का उपयोग करना शुरू कर दिया।

इसलिए एक बार ऐसा होने के बाद, हम वहां प्रशिक्षण पर ध्यान केंद्रित करते हैं, समझ रहे हैं कि आपके डेस्कटॉप पर एक वेब-आधारित या सर्वर-आधारित क्वेरी टूल के बीच कुछ अंतर क्या हैं, और इसका उपयोग करने की कुछ बारीकियों के बारे में। और एक ही समय में क्या करने की कोशिश करना सबसे मूल्यवान डेटा की पहचान करना है, फिर से क्वेरी लॉग की जानकारी का लाभ उठाते हुए, और कहा, "अरे, आप इसमें जाना चाहते हैं और लोगों को इनको समझने में मदद कर सकते हैं। इन तालिकाओं पर प्रतिनिधि प्रश्नों को प्रकाशित करना शुरू करें। ”कभी-कभी सबसे प्रभावी तरीके से लोगों को अलग कर दिया जाता है। अपने स्वयं के क्वेरी इतिहास को देखें, इन चीजों को प्रकाशित करें ताकि वे पहले प्रश्नों के रूप में दिखाई दें। जब लोग एक टेबल पेज को देखते हैं, तो वे सभी प्रश्नों को देख सकते हैं जो उस टेबल को छूते हैं, और वे वहां से शुरू कर सकते हैं। और फिर इन वस्तुओं में शीर्षक और विवरण जोड़ना शुरू करते हैं ताकि वे खोजने और खोजने में आसान हों, ताकि आप इसका उपयोग करने की कुछ बारीकियों को जान सकें।

हम यह सुनिश्चित करते हैं कि हमें क्वेरी लॉग पर पूरी तरह से नज़र डालें ताकि हम वंश उत्पन्न कर सकें। हमारे द्वारा की जाने वाली चीजों में से एक हम उस समय क्वेरी लॉग के माध्यम से देखते हैं जब डेटा एक तालिका से दूसरी तालिका में चला जाता है, और जो हमें डेटा तालिका के बारे में सबसे अक्सर पूछे जाने वाले प्रश्नों में से एक को रखने की अनुमति देता है, यह कहां से आया है? मैं इस पर कैसे भरोसा करूं? और इसलिए हम जो दिखा सकते हैं वह न केवल कौन सी अन्य तालिकाओं से आया है, लेकिन यह कैसे मार्ग के साथ बदल गया था। फिर, यह क्वेरी लॉग द्वारा संचालित की तरह है।

इसलिए हम यह सुनिश्चित करते हैं कि उन चीजों को स्थापित किया गया है और जो सिस्टम में वंशावली प्राप्त कर रहे हैं, और मेटाडेटा के सबसे उच्च मूल्यवान और सबसे अधिक लीवरेज टुकड़ों को लक्षित कर रहे हैं जिन्हें हम टेबल पृष्ठों पर स्थापित कर सकते हैं, ताकि जब आप खोज करें, आपको कुछ उपयोगी लगता है।

रॉबिन ब्लोर: ठीक है। दूसरा सवाल - दर्शकों के बहुत सारे सवालों का जवाब देता है, इसलिए मैं यहाँ बहुत अधिक समय नहीं लेना चाहता हूँ - दूसरा सवाल यह है कि जिस तरह का विचार मन में आता है, वह सिर्फ दर्द है। बहुत सारे सॉफ्टवेयर्स इसलिए खरीदे गए क्योंकि लोग एक तरह से या किसी अन्य चीज़ से परेशान हैं। तो आम दर्द बिंदु क्या है जो लोगों को Alation की ओर ले जाता है?

डेविड क्रॉफोर्ड: हाँ। मुझे लगता है कि कुछ ही हैं, लेकिन मुझे लगता है कि उनमें से एक है जिसे हम अक्सर सुनते हैं विश्लेषक ऑनबोर्डिंग है। "आईएम को निकटवर्ती कार्यकाल में 10, 20, 30 लोगों को नियुक्त करने की आवश्यकता है जो इस डेटा से नई अंतर्दृष्टि का उत्पादन करने जा रहे हैं, वे कैसे गति प्राप्त करने जा रहे हैं?" इसलिए विश्लेषक ऑनबोर्डिंग कुछ ऐसा है जिससे हम निश्चित रूप से निपटते हैं। थेरेस भी केवल वरिष्ठ विश्लेषकों को अपना सारा समय डेटा के बारे में अन्य लोगों के सवालों के जवाब देने से खर्च करने से राहत देते हैं। यह एक बहुत ही लगातार एक है। और ये दोनों अनिवार्य रूप से शिक्षा की समस्याएँ हैं।

और फिर मैं एक और जगह कहूंगा कि हम देखते हैं कि लोग अलशन को अपना रहे हैं, जब वे काम करने के लिए एक नया डेटा वातावरण स्थापित करना चाहते हैं। वे लोगों का फायदा उठाने के लिए इस आंतरिक रूप से विज्ञापन देना और उनका विपणन करना चाहते हैं। तब Alation को उस नए एनालिटिक वातावरण का फ्रंट-एंड बनाना बहुत आकर्षक लगता है। इसका दस्तावेज़ीकरण हो गया, इसके परिचय का एक बिंदु मिल गया - सिस्टम तक पहुँच का एक एकल बिंदु, और इसलिए एक और जगह है जहाँ लोग हमारे पास आएंगे।

रॉबिन ब्लोर: ठीक है, मैं आपको रेबेका में भेज दूंगा क्योंकि दर्शक आपसे मिलने की कोशिश कर रहे हैं।

रेबेका जोजवाक: हां, हमारे यहां बहुत सारे अच्छे दर्शक प्रश्न हैं। और डेविड, यह एक विशेष रूप से आप के लिए प्रस्तुत किया गया था। यह किसी ऐसे व्यक्ति से है जिसे स्पष्ट रूप से लोगों के साथ दुर्व्यवहार करने वाले प्रश्नों के बारे में कुछ अनुभव है, और वह कहता है कि हम जितना अधिक उपयोगकर्ताओं को सशक्त करते हैं, उतना ही कठिन यह है कि वे कम्प्यूट संसाधनों के जिम्मेदार उपयोग को नियंत्रित करें। तो क्या आप गुमराह लेकिन आम क्वेरी वाक्यांशों के प्रचार से बचाव कर सकते हैं?

डेविड क्रॉफोर्ड: हाँ, मैं यह प्रश्न देखता हूँ। यह एक महान सवाल है - एक हम बहुत बार मिलता है। Ive ने पिछली कंपनियों में खुद दर्द को देखा, जहां आपको उपयोगकर्ताओं को प्रशिक्षित करने की आवश्यकता है। उदाहरण के लिए, “यह एक लॉग टेबल है, इसके लॉग्स वर्षों से वापस जा रहे हैं। यदि आप इस तालिका पर एक प्रश्न लिखने जा रहे हैं, तो आपको वास्तव में तारीख तक सीमित करना होगा। ”इसलिए, उदाहरण के लिए, एक प्रशिक्षण मैं एक पिछली कंपनी में चला गया, इससे पहले कि मुझे डेटाबेस तक पहुंच दी गई थी।

हमारे पास कुछ तरीके हैं जिनसे हम इसे संबोधित करने का प्रयास करते हैं। मैं कहूंगा कि मुझे लगता है कि क्वेरी लॉग डेटा वास्तव में इसे संबोधित करने के लिए विशिष्ट रूप से मूल्यवान है। यह एक और अंतर्दृष्टि देता है कि डेटाबेस अपने क्वेरी प्लानर के साथ आंतरिक रूप से क्या करता है। और हम क्या करते हैं, उन हस्तक्षेपों में से एक है - हमारे पास मैन्युअल हस्तक्षेप हैं जो मैंने दिखाए, और यह उपयोगी है, सही है? उदाहरण के लिए, एक विशेष रूप से शामिल होने पर, आप कह सकते हैं, "इससे निजात पाते हैं।" जब यह स्मार्ट सुझाव में दिखाई देता है तो Itll का एक बड़ा लाल झंडा होता है। तो लोगों को पाने की कोशिश करने का एक तरीका है।

एक और चीज जो हम करते हैं, वह है निष्पादन-समय के हस्तक्षेप पर स्वचालित। Thatll वास्तव में क्वेरी के पार्स ट्री का उपयोग करते हैं इससे पहले कि हम इसे देखने के लिए चलाएं, क्या इसमें एक निश्चित फिल्टर या कुछ अन्य चीजें शामिल हैं जो हम वहां भी करते हैं। लेकिन सबसे मूल्यवान लोगों में से एक और समझाने वाला सबसे सरल है, क्या इसमें एक फ़िल्टर शामिल है? तो उस उदाहरण की तरह जो मैंने अभी दिया, यह लॉग टेबल, यदि आप इसे क्वेरी करने जा रहे हैं, तो एक तिथि सीमा होनी चाहिए, आप वहां तालिका पृष्ठ में निर्दिष्ट कर सकते हैं कि आपने उस तिथि सीमा फ़िल्टर को लागू करने के लिए जनादेश दिया है। यदि कोई ऐसी क्वेरी को चलाने का प्रयास करता है जिसमें उस फ़िल्टर को शामिल नहीं किया जाता है, तो यह वास्तव में उन्हें एक बड़ी चेतावनी के साथ रोक देगा, और यह कहेगा, "आपको शायद कुछ SQL को जोड़ना चाहिए जो आपकी क्वेरी के समान दिखता है।" वे चाहें तो जारी रख सकते हैं। । वास्तव में उन्हें पूरी तरह से इसका उपयोग करने से प्रतिबंधित नहीं करने जा रहे थे - इसकी एक क्वेरी, इसके पास, दिन के अंत में, क्वेरी चलाएं। लेकिन हमने उनके सामने एक बहुत बड़ी बाधा डाल दी और हम उन्हें एक सुझाव देते हैं, उनके प्रदर्शन को बेहतर बनाने के लिए क्वेरी को संशोधित करने के लिए एक ठोस लागू सुझाव।

हम वास्तव में ऐसा कुछ मामलों में स्वचालित रूप से करते हैं, फिर से क्वेरी लॉग को देखकर। यदि हम देखते हैं कि इस तालिका पर कुछ बड़े प्रश्नों का प्रतिशत किसी विशेष फिल्टर या किसी विशेष जॉइन क्लॉज का लाभ उठाता है, तो वास्तव में पॉप अप होता है। एक हस्तक्षेप करने के लिए अच्छी तरह से बढ़ावा देते हैं। दरअसल, मेरे साथ आंतरिक डेटा सेट पर ऐसा हुआ था। हमारे पास ग्राहक डेटा है और हमारे पास उपयोगकर्ता आईडी हैं, लेकिन उपयोगकर्ता आईडी सेट है, क्योंकि इसके प्रकार - हमारे पास प्रत्येक ग्राहक के पास उपयोगकर्ता आईडी हैं। यह अद्वितीय नहीं है, इसलिए आपको एक यूनिक जॉइन कुंजी प्राप्त करने के लिए इसे क्लाइंट आईडी के साथ पेयर करना होगा।और मैं एक क्वेरी लिख रहा था और मैंने कुछ का विश्लेषण करने की कोशिश की और यह पॉप अप हुआ और कहा, “अरे, बाकी सभी क्लाइंट आईडी और उपयोगकर्ता आईडी दोनों के साथ इन तालिकाओं में शामिल होने लगते हैं। क्या आप सुनिश्चित हैं कि आप ऐसा नहीं करना चाहते? ”और इसने वास्तव में मुझे कुछ गलत विश्लेषण करने से रोक दिया। तो यह विश्लेषण की सटीकता और साथ ही प्रदर्शन दोनों के लिए काम करता है। इसलिए हम उस समस्या को किस तरह लेते हैं।

रेबेका जोजवाक: यह मुझे प्रभावी प्रतीत होगा। आपने कहा कि आप जरूरी नहीं कि लोगों को संसाधनों को हॉगिंग करने से रोकें, बल्कि उन्हें यह भी सिखाएं कि वे जो कर रहे हैं वह सबसे अच्छा नहीं हो सकता है, है ना?

डेविड क्रॉफोर्ड: हम हमेशा यह मानते हैं कि उपयोगकर्ता दुर्भावनापूर्ण नहीं हैं - उन्हें सर्वश्रेष्ठ इरादे दें - और हम उस तरह से बहुत खुले रहने की कोशिश करते हैं।

रेबेका जोजवाक: ठीक है। एक और सवाल: "क्या आपके समाधान और एमडीएम उपकरण की तरह एक कैटलॉग प्रबंधक के बीच अंतर है? या क्या यह वास्तव में क्वेरी टेबल की पसंद को चौड़ा करके एक अलग प्रिंसिपल पर निर्भर करता है, जबकि एमडीएम यह स्वचालित रूप से करेगा, लेकिन मेटाडेटा एकत्र करने के उसी अंतर्निहित प्रिंसिपल के साथ। "

डेविड क्रॉफोर्ड: हाँ, मुझे लगता है कि जब मैं पारंपरिक एमडीएम समाधानों को देखता हूं, तो प्राथमिक अंतर एक दार्शनिक होता है। उपयोगकर्ता कौन है इसके बारे में इसकी सभी। जैसे मैंने अपनी प्रस्तुति की शुरुआत में कहा था, अलशन, मुझे लगता है, जब हम स्थापित हुए थे, तो हम विश्लेषकों को अधिक अंतर्दृष्टि पैदा करने, उन्हें तेजी से उत्पादन करने, अंतर्दृष्टि में अधिक सटीक होने के लिए सक्षम करने के उद्देश्य से स्थापित किए गए थे उत्पादित करें। मुझे नहीं लगता कि यह कभी पारंपरिक एमडीएम समाधान का लक्ष्य रहा है। उन समाधानों को उन लोगों की ओर लक्षित किया जाता है, जिन्हें SCC या आंतरिक रूप से कुछ अन्य प्रकार के ऑडिटिंग उद्देश्य के लिए डेटा को कैप्चर करने की रिपोर्ट की आवश्यकता होती है। यह कभी-कभी विश्लेषकों को सक्षम कर सकता है, लेकिन इसके अधिक बार, यदि यह एक व्यवसायी को अपने काम में सक्षम करने जा रहा है, तो इसकी अधिक संभावना एक डीबीए जैसे डेटा आर्किटेक्ट को सक्षम करने की है।

जब आप एक विश्लेषक के दृष्टिकोण से चीजों के बारे में सोचते हैं, तो जब आप एक एमडीएम उपकरण ऐसा क्वेरी उपकरण बनाना शुरू करेंगे, जो कभी नहीं होगा। Thats जब आप प्रदर्शन के साथ-साथ सटीकता के बारे में भी सोचना शुरू करते हैं, साथ ही यह समझना भी कि डेटा मेरे व्यवसाय की आवश्यकता से संबंधित है। वे सभी चीजें ऐसी चीजें हैं जो हमारे दिमाग में पॉप की तरह होती हैं जब हम उपकरण को डिजाइन करते हैं। यह हमारे खोज एल्गोरिदम में जाता है, यह कैटलॉग पृष्ठों के लेआउट और संगठन के चारों ओर से ज्ञान का योगदान करने की क्षमता में जाता है। यह इस तथ्य में जाता है कि हमने क्वेरी टूल बनाया था और हमने कैटलॉग को सीधे इसमें बनाया था, इसलिए मुझे लगता है कि यह वास्तव में उसी से आता है। आपके पास सबसे पहले कौन सा उपयोगकर्ता है?

रेबेका जोजवाक: ठीक है, अच्छा है। यह वास्तव में यह समझाने में मदद की। जो अभिलेखागार की एक पकड़ पाने के लिए मर रहा था क्योंकि उसे छोड़ना था, लेकिन वह वास्तव में अपने प्रश्न का उत्तर चाहता था। उन्होंने कहा कि शुरुआत में यह उल्लेख किया गया था कि कई भाषाएं हैं, लेकिन क्या एसक्यूएल एकमात्र भाषा है जो कंपोज घटक के भीतर है?

डेविड क्रॉफोर्ड: हाँ यह सच है। और एक चीज़ जो Ive ने देखी, जैसा कि मैंने देखा कि विभिन्न प्रकार के डेटाबेसों के विस्फोट, दस्तावेज़ डेटाबेस के, ग्राफ़ डेटाबेसों के, मुख्य मूल्य दुकानों के विस्फोट के साक्षी हैं, यह है कि वे अनुप्रयोग विकास के लिए वास्तव में शक्तिशाली हैं। वे वास्तव में अच्छी तरह से विशेष जरूरतों को पूरा कर सकते हैं, रिलेशनल डेटाबेस की तुलना में बेहतर तरीके से कर सकते हैं।

लेकिन जब आप इसे डेटा विश्लेषण में वापस लाते हैं, जब आप इसे वापस लाते हैं - जब आप उस जानकारी को उन लोगों को प्रदान करना चाहते हैं जो तदर्थ रिपोर्टिंग या डेटा में खोद रहे हैं, कि वे हमेशा एक संबंध में वापस आते हैं। कम से कम, मनुष्यों के लिए इंटरफ़ेस। इसका एक हिस्सा सिर्फ इसलिए है क्योंकि एसक्यूएल डेटा विश्लेषण का लिंगुआ फ्रेंका है, इसलिए इसका मतलब है कि मनुष्यों के लिए, उपकरण के लिए भी यह एकीकृत है। मुझे लगता है कि यही कारण है कि Hadoop पर SQL इतना लोकप्रिय है और इसे हल करने के लिए बहुत सारे प्रयास हैं, ऐसा इसलिए है क्योंकि दिन के अंत में, यही लोग जानते हैं। शायद लाखों लोग हैं जो एसक्यूएल लिखना जानते हैं, और मैं उन लाखों लोगों को नहीं बताऊंगा जो एक मैंगो एग्रीगेशन पाइपलाइन फ्रेमवर्क क्वेरी लिखना जानते हैं। और यह एक मानक भाषा है जिसका उपयोग वास्तव में व्यापक प्लेटफार्मों पर एकीकरण के लिए किया जाता है। तो यह सब कहने के बाद, शायद ही कभी इसके बाहर जाने के लिए कहा गया क्योंकि यह वह इंटरफ़ेस है जिसका उपयोग अधिकांश विश्लेषक करते हैं, और यह एक ऐसी जगह है जहाँ हमने ध्यान केंद्रित किया, विशेष रूप से कंपोज़ में, कि हमने SQL लिखने पर ध्यान केंद्रित किया।

मैं कहूंगा कि डेटा साइंस वह जगह है जहां वे सबसे अधिक बाहर उद्यम करते हैं, और इसलिए हमें सुअर या एसएएस का उपयोग करने के बारे में कभी-कभी प्रश्न मिलते हैं। ये ऐसी चीजें हैं जो हम निश्चित रूप से कम्पोज में नहीं संभालते हैं, और हम कैटलॉग में कब्जा करना चाहते हैं। और Im आर और पायथन को भी देख रहा है। हमारे पास कुछ ऐसे तरीके हैं जिनसे हमने इंटरफेस बनाया है कि आप R और पायथन लिपियों के अंदर Alation में लिखे गए प्रश्नों का उपयोग कर सकते हैं, इसलिए, अक्सर जब आप एक डेटा वैज्ञानिक और youre एक स्क्रिप्टिंग भाषा में काम कर रहे होते हैं, तो आपका स्रोत डेटा एक रिलेशनल में होता है डेटाबेस। आप SQL क्वेरी से शुरू करते हैं और फिर आप इसे आगे प्रोसेस करते हैं और R और Python के अंदर ग्राफ बनाते हैं। और हमने ऐसे पैकेज बनाए हैं जिन्हें आप उन स्क्रिप्ट्स में आयात कर सकते हैं जो क्वेरीज़ को खींचती हैं या एलिएशन से क्वेरी रिजल्ट देती हैं ताकि आप वहां एक ब्लेंडेड वर्कफ़्लो रख सकें।

रेबेका जोजवाक: ठीक है बढ़िया। मुझे पता है कि हम घंटे के शीर्ष पर थोड़ा सा भागते हैं, मैं सिर्फ एक या दो और प्रश्न पूछूंगा। मुझे पता है कि आपने उन सभी अलग-अलग प्रणालियों के बारे में बात की है जिनसे आप जुड़ सकते हैं, लेकिन जहाँ तक बाहरी रूप से होस्ट किए गए डेटा और आंतरिक रूप से होस्ट किए गए डेटा की बात है, क्या एक साथ आपके एक दृश्य में, आपके एक मंच में खोजा जा सकता है?

डेविड क्रॉफोर्ड: ज़रूर। ऐसा करने के कुछ तरीके हैं। मेरा मतलब है, बाहरी रूप से होस्ट किया गया है, मैं कल्पना करूँगा, इम बिल्कुल उसी के बारे में सोचने की कोशिश कर रहा है जिसका मतलब हो सकता है। इसका मतलब डेटाबेस हो सकता है कि कोई आपके लिए AWS में होस्ट कर रहा है। यह data.gov से एक सार्वजनिक डेटा स्रोत का मतलब हो सकता है। हम डेटाबेस खाते के साथ, किसी अन्य एप्लिकेशन की तरह लॉग इन करके डेटाबेस से सीधे जुड़ते हैं, और यही कि हम मेटाडेटा कैसे निकालते हैं। इसलिए यदि हमारे पास एक खाता है और हमारे पास एक नेटवर्क पोर्ट खुला है, तो हम इसे प्राप्त कर सकते हैं। और फिर जब हमारे पास वे चीजें नहीं होती हैं, तो हमारे पास एक वर्चुअल डेटा स्रोत नाम की कोई चीज होती है, जो आपको अनिवार्य रूप से प्रलेखन को पुश करने की अनुमति देती है, चाहे स्वचालित रूप से, अपने स्वयं के कनेक्टर को लिखकर, या सीएसवी अपलोड की तरह भी करके इसे दस्तावेज़ में भरकर आपके आंतरिक डेटा के साथ डेटा। वह सब खोज इंजन में रखा जाता है। यह लेख के अंदर और सिस्टम के अंदर अन्य प्रलेखन और वार्तालापों के लिए उपयोग करने योग्य हो जाता है। इसलिए जब हम सीधे सिस्टम से कनेक्ट नहीं करते हैं तो हम कैसे संभालते हैं।

रेबेका जोजवाक: ठीक है, यह समझ में आता है। बीमार बस आप के लिए एक और सवाल बाहर गोली मार। एक सहभागी है स्रोत डेटा के अद्यतन के रूप में, "डेटा कैटलॉग की सामग्री को कैसे मान्य, सत्यापित या बनाए रखा जाना चाहिए, जैसा कि स्रोत डेटा अपडेट किया जाता है, आदि।"

डेविड क्रॉफोर्ड: हाँ, इसका एक प्रश्न हमें बहुत कुछ मिलता है, और मुझे लगता है कि एक चीज जो हम - हमारे एक दर्शन की है, जैसे मैंने कहा था, हम नहीं मानते कि उपयोगकर्ता दुर्भावनापूर्ण हैं। हम मानते हैं कि वे सर्वश्रेष्ठ ज्ञान का योगदान करने की कोशिश कर रहे हैं। वे नहीं आने वाले हैं और जानबूझकर डेटा के बारे में लोगों को गुमराह करते हैं। यदि आपके संगठन में यह समस्या है, तो शायद आपके लिए सही उपकरण नहीं है। लेकिन अगर आप उपयोगकर्ताओं द्वारा अच्छे इरादों को मानते हैं, तो, हम इसके बारे में कुछ ऐसा सोचते हैं जहां, अपडेट आते हैं, और फिर आमतौर पर हम क्या करते हैं, हम प्रत्येक डेटा ऑब्जेक्ट या डेटा के प्रत्येक अनुभाग के प्रभारी के रूप में डालते हैं। और हम उन स्टूवर्स को सूचित कर सकते हैं जब मेटाडेटा में परिवर्तन किए जाते हैं और वे इसे इस तरह से संभाल सकते हैं। वे देखते हैं कि अपडेट आते हैं, वे उन्हें सत्यापित करते हैं। यदि वे सही नहीं हैं, तो वे वापस जा सकते हैं और उन्हें संशोधित कर सकते हैं और सूचित कर सकते हैं, और उम्मीद है कि उस उपयोगकर्ता तक भी पहुंच सकते हैं जिन्होंने जानकारी का योगदान दिया है और सीखने में मदद करते हैं।

तो प्राथमिक तरीका है कि हम इसे करने के बारे में सोचते हैं। भीड़ द्वारा इस तरह के सुझाव और प्रबंधन द्वारा, इसलिए हमारे पास कुछ क्षमताएं हैं।

रेबेका जोजवाक: ठीक है अच्छा। और अगर आप लोगों को यह बता सकते हैं कि वे किस तरह से अलशन के साथ शुरुआत कर सकते हैं, और वे विशेष रूप से अधिक जानकारी प्राप्त करने के लिए कहां जा सकते हैं। मुझे पता है कि आपने एक साझा किया है। क्या वह सबसे अच्छी जगह है?

डेविड क्रॉफोर्ड: Alation.com/learnmore मुझे लगता है कि जाने का एक शानदार तरीका है। डेमो के लिए साइन अप करने के लिए Alation.com साइट में बहुत सारे महान संसाधन, ग्राहक श्वेत पत्र और हमारे समाधान के बारे में समाचार हैं। तो मुझे लगता है कि एक महान जगह शुरू करने के लिए। आप भी कर सकते हैं ।

रेबेका जोजवाक: ठीक है बढ़िया। और मुझे पता है, उपस्थितगण, क्षमा करें, अगर मैं आज सभी प्रश्नों के लिए नहीं आया, लेकिन यदि नहीं, तो उन्हें डेविड या उनकी बिक्री टीम या किसी अलेशन पर भेजा जाएगा, इसलिए वे निश्चित रूप से आपके सवालों के जवाब देने में मदद कर सकते हैं और समझ सकते हैं कि क्या है करता है या वे सबसे अच्छा क्या करते हैं।

और इसके साथ ही, दोस्तों, मैं आगे बढ़कर हमें साइन ऑफ करूंगा। आप हमेशा के अंदर अंदर पा सकते हैं। आप इसे Techopedia.com पर भी देख सकते हैं। वे थोड़ा जल्दी अपडेट करने की कोशिश करते हैं, इसलिए इसे ज़रूर देखें। और आज डेविड क्रॉफर्ड, डीज़ ब्लांचफील्ड और रॉबिन बोर के लिए बहुत बहुत धन्यवाद। यह एक महान वेबकास्ट है। और उस के साथ, बीमार बोली आप विदाई। धन्यवाद, दोस्तों। अलविदा।

डेविड क्रॉफोर्ड: धन्यवाद।