क्वालिटी बिग डेटा एनालिटिक्स की कुंजी: अंडरस्टैंडिंग अलग - टेकवाइज एपिसोड 4 ट्रांसक्रिप्ट - प्रौद्योगिकी

विषय

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

स्रोत: जैकब जिरसक / ड्रीमस्टाइम डॉट कॉम

ले जाओ:

होस्ट एरिक कवनघ ने उद्योग के विशेषज्ञों के साथ बड़े डेटा एनालिटिक्स पर चर्चा की।

एरिक: देवियों और सज्जनों, यह वर्ष 2014 का अंत है - कम से कम, लगभग। यह वर्ष का हमारा आखिरी वेबकास्ट है, दोस्तों! तकनीक में आपका स्वागत है! हाँ सचमुच! मेरा नाम एरिक कावनघ है। मैं एक भयानक वेबकास्ट, लोगों के लिए आपका मध्यस्थ बनूंगा। मैं वास्तव में बहुत उत्साहित हूं। हमारे पास दो भयानक विश्लेषक ऑनलाइन हैं, और दो महान कंपनियां - इस पूरे बड़े डेटा पारिस्थितिकी तंत्र में वास्तविक नवप्रवर्तक हैं। और हम सभी बड़े डेटा एनालिटिक्स की कुंजी के बारे में बात करने जा रहे हैं जो अंतर को समझ रहे हैं। तो, चलिए आगे बढ़ते हैं और लोगों को अंदर जाने का अधिकार देते हैं।

हमारे पास कई प्रस्तुतकर्ता हैं। जैसा कि आप देख सकते हैं, वास्तव में आपका सबसे ऊपर है। माइक फर्ग्यूसन यूके से हर तरह से बुला रहे हैं, जहां उन्हें अपने कार्यालय भवन में देर से रहने के लिए विशेष विशेषाधिकार प्राप्त करने थे। यह उसके लिए कितनी देर की बात है। हमें डॉ। रॉबिन ब्लोअर मिले हैं, हमारे बहुत ही मुख्य विश्लेषक यहाँ ब्लोअर ग्रुप में हैं। और हमारे पास जॉर्ज कॉरगेडो, RedPoint Global के सीईओ और सह-संस्थापक, और एसएएस इंस्टीट्यूट के वरिष्ठ समाधान वास्तुकार कीथ रेनिसन हैं। ये शानदार कंपनियां हैं, लोग। ये ऐसी कंपनियां हैं जो वास्तव में नवाचार कर रही हैं। और हम बड़े डेटा की पूरी दुनिया में अभी जो कुछ हो रहा है, उसमें से कुछ को अच्छी तरह से खोदने जा रहे हैं। और इसका सामना करते हैं, छोटा डेटा दूर नहीं गया है। और उस पर, मैं अपना कार्यकारी सारांश यहां दूं।

इसलिए, एक पुरानी फ्रांसीसी अभिव्यक्ति है: "जितनी अधिक चीजें बदलती हैं, उतना ही वे समान रहते हैं।" और यहाँ कुछ तथ्यों का सामना करते हैं - बड़ा डेटा छोटे डेटा की समस्याओं को हल करने वाला नहीं है। कॉर्पोरेट छोटा डेटा अभी भी बाहर है। यह अभी भी हर जगह है। यह आज की सूचना अर्थव्यवस्था के लिए संचालन का ईंधन है। और बड़ा डेटा इन तथाकथित छोटे कॉर्पोरेट डेटा के लिए एक तारीफ प्रदान करता है, लेकिन यह छोटे डेटा का समर्थन नहीं करता है। यह अभी भी आसपास है। मुझे बड़े डेटा के बारे में बहुत सारी चीजें पसंद हैं, विशेष रूप से मशीन-जनरेट डेटा जैसे सामान।

और आज, हम शायद सोशल मीडिया डेटा के बारे में थोड़ी बात करते हैं, जो बहुत शक्तिशाली सामान भी है। और अगर आप इसके बारे में सोचते हैं, उदाहरण के लिए, सामाजिक व्यापार कैसे बदल गया है, तो बस यहां तीन त्वरित वेबसाइटों के बारे में सोचें:, लिंक्डइन और। इस तथ्य के बारे में सोचें कि पांच साल पहले, कोई भी उस तरह का सामान नहीं कर रहा था। इन दिनों एक पूर्ण बाजीगरी है। , ज़ाहिर है, बहुत बड़ा है। यह गर्व की बात है। और फिर, लिंक्डइन कॉर्पोरेट नेटवर्किंग और संचार के लिए वास्तविक मानक है। ये साइट विनम्र हैं, और इसमें मौजूद डेटा का लाभ उठाने में सक्षम होने के लिए, यह कुछ गेम-चेंजिंग कार्यक्षमता को पुनर्जीवित करने वाला है। यह वास्तव में बहुत सारे संगठनों के लिए बहुत अच्छा करने जा रहा है - कम से कम जो लोग इसका लाभ उठाते हैं।

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार कर सकते हैं।

इसलिए, शासन - प्रशासन अभी भी मायने रखता है। फिर से, बड़ा डेटा शासन की आवश्यकता को कम नहीं करता है। स्पष्ट रूप से, बड़े डेटा की दुनिया को नियंत्रित करने के तरीके पर ध्यान देने की एक पूरी नई आवश्यकता है। आप कैसे सुनिश्चित करते हैं कि आपके पास अपनी प्रक्रियाएं और नीतियां हैं; सही लोगों को सही डेटा तक पहुंच मिल रही है; आपको संपर्क मिला है, आपको यहाँ वंश मिला है? आपको वास्तव में पता है कि डेटा कहां से आता है, इसका क्या हुआ है। और वह सब बदल रहा है

मैं पूरी तरह से इस बात से बहुत प्रभावित हुआ हूं कि मैंने इस पूरी नई दुनिया में जो कुछ भी देखा है, वह हडोप इकोसिस्टम का लाभ उठा रहा है, जो निश्चित रूप से, कार्यक्षमता के मामले में भंडारण की तुलना में बहुत अधिक है। Hadoop एक कम्प्यूटेशनल इंजन भी है। और कंपनी को यह पता लगाना है कि उस कम्प्यूटेशनल शक्ति, उस समानांतर प्रसंस्करण क्षमता का दोहन कैसे किया जाए। वे वास्तव में, बहुत अच्छी चीजें करने जा रहे हैं। आज हम इसके बारे में जानेंगे।

दूसरी बात का उल्लेख करना, यह कुछ ऐसा है जिस पर डॉ। ब्लोर ने हाल के दिनों में बात की है, यह है कि नवाचार की लहर खत्म नहीं हुई है। इसलिए, हमने बहुत कुछ देखा है, निश्चित रूप से Hadoop के इर्द-गिर्द। हमने क्लोडा और हॉर्टोनवर्क्स जैसी कंपनियों को देखा है, आप जानते हैं कि वास्तव में कुछ लहरें बन रही हैं। और वे, आज, कॉल पर कंपनियों के साथ साझेदारी कर रहे हैं, काफी स्पष्ट रूप से। और वे बहुत सारे लोगों के साथ साझेदारी विकसित कर रहे हैं। लेकिन नवाचार की लहर खत्म नहीं हुई है। अपाचे फाउंडेशन के बाहर कताई की और भी परियोजनाएँ हैं जो न सिर्फ अंतिम बिंदु बदल रही हैं, अगर आप - उन अनुप्रयोगों का उपयोग करें जो लोग उपयोग करते हैं - लेकिन बुनियादी ढाँचा।

इसलिए, YARN का यह संपूर्ण विकास - फिर भी एक अन्य संसाधन वार्ताकार - वास्तव में बड़े डेटा के लिए एक ऑपरेटिंग सिस्टम की तरह है। और यह एक बड़ी, बड़ी बात है। इसलिए, हम यह जानने जा रहे हैं कि चीजें कैसे बदलती हैं। तो, यहाँ बस स्पष्ट सलाह के एक जोड़े बिट्स, आगे जाने वाले लंबे अनुबंधों से सावधान रहें, आप जानते हैं, पांच-, दस साल के अनुबंधों की लहर, मेरे लिए लगता है कि रास्ता बनने जा रहा है। आप हर कीमत पर लॉक-इन से बचना चाहते हैं। हम आज उस सब के बारे में जानने जा रहे हैं।

इसलिए, आज हमारा पहला विश्लेषक बोल रहा है - पूरे कार्यक्रम का हमारा पहला वक्ता माइक फर्ग्यूसन है, जो यूके से बुला रहा है। इसके साथ, मैं आपको चाबियाँ, माइक सौंपने जा रहा हूं और आपको इसे दूर ले जाने देता हूं। माइक फर्ग्यूसन, मंजिल आपकी है।

माइक, तुम वहाँ? आप निःशब्द हो सकते हैं। मैं उसे नहीं सुनता। हमें उसे वापस बुलाना पड़ सकता है। और हम अभी-अभी रॉबिन ब्लोर की स्लाइड्स पर जा सकते हैं। रॉबिन, मैं यहाँ गरीब माइक फर्ग्यूसन पर रैंक खींचने जा रहा हूँ। मैं एक सेकंड के लिए जाने वाला हूं।

क्या आप माइक हैं? क्या आप हमे सुन सकते हैं? नाह। मुझे लगता है कि हमें पहले रॉबिन के साथ जाना होगा और आगे बढ़ना होगा। तो, एक सेकंड, लोगों को पकड़ो। मैं यहां कुछ ही मिनटों में स्लाइड के कुछ लिंक भी खींचूंगा। तो इसके साथ ही, मैं रॉबिन ब्लोर को चाबियां सौंपता हूं। रॉबिन, आप माइक के बजाय पहले जा सकते हैं, और मैं माइक को एक सेकंड में कॉल करूंगा।

रॉबिन: ठीक है।

एरिक: रुको, रोब। मुझे आगे बढ़ने दें और अपनी स्लाइड यहां प्राप्त करें, रोब। यह एक सेकंड लेने वाला है।

रॉबिन: ठीक है।

एरिक: हाँ। आप इस बारे में बात कर सकते हैं कि हम शासन के संदर्भ में यहाँ क्या कर रहे हैं, हालांकि, किसके साथ काम कर रहे हैं। मुझे पता है कि आप शासन के बारे में बात करने जा रहे हैं। यह आमतौर पर छोटे कॉर्पोरेट डेटा के चुनाव के बारे में सोचा जाता है। तो अब, मुझे स्लाइड मिल गया है, रॉबिन। कुछ भी स्थानांतरित न करें। और यहाँ तुम जाओ। मंजिल आपकी है। इसे दूर ले जाओ।

रॉबिन: ठीक है। हाँ। मेरा मतलब है, ठीक है, हम पहले से ही एक तरह से व्यवस्थित थे, माइक विश्लेषणात्मक पक्ष के बारे में बात करेंगे, और मैं शासन पक्ष के बारे में बात करूंगा। एक निश्चित सीमा तक, गवर्नेंस एनालिटिक्स का अनुसरण इस अर्थ में करता है कि यह एक कारण है कि आप बड़े डेटा सामान का काम कर रहे हैं, और यह कारण कि आप सभी सॉफ्टवेयर को एनालिटिक्स करने के लिए इकट्ठा करते हैं, वह है जहाँ मूल्य है।

एक मुद्दा है। और मुद्दा यह है कि, आप जानते हैं, डेटा को wrangled किया जाना है। डेटा को मार्श किया जाना है। डेटा को एक साथ लाया और प्रबंधित किया जाना है, जो एनालिटिक्स को पूरे आत्मविश्वास के साथ सक्षम बनाता है - मुझे लगता है, यह शब्द है। इसलिए, मुझे लगा कि मैं इस समीकरण के शासन पक्ष के बारे में बात कर रहा हूं। मुझे लगता है, कहने की बात, वास्तव में, यह आप जानते हैं, शासन पहले से ही एक मुद्दा था। शासन पहले से ही एक मुद्दा था, और यह पूरे डेटा वेयरहाउस गेम में एक मुद्दा बनने लगता है।

जो वास्तव में हुआ है, वह बहुत बड़े मुद्दे में बदल गया है। और कारण यह एक बहुत बड़े मुद्दे के साथ-साथ अधिक डेटा में बदल गया, लेकिन मेरा मतलब है, ये कारण हैं, वास्तव में। डेटा स्रोतों की संख्या में नाटकीय रूप से विस्तार हुआ है। पहले, जो डेटा स्रोत हमारे पास थे और बड़े जो डेटा वेयरहाउस को फीड करते थे, उन्हें परिभाषित करते हैं। डेटा गोदाम सामान्य रूप से RTP सिस्टम द्वारा खिलाया जाएगा। यह थोड़ा बाहरी डेटा संभव है, ज्यादा नहीं।

अब, हम एक ऐसी दुनिया में चले गए हैं, जहाँ आप जानते हैं, एक डेटा बाज़ार अभी अस्तित्व में है, और इसलिए, डेटा में ट्रेडिंग होगी। आपके पास पहले से ही डेटा के विभिन्न स्ट्रीमिंग स्रोतों का लोड और भार है जो आप वास्तव में संगठन में ला सकते हैं। हमें सोशल मीडिया डेटा मिला है, जो उन्हें अपने स्वयं के खाते से निकाल लिया गया है, इसलिए बोलने के लिए। मेरा मतलब है, सोशल मीडिया साइटों में एक बहुत कुछ, वास्तव में मूल्य वे जानकारी है जो वे एकत्र करते हैं और इसलिए लोगों को उपलब्ध करा सकते हैं।

हमें भी इस बात की खोज है, आप जानते हैं, यह पहले से मौजूद है। हमारे पास पहले से ही उन लॉग फाइलें थीं, जिन्हें आप स्प्लंक के आगमन में जानते हैं। और जल्द ही, यह स्पष्ट हो गया कि लॉग फ़ाइल में मान है। इसलिए, संगठन के भीतर डेटा था - जो कि हम नए डेटा स्रोतों के साथ-साथ बाहरी स्रोतों को भी कॉल कर सकते हैं। तो, यह एक बात है। और इसका वास्तव में मतलब है कि, आप जानते हैं, डेटा के प्रबंधन के जो भी नियम हमारे पास पहले थे, वे एक तरह से या किसी अन्य तरीके से होने वाले हैं, और वास्तव में शासन करने के लिए विस्तारित करने की आवश्यकता बनी रहेगी डेटा। लेकिन अब हम एक या दूसरे तरीके से इकट्ठा होना शुरू कर रहे हैं।

और इस सूची में नीचे जाकर हमारे पास स्ट्रीमिंग और डेटा के आगमन की गति है। एक, मुझे लगता है, Hadoop की लोकप्रियता का कारण यह है कि यह बहुत अधिक डेटा को पकड़ने के लिए उपयोग किया जा सकता है। यह डेटा गति को भी सीमित कर सकता है, यदि आपको वास्तव में तुरंत इसका उपयोग करने की आवश्यकता नहीं है, तो यह एक अच्छा समानांतर, विशाल समानांतर वातावरण है। लेकिन आपको यह तथ्य भी पता चल गया है कि अभी भी काफी मात्रा में स्ट्रीमिंग एनालिटिक्स चल रही हैं। यह केवल बैंकिंग क्षेत्र हुआ करता था जो कि स्ट्रीमिंग अनुप्रयोगों में रुचि रखता था, लेकिन अब यह वैश्विक प्रकार का हो गया है। और हर कोई एक या दूसरे तरीके से स्ट्रीमिंग एप्लिकेशन को देख रहा है, डेटा से मूल्य प्राप्त करने और संगठन के लिए एनालिटिक्स करने का एक संभावित साधन है।

हमें असंरचित डेटा मिला है। सांख्यिकी, आमतौर पर दुनिया के केवल 10% डेटा का हिस्सा रिलेशनल डेटाबेस में था। अब, इसका एक प्रमुख कारण यह था कि यह वास्तव में असंरचित था, और यह था - इसका एक अच्छा सौदा वहाँ वेब पर था, लेकिन विभिन्न वेबसाइटों के बारे में बहुत कुछ बिखरा हुआ था। यह डेटा विश्लेषण योग्य भी साबित हुआ है। और सिमेंटेक तकनीक के आगमन के साथ जो धीरे-धीरे स्थिति में रेंग रही है, अधिक से अधिक बनने के लिए हो रही है।इसलिए, असंरचित डेटा को वास्तव में इकट्ठा करने और प्रबंधित करने की आवश्यकता है, और इसका मतलब है कि यह पहले की तुलना में बहुत अधिक है। हमें एक सामाजिक डेटा मिला है जिसका मैंने पहले ही उल्लेख किया है, लेकिन इसके बारे में मुख्य बिंदु, इसके बारे में मुख्य बिंदु, क्या यह शायद सफाई की आवश्यकता है।

हमें इंटरनेट ऑफ थिंग्स डेटा मिला है। यह एक अलग तरह की स्थिति है। ऐसा बहुत कुछ होने की संभावना है, लेकिन इसके बहुत से हिस्से को उसी स्थान के पास वितरित किया जाना है जहां यह चलता है। लेकिन आप यह भी चाहते हैं कि एक या दूसरे तरीके से, डेटा पर संगठन के भीतर एनालिटिक्स करने के लिए इसे खींचें। इसलिए, यह एक और कारक है। और उस डेटा को अलग-अलग तरीके से संरचित किया जाएगा, क्योंकि यह संभवतः - यह संभवतः JSON या XML में स्वरूपित किया जाएगा, ताकि यह खुद को घोषित करे। और न केवल, एक तरह से या किसी अन्य, कि हम वास्तव में डेटा को खींच रहे हैं और डेटा के उस विशेष टुकड़े पर रीड पर स्कीमा की तरह करने में सक्षम हैं।

हमें सिद्धता का मुद्दा मिल गया है, और यह एक विश्लेषण मुद्दा है। किसी भी विश्लेषण में आप जो डेटा कर रहे हैं, उसके परिणाम वास्तव में नहीं हो सकते हैं - यदि आपको पसंद है - मान्य है, तब तक मान्य है, जब तक कि आप डेटा अपडेट को नहीं जानते। मेरा मतलब है, डेटा वैज्ञानिकों की गतिविधि के संदर्भ में यह सिर्फ व्यावसायिकता है। लेकिन आप जानते हैं, डेटा प्रोवेंस होने के लिए, इसका मतलब है कि हमें वास्तव में डेटा को नियंत्रित करना होगा और इसके वंश पर एक नोट रखना होगा।

हमारे पास कंप्यूटर पावर और समानताएं का मुद्दा है और जो कुछ करता है वह सब कुछ तेजी से आगे बढ़ता है। समस्या यह है कि स्पष्ट रूप से, कुछ प्रक्रियाएँ जो हमें हो गई हैं, वे बाकी सभी चीज़ों के लिए बहुत धीमी हो सकती हैं। तो, गति के मामले में संभवतः बेमेल है।

हमें मशीन सीखने का रोमांच मिला है। मशीन लर्निंग का प्रभाव है, वास्तव में, एनालिटिक्स को पहले की तुलना में एक अलग गेम बनाना। लेकिन आप वास्तव में इसका उपयोग केवल तभी कर सकते हैं जब आपको शक्ति प्राप्त हो।

हम नए विश्लेषणात्मक कार्यभार के तथ्य को प्राप्त कर चुके हैं। हमें एक समानांतर दुनिया मिली है और कुछ विश्लेषणात्मक एल्गोरिदम को अधिकतम प्रभाव के लिए समानांतर में निष्पादित करने की आवश्यकता है। और इसलिए समस्या वास्तव में नियंत्रित कर रही है कि आप वास्तव में, एक तरह से या किसी अन्य तरीके से, डेटा को चारों ओर धकेलें, यदि वे उपलब्ध हैं तो डेटा बनाएं। और जहां आप वास्तव में विश्लेषणात्मक कार्यभार को निष्पादित करते हैं, क्योंकि आप डेटाबेस में ऐसा कर रहे होंगे। तो, आप इसे विश्लेषणात्मक अनुप्रयोगों के भीतर कर रहे होंगे।

इसलिए, शासन की चुनौतियों की एक पूरी श्रृंखला है। हमने इस वर्ष क्या किया - इस वर्ष हमने जो शोध किया वह वास्तव में बड़े डेटा आर्किटेक्चर के आसपास था। और जब हम वास्तव में इसे सामान्य बनाने की कोशिश करते हैं, तो हम जो निष्कर्ष पर आते हैं - वह आरेख जो हम साथ आए थे, वह बहुत कुछ इस तरह दिखता था।

मैं इसमें नहीं जा रहा हूँ, विशेष रूप से माइक एनालिटिक्स के लिए डेटा आर्किटेक्चर पर एक उचित राशि करने जा रहा है। लेकिन जो मैं वास्तव में लोगों को पसंद करता हूं, वह यह है कि यह नीचे का क्षेत्र है, जहां हम एक या दूसरे तरीके से डेटा इकट्ठा कर रहे हैं। हमारे पास कुछ ऐसा है जिसे मैं संदर्भित करना चाहूंगा कि डेटा रिफाइनरी या डेटा प्रोसेसिंग हब है। और वह जगह जहां शासन चलता है। तो, आप जानते हैं, अगर हम इसमें ध्यान केंद्रित करते हैं, तो यह ऐसा दिखता है। आप जानते हैं, यह आंतरिक और बाहरी स्रोतों के डेटा द्वारा खिलाया जा रहा है। सिद्धांत रूप में, हब को उत्पन्न होने वाले सभी डेटा को लेना चाहिए। यदि आपको एनालिटिक्स और स्ट्रीमिंग डेटा करने की आवश्यकता है, तो इसे स्ट्रीम किया जाना चाहिए और इसे प्रबंधित किया जाना चाहिए। या फिर, यह सब हब में आता है। और कई चीजें हैं जो हब में जा रही हैं - और आप हब में एक निश्चित मात्रा में एनालिटिक्स और एसक्यूएल चल सकते हैं। लेकिन आपको अन्य क्षेत्रों में डेटा पुश करने के लिए प्रत्येक सेल में डेटा वर्चुअलाइजेशन की आवश्यकता भी है। लेकिन ऐसा होने से पहले, आपको डेटा तैयार करने के लिए रिफाइनिंग करने के लिए वास्तव में एक या दूसरे तरीके की आवश्यकता होती है। आप इसे डेटा तैयारी कह सकते हैं। यह उससे बहुत बड़ा है। ये चीजें हैं जो मुझे लगता है कि इसमें शामिल हैं।

हमारे पास सिस्टम प्रबंधन और सेवा प्रबंधन है, एक अर्थ में, यह डेटा परत का प्रमुख हिस्सा है, फिर हमें वास्तव में सभी सिस्टम को लागू करना होगा जो कि ऑपरेटिंग सिस्टम प्रबंधन प्रयास का प्रबंधन करते हैं जो हमने परंपरागत रूप से बहुत सारे परिचालन प्रणालियों के लिए किया है। लेकिन हमें यह भी चाहिए कि इन विभिन्न सेवा स्तरों को पूरा करने के लिए चल रही अन्य चीजों पर नजर रखने के लिए एक या दूसरे तरीके की जरूरत है, क्योंकि सेवा स्तर या किसी भी तरह के एनालिटिक्स को परिभाषित करने के लिए बाध्य हैं, या बीआई डेटा है। कार्रवाई की जा रही है।

हमें प्रदर्शन की निगरानी और प्रबंधन की आवश्यकता है। यदि कुछ और है, तो हमें यह जानने की आवश्यकता है कि समय में विभिन्न बिंदुओं पर हमें किन कंप्यूटर संसाधनों को आवंटित करने की आवश्यकता हो सकती है। लेकिन साथ ही, कार्यभार का एक बहुत बड़ा हिस्सा वास्तविक तथ्य में है, संसाधनों के लिए एक दूसरे के साथ काफी जटिल और प्रतिस्पर्धात्मक है। वहाँ कुछ काफी परिष्कृत है जो उस क्षेत्र में किए जाने की आवश्यकता है।

अब हमें एक तरह से डेटा जीवन चक्र मिल गया है जो हमारे पास पहले कभी नहीं था। यहाँ सौदा वास्तव में ऊपर और किसी भी चीज़ से परे है, कि हमने डेटा इकट्ठा नहीं किया है और इसे पहले ही फेंक दिया है। हमने उस डेटा को इकट्ठा करने की कोशिश की, जिसकी हमें ज़रूरत थी और शायद इसे बनाए रखा, और फिर हमने इसे संग्रहीत किया। लेकिन हम यहाँ से क्या कर रहे हैं की एक बहुत कुछ डेटा की खोज कर रहा है। और यदि आप डेटा नहीं चाहते हैं, तो इसे दफनाने दें। इसलिए, स्थिति के आधार पर डेटा जीवन चक्र अलग-अलग चीजें हैं, लेकिन यह डेटा का एक बहुत अधिक एकत्रीकरण भी होगा। इसलिए, आप जानते हैं, यह जानना कि एक समुच्चय कहाँ से आया है ... एकत्रीकरण का स्रोत क्या है, और इसी तरह और आगे। वह सब आवश्यक है।

डेटा वंश स्वाभाविक रूप से उधार देता है। इसके बिना, आपको समस्याओं को जानना होगा, इसलिए डेटा ... हमें जानना होगा कि डेटा वैध है, लेकिन वास्तव में यह कितना विश्वसनीय है।

हमें डेटा मैपिंग भी मिली है, क्योंकि वास्तव में बहुत सारा डेटा एक तरह से या किसी अन्य रूप में होने वाला है। और यह है, यदि आप चाहें, तो यह एमडीएम में एक निश्चित सीमा तक संबंधित है। यह सिर्फ इतना है कि यह अब और अधिक जटिल है, क्योंकि जब आपको JSON द्वारा परिभाषित एक बहुत बड़ा डेटा मिला है या पढ़ने पर हमारे XML स्कीमा पर आधारित है, तो आपको एक या दूसरे तरीके से, बहुत सक्रिय होने की आवश्यकता है डेटा मैपिंग गतिविधि चल रही है।

एक मेटाडेटा प्रबंधन की स्थिति है जो एमडीएम से अधिक है, क्योंकि एक तरह से या किसी अन्य की आवश्यकता है, यह बनाने के लिए कि मैं अब उन सभी चीजों के मेटाडेटा वेयरहाउस के रूप में क्या सोचता हूं, जिसमें आपकी रुचि है, मेटाडाटा है। खोज, क्योंकि कुछ डेटा की जरूरी रूप से इसकी मेटाडेटा घोषित नहीं होगी, और हम इसका तुरंत उपयोग करना चाहते हैं। और फिर, वहाँ डेटा की सफाई, जो कि चीजों की श्रृंखला के रूप में एक बड़ी बात है जो कोई भी कर सकता है। और साथ ही डेटा सुरक्षा भी है। इस डेटा को सभी को स्वीकार्य स्तर पर सुरक्षित करना होगा, और इसका मतलब कुछ उदाहरणों में भी हो सकता है - उदाहरण के लिए, बहुत सारे मानों को एन्क्रिप्ट करना।

इसलिए, यह सभी कार्यभार वास्तव में शासन साम्राज्य है। यह सब, एक तरह से या किसी अन्य, एक ही समय पर या उससे पहले, हमारी सभी विश्लेषणात्मक गतिविधि पर चलना होगा। यह समन्वित अनुप्रयोगों की एक बड़ी संख्या है। यह अपने आप में एक प्रणाली है। और फिर, जो लोग इसे समय पर विभिन्न बिंदुओं पर नहीं करते हैं वे आगे बढ़ने के साथ इसकी कमी से पीड़ित होंगे, क्योंकि इन चीजों का एक बहुत कुछ वास्तव में वैकल्पिक नहीं है। यदि आप उन्हें नहीं करते हैं, तो आप केवल बढ़ती हुई एंट्रोपी के साथ समाप्त होते हैं।

इसलिए, डेटा एनालिटिक्स और गवर्नेंस के मामले में, मैं जो कहता हूं, वह यह है कि वास्तव में, एक हाथ दूसरे को धोता है। शासन के बिना, एनालिटिक्स और बीआई समय में बहुत अधिक नहीं थे। और एनालिटिक्स और बीआई के बिना, वैसे भी डेटा को नियंत्रित करने के लिए बहुत अधिक आवश्यकता नहीं होगी। तो, दो चीजें वास्तव में हाथ से चलती हैं। जैसा कि वे मध्य पूर्व में कहते हैं, "एक हाथ दूसरे को धोता है।" और यह वास्तव में सब मुझे कहने को मिला है। मुझे उम्मीद है - उम्मीद है, अब हमें माइक वापस मिल जाएगा।

एरिक: हम करते हैं। माइक, मुझे लगता है कि तुम वहाँ हो मैं आपकी स्लाइड आगे बढ़ाने जा रहा हूं।

माइक: मैं हूँ। ठीक है, क्या आप मुझे सुन सकते हैं?

एरिक: हाँ, मैं तुम्हें सुन सकता हूँ। आप अद्भुत लग रहे हैं। तो, मुझे परिचय दो ... वहाँ तुम जाओ। और तुम अब प्रस्तोता हो। इसे दूर ले जाओ।

माइक: ठीक है, धन्यवाद! सुप्रभात, शुभ दोपहर, आप सभी को शुभ संध्या। शुरुआत में हिचकी को क्षमा करें। किसी कारण के लिए, मैंने खुद को म्यूट कर लिया और सभी को देख सकता हूं लेकिन वे मुझे नहीं सुन सकते।

ठीक है। इसलिए, मैं जल्दी से जो करना चाहता हूं, उसके बारे में बात करता हूं, आप जानते हैं, बड़ा डेटा विश्लेषणात्मक पारिस्थितिकी तंत्र। यदि आप मुझसे प्रश्न पूछना चाहते हैं, तो मैं कह सकता हूँ कि इस सत्र में या बाद में, आप यहाँ मेरे संपर्क विवरण पर अपनी पकड़ बना सकते हैं। जैसा कि मैंने कहा, रात के मध्य में यहाँ ब्रिटेन में।

ठीक है, मुझे वह मिलता है जिसके बारे में मैं बात करना चाहता हूं। स्पष्ट रूप से, पिछले कुछ वर्षों में, हमने उन सभी प्रकार के नए-प्रकार के डेटा के उद्भव को देखा है जो व्यवसाय अब विश्लेषण करना चाहते हैं - ऑनलाइन व्यवहार, सामाजिक मीडिया डेटा को समझने के लिए क्लिकस्ट्रीम डेटा से सब कुछ जो एरिक के बारे में बात कर रहा था। यहां कार्यक्रम की शुरुआत। मुझे लगता है कि रॉबिन ने JSON, BSON, XML का उल्लेख किया है - इसलिए, अर्ध-संरचित डेटा जो कि आत्म-वर्णन है। बेशक, हमें पूरी तरह से अन्य सामान के साथ-साथ असंरचित डेटा, आईटी अवसंरचना लॉग, सेंसर डेटा से सब कुछ मिला है। यह सभी अपेक्षाकृत नए डेटा स्रोत हैं जो व्यवसायों ने अब रुचि ले ली है क्योंकि इसमें मूल्यवान अंतर्दृष्टि शामिल है जो कि संभावित रूप से गहरा हो सकता है जिसे हम जानते हैं।

तो, इसका मतलब है कि विश्लेषणात्मक परिदृश्य पारंपरिक डेटा वेयरहाउसिंग से आगे बढ़ गया है। हम अभी भी संरचित और बहु-संरचित डेटा के संयोजन की दुनिया में डेटा संरचना करते हैं, जहां बहु-संरचित डेटा कई मामलों में उद्यम के अंदर या बाहर से आ सकता है। और इन नए डेटा प्रकारों और विश्लेषण की नई आवश्यकताओं के परिणामस्वरूप, हमने नए विश्लेषणात्मक वर्कलोड के उद्भव को देखा है - गति में डेटा का विश्लेषण करने से सब कुछ, जो पारंपरिक डेटा वेयरहाउसिंग आर्किटेक्चर को उसके सिर पर बदल देता है, कुछ हद तक, जहां हम पारंपरिक हलकों में, डेटा को एकीकृत, इसे साफ किया, इसे रूपांतरित किया, इसे संग्रहीत किया और इसका विश्लेषण किया। लेकिन गति में डेटा का विश्लेषण, हम डेटा को कैप्चर कर रहे हैं, इसे एकीकृत कर रहे हैं, इसे विश्लेषण के माध्यम से तैयार कर रहे हैं और फिर इसे संग्रहीत कर रहे हैं। इसलिए, कहीं भी संग्रहीत किए जाने से पहले डेटा पर विश्लेषण चल रहा है।

हम संरचित डेटा का जटिल विश्लेषण करते हैं, शायद मॉडल विकास, सांख्यिकीय और भविष्य कहनेवाला मॉडल विकास के लिए, जो कि पारंपरिक डेटा वेयरहाउसिंग स्पेस में कुछ लोगों के लिए नया नहीं है। हमें ऑन-मॉडल डेटा का खोजपूर्ण विश्लेषण मिला है। यह वहां संरचित डेटा की मात्रा है। हमें ग्राफ विश्लेषण के रूप में नए कार्यभार मिले हैं, जो वित्तीय सेवाओं में मेरे ग्राहकों के लिए धोखाधड़ी जैसी चीजें शामिल हैं। इसमें साइबर सुरक्षा भी शामिल है। इसमें सोशल नेटवर्क शामिल है, निश्चित रूप से, प्रभावित करने वालों और उस तरह के सामान को समझना। मैंने इसे प्रबंधन में भी महारत हासिल की, कुछ वर्षों का ग्राफ विश्लेषण किया है।

हमें डेटा वेयरहाउस ऑप्टिमाइज़ेशन या ईटीएल प्रोसेसिंग की ऑफलोडिंग मिल गई है, जो आईटी उपयोग के मामले की तरह है, सीआईओ इसे फंड कर सकते हैं। और यहां तक कि डेटा और डेटा वेयरहाउस को Hadoop जैसी चीजों में ऑनलाइन रखने के लिए। इसलिए, इन सभी नए विश्लेषणात्मक कार्यभार ने विश्लेषणात्मक परिदृश्य में नए प्लेटफार्मों, नए भंडारण प्लेटफार्मों को जोड़ा है। इसलिए, केवल पारंपरिक डेटा वेयरहाउस, डेटा मौसा होने के बजाय, जो हमें अब मिल रहा है, वह हैडोप। हमें NoSQL डेटाबेस मिले जैसे कि ग्राफ़ डेटाबेस जो अक्सर विश्लेषणात्मक वर्कलोड के लिए उपयोग किए जाते हैं। बेशक, हम ग्राफ विश्लेषण अब Hadoop पर और साथ ही NoSQL ग्राफ DBMSs में भी कर सकते हैं। हमें स्ट्रीमिंग एनालिटिक्स मिला है जिसका रॉबिन ने उल्लेख किया है। और हमें मिल गया है - अगर आपको पसंद है - मॉडल का निर्माण, शायद विश्लेषणात्मक डेटा वेयरहाउस उपकरणों पर भी। लेकिन उस सभी ने विश्लेषणात्मक परिदृश्य को जटिल कर दिया है, कई प्लेटफार्मों की अब आवश्यकता है। और मुझे लगता है कि फ्रंट ऑफिस या बैक ऑफिस, या फाइनेंस, प्रोक्योरमेंट, एचआर और कुछ तरह के ऑपरेशंस के साथ किसी भी व्यवसाय के लिए चुनौती यह है कि एक पारंपरिक डेटा वेयरहाउसिंग सीन के साथ कौन से विश्लेषणात्मक प्रोजेक्ट जुड़े हैं। और एक बार जब आप जानते हैं कि विश्लेषणात्मक परियोजनाएं इन नए बड़े डेटा प्लेटफ़ॉर्म से जुड़ी हुई हैं और आपको कहां चलना है, तो आप जानते हैं कि कौन सा विश्लेषणात्मक कार्यभार है, लेकिन इस दृष्टि से व्यवसाय की दृष्टि खोना नहीं है - यह अब आप देखेंगे कि यह बड़े का एक संयोजन है डेटा विश्लेषणात्मक परियोजनाएं और पारंपरिक बड़े डेटा वेयरहाउसिंग प्रोजेक्ट जो ग्राहक के अंदर या ऑपरेशन के आसपास, जोखिम या वित्त या स्थिरता के आसपास मजबूत करने के लिए आवश्यक हैं। और इसलिए, हम चाहते हैं कि इन सभी को हमारी रणनीतिक व्यावसायिक प्राथमिकताओं के साथ जोड़ा जाए, ताकि हम ट्रैक पर रहें, आपको पता है, उन सुइयों में धक्का दें, जिन्हें आपको कम करने, लागत को कम करने के लिए, व्यवसाय के प्रदर्शन में सुधार करने के लिए पता होना चाहिए, जोखिमों आदि को कम करने के लिए, आप हमारी कंपनी के लिए समग्र रूप से जानते हैं। इसलिए, यह नहीं है कि एक दूसरे को बड़े डेटा और पारंपरिक के साथ बदल देता है। यह दोनों एक साथ उपयोग किया जा रहा है और यह नाटकीय रूप से वास्तुकला को बदलता है, आप जानते हैं।

इसलिए, मेरे पास यहां एक अपेक्षाकृत नई वास्तुकला है जिसका उपयोग मैं अपने ग्राहकों के साथ करूंगा। और इसलिए, जैसा कि आप अब नीचे देख सकते हैं, डेटा स्रोतों की एक विशाल श्रृंखला, न कि केवल संरचित। उनमें से कुछ लाइव डेटा को सेंसर की तरह स्ट्रीमिंग कर रहे हैं, जैसे मार्केट डेटा, उस तरह का। यह लाइव क्लिकस्ट्रीम डेटा भी हो सकता है। यह लाइव वीडियो स्ट्रीमिंग डेटा हो सकता है। इसलिए इसे संरचित नहीं किया जाना चाहिए। इसलिए, हम वास्तविक समय में स्वचालित क्रिया करने के लिए उस डेटा पर स्ट्रीम प्रोसेसिंग कर सकते हैं, और ब्याज के किसी भी डेटा को फ़िल्टर किया जा सकता है और एंटरप्राइज़ सूचना प्रबंधन उपकरण में उपयोग किया जा सकता है, जिसका उपयोग विश्लेषणात्मक डेटा स्टोर को आबाद करने के लिए किया जा सकता है। जब तक आप यहां मिक्स में नहीं देख सकते, अब हमें पारंपरिक डेटा वेयरहाउसिंग, हडोप और नोएसक्यूएल डेटाबेस मिल गए हैं। हमें मिश्रण में मास्टर डेटा प्रबंधन भी मिला है। और जो पूरे डेटा प्रबंधन टूल सूट पर अधिक दबाव डालता है, न केवल इन डेटा स्टोर को पॉप्युलेट करने के लिए, बल्कि उनके बीच डेटा स्थानांतरित करने के लिए।

उसके ऊपर, हमें एक्सेस टूल्स को सरल बनाना होगा। हम केवल उपयोगकर्ता की ओर मुड़कर नहीं कह सकते हैं, "इन सभी डेटा स्टोरों को प्राप्त करें, इन एपीआई को पकड़ें - आपकी समस्या।" आपके पास क्या करने के लिए पहुँच को सरल बनाना है। और इसलिए, वहां की बिंदीदार रेखाओं में, आपको डेटा वर्चुअलाइजेशन दिखाई देगा और ऑप्टिमाइज़ेशन कई डेटा स्टोरेज की जटिलता को छिपाने की तरह है, कोशिश करें और अंतिम उपयोगकर्ताओं के लिए इसे एक्सेस करना आसान बना दें। और हां, शीर्ष पर कई प्रकार के उपकरण हैं, आप जानते हैं - पारंपरिक बीआई उपकरण से सब कुछ है जो डेटा वेयरहाउसिंग के शीर्ष पर शुरू हो गया है, धीरे-धीरे अपने चार्ट के बाईं ओर बढ़ते हुए Hadoops में कनेक्ट होने का प्रकार और फिर दुनिया के NoSQL डेटाबेस।

हमें जीवन पर एक नया पट्टा मिल रहा है जो विशेष रूप से शरीर संरचित, गैर-संरचित डेटा के आसपास है जो अक्सर Hadoop में संग्रहीत होता है। उदाहरण के लिए, स्पार्क फ्रेमवर्क के साथ हमें Hadoop प्लेटफॉर्म पर किए जाने वाले कस्टम एनालिटिक एप्लिकेशन मिले हैं। हमें ग्राफ एनालिटिक्स टूल मिले हैं, आप जानते हैं कि वहां बहुत विशिष्ट कार्यभार पर ध्यान केंद्रित किया जाता है। तो, उपकरणों की एक श्रृंखला और डेटा प्रवाह भी अधिक जटिल हैं। यह डेटा वेयरहाउस में अब केवल एक-तरफ़ा सड़क नहीं है। यह निश्चित रूप से अब मास्टर डेटा है।

हमें नए डेटा स्रोत आ रहे हैं, या तो NoSQL में कैप्चर किया जा रहा है, आप जानते हैं, MongoDB जैसे डेटा स्टोर, जैसे कैसंड्रा, HBase जैसे। हमें डेटा को सीधे विश्लेषण और डेटा तैयार करने के लिए Hadoop में लाया जा रहा है। हमें Hadoop और डेटा वेयरहाउस से नई अंतर्दृष्टि प्राप्त हुई है। हमें Hadoop में डेटा वेयरहाउस से आने वाला संग्रह मिला है। अब हमें मिलने वाला डेटा फीड मिल गया है, आप जानते हैं कि सभी NoSQL डेटाबेस और डेटा मौट्स भी। इसलिए, आप यहां देख सकते हैं कि डेटा प्रबंधन में कहीं अधिक गतिविधि चल रही है। और इसका मतलब है कि यह डेटा प्रबंधन सॉफ्टवेयर को काफी दबाव में डाल रहा है। यह अब केवल एक-तरफ़ा सड़क नहीं है। यह दो तरह से डेटा आंदोलन है। यह बहुत अधिक गतिविधि चल रही है, और इसलिए डेटा प्रबंधन-उपकरण के मोर्चे पर और साथ ही डेटा स्रोत पर स्केलेबिलिटी महत्वपूर्ण है।

इसलिए, यह चार्ट उस वास्तुकला पर वापस जाता है जिसका मैंने एक क्षण पहले उल्लेख किया था। यह आपको इस वास्तुकला के विभिन्न हिस्सों में चल रहे विभिन्न विश्लेषणात्मक कार्यभार दिखाता है। वहां बायीं तरफ नीचे की तरफ, आपको वास्तविक समय की स्ट्रीमिंग, स्ट्रीम प्रोसेसिंग की प्रक्रिया चल रही है, जिससे आपको पता चल रहा है कि आप किसी भी तरह का लाइव डेटा स्टोर कर सकते हैं। हमें NoSQL ग्राफ डेटाबेस पर वर्ग विश्लेषण हो रहा है। यह Hadoop पर भी हो सकता है। स्पार्क फ्रेमवर्क के साथ, उदाहरण के लिए, और वहां ग्राफएक्स, हमें खोजी विश्लेषण मिला है और रॉबिन जिस डेटा रिफाइनरी के बारे में बात कर रहे हैं, वह हैडोप पर होने वाली है। हमें अभी भी पारंपरिक कार्यभार मिल रहे हैं और डेटा वेयरहाउसिंग चल रही है, आप जानते हैं, बिजली उपयोगकर्ता सांख्यिकीय और पूर्वानुमान मॉडल का निर्माण करते हैं, शायद डेटा वेयरहाउस उपकरणों पर। और हम अभी भी अंत उपयोगकर्ताओं के लिए इसे आसान बनाने के लिए इस सब तक पहुंच को आसान बनाने की कोशिश कर रहे हैं।

इसलिए, इस पूरे सेटअप में सफलता सिर्फ विश्लेषणात्मक पक्ष से अधिक है। आप जानते हैं, हम विश्लेषणात्मक प्लेटफ़ॉर्म को जगह दे सकते हैं, लेकिन यदि हम कैप्चर और निगलना नहीं कर सकते हैं, तो आप जानते हैं, उच्च वेग और उच्च मात्रा डेटा, पैमाने पर, बहुत अधिक बिंदु नहीं है। आप जानते हैं, मैं विश्लेषण करने के लिए कुछ भी नहीं हूं। और इसलिए, बड़े डेटा एनालिटिक्स की सफलता के लिए बड़े पैमाने पर परिचालन प्रणालियों की आवश्यकता होती है। इसका मतलब है, नए लेनदेन का समर्थन करने में सक्षम होने के लिए, आप जानते हैं, चोटियों। आप जानते हैं, किसी भी गैर-ट्रांजेक्शनल डेटा को वहां कैप्चर किया जा सकता है, आप जान सकते हैं, किसी भी नए आगमन की दर बहुत अधिक है, सेंसर या किसी भी निगलना जैसे उच्च-वेग डेटा पर बहुत अधिक आगमन दर। हमें उस सभी को पूरा करने में सक्षम होना चाहिए - इस तरह के डेटा को पकड़ने और विश्लेषण के लिए लाने में सक्षम होना चाहिए। हमें खुद भी एनालिटिक्स को स्केल करना होगा, उस डेटा तक पहुंच को सरल बनाना होगा जिसका मैंने पहले ही उल्लेख किया था। और फिर, कि टाई। आप जानते हैं, हमें इसे बंद लूप देने के लिए उन परिचालन प्रणालियों में वापस परिशोधित करने में सक्षम होना चाहिए।

इसलिए, डेटा पर कब्जा करने के लिए घर के संचालन पक्ष को मापना, आप जानते हैं, NoSQL डेटाबेस की दुनिया में ले जाता है। मेरा मतलब है, यहाँ आप NoSQL डेटाबेस की पाँच श्रेणियां देखते हैं। इस श्रेणी को केवल अन्य चार से ऊपर के संयोजन के रूप में देखा जाएगा। सामान्य तौर पर, आप जानते हैं, इसके प्रमुख मूल्य, संग्रहीत दस्तावेज़ और स्तंभ परिवार डेटाबेस - पहले तीन वहाँ - जो कि अधिक प्रकार के लेन-देन और गैर-लेनदेन डेटा के लिए उपयोग किया जाता है।

गुणों के रूप में समर्थन करने वाले कुछ डेटाबेस; उनमें से कुछ नहीं। लेकिन फिर भी, आप जानते हैं, हम उन प्रकार के अनुप्रयोगों को लागू करने के लिए उनका परिचय देख रहे हैं। और इसलिए, उदाहरण के लिए, जैसा कि हमने अभी-अभी ग्राहकों से लेन-देन में प्रवेश करने वाले कर्मचारियों से दूर चले गए हैं और अब ऐसा करने में सक्षम होने के लिए उपन्यास उपकरणों का उपयोग करने वाली जनता। हमने उद्यमों में दर्ज किए जा रहे लेनदेन की संख्या में जबरदस्त वृद्धि देखी है। और इसलिए, हमें ऐसा करने के लिए ट्रांसेक्शनल एप्लिकेशन को स्केल करना होगा।

अब, आम तौर पर बोलना, जो कि NSQLDB और VoltDB जैसे एक रिलेशनल डेटाबेस के रूप में NewSQL डेटाबेस पर यहां दिखाया जा सकता है। या ऐसे कुछ NoSQL डेटाबेस जो शायद ACID संपत्तियों का समर्थन करते हैं जो लेन-देन प्रसंस्करण की गारंटी दे सकते हैं खेल में हो सकते हैं। यह गैर-लेन-देन डेटा पर भी लागू होता है, जैसे कि लेन-देन से पहले खरीदारी कार्ट डेटा, आप जानते हैं, इससे पहले कि लोग सामान, सेंसर डेटा खरीदते हैं, आप जानते हैं, जैसा कि मैं करोड़ों सेंसर रीडिंग के बीच एक सेंसर रीडिंग खो देता हूं। यह कोई बड़ी बात नहीं है। क्लिक्स, आप जानते हैं, क्लिकस्ट्रीम दुनिया में - यदि मैं एक क्लिक का उपयोग करता हूं, तो यह कोई बड़ी बात नहीं है।तो, आप जानते हैं, हमें वहां एसीआईडी संपत्तियों की आवश्यकता नहीं है, और यह कि अक्सर जहां NoSQL डेटाबेस खेलने में आते हैं, वहां यह था - इन नए प्रकार के डेटा को कैप्चर करने के लिए पैमाने पर बहुत अधिक, सही प्रसंस्करण करने की क्षमता।

साथ ही हम चाहते हैं कि एनालिटिक्स को पैमाना बनाया जाए। और इसलिए, डेटा स्टोर से डेटा को विश्लेषणात्मक प्लेटफ़ॉर्म तक खींचना अब इसे हैक करने वाला नहीं है क्योंकि डेटा बहुत बड़ा है। हम वास्तव में चाहते हैं कि एनालिटिक्स को दूसरे तरीके से धकेल दिया जाए, उद्यम डेटा वेयरहाउस में हैडॉप में, स्ट्रीम प्रोसेसिंग में डेटा को एनालिटिक्स को पुश करने में सक्षम होने के लिए। हालाँकि, सिर्फ इसलिए कि कोई कहता है कि यह डेटाबेस एनालिटिक्स में है या Hadoop एनालिटिक्स में जरूरी नहीं है कि एनालिटिक्स समानांतर में चले। और काफी स्पष्ट रूप से, यदि आप इन नए बड़े पैमाने पर समानांतर स्केलेबल प्रौद्योगिकियों जैसे कि Hadoop में निवेश करने जा रहे हैं, जैसे कि डेटा वेयरहाउस उपकरण और whatnot, क्लस्टर स्ट्रीम प्रोसेसिंग इंजन की तरह, हमें समानांतर में चलने के लिए एनालिटिक्स की आवश्यकता है।

तो, यह केवल चेक आउट है। आप जानते हैं, अगर हमें विश्लेषिकी मिली है, तो ग्राहकों के लिए चीजों की भविष्यवाणी करने में मदद करने के लिए, संचालन के लिए, जोखिम के लिए, आदि, हम उन्हें समानांतर में चलाना चाहते हैं, न कि केवल प्लेटफॉर्म में चलाना। हम दोनों चाहते हैं। और ऐसा इसलिए है, क्योंकि आप जानते हैं, तकनीक इन नए विज़ुअल डिस्कवरी टूल्स जैसे एसएएस के समान है। यह वास्तव में हमारे प्रायोजकों में से एक है।

एक चीज जो लोग चाहते हैं, वह कम से कम हाडोप में और उसके बाद डेटाबेस एनालिटिक्स में शोषण करना है। और हम चाहते हैं कि इस तरह के उच्च डेटा वॉल्यूम पर आवश्यक प्रदर्शन देने में सक्षम होने के लिए वे समानांतर में चलें। उसी समय, हम इस सब तक पहुंच को आसान बनाने की कोशिश कर रहे हैं। और इसलिए, SQL अब एजेंडा पर वापस आ गया है। तुम्हें पता है, SQL है - Hadoop पर SQL अभी गर्म है। मैं इसे अभी 19 SQL और Hadoop पहलों में ट्रैक कर रहा हूँ। इसके अलावा, आप देख सकते हैं, हम इस डेटा पर प्राप्त कर सकते हैं, आप जानते हैं कि कई तरीकों से ताकि Hadoop पर सीधे SQL तक पहुँचने के बाद, हम SQL को एक खोज अनुक्रमणिका पर जा सकें। इस तरह से, जैसे कि आप जानते हैं, उस स्थान के कुछ खोज विक्रेताओं के पास, विश्लेषणात्मक रिलेशनल डेटाबेस में SQL एक्सेस हो सकता है, जिसमें एक्सेल टेबल से लेकर हडोप तक हैं।

अब हमारे पास डेटा वर्चुअलाइजेशन सर्वर के लिए एसक्यूएल एक्सेस हो सकता है जो कि तब हीडो के डेटा वेयरहाउस से जुड़ा हो सकता है। मैं अब भी लाइव स्ट्रीमिंग डेटा के लिए SQL एक्सेस के उद्भव को देखना शुरू कर रहा हूं। तो, इस सब के लिए SQL का उपयोग तेजी से बढ़ रहा है। और चुनौती का हिस्सा है, सिर्फ इसलिए कि एसक्यूएल पहुंच का विपणन किया जा रहा है। सवाल यह है कि क्या एसक्यूएल जटिल डेटा से निपट सकता है? और यह जरूरी नहीं कि सीधा है। यहां सभी प्रकार की जटिलताएं हैं, जिसमें इस तथ्य को भी शामिल किया गया है कि JSON डेटा को नेस्टेड किया जा सकता है। हमारे पास स्कीमा संस्करण रिकॉर्ड हो सकते हैं। तो, पहले रिकॉर्ड को एक स्कीमा मिला है। दूसरे रिकॉर्ड को एक अलग स्कीमा मिला है। ये बातें एक संबंधपरक दुनिया में होने वाली घटनाओं से बहुत अलग हैं।

इसलिए, हमें यह प्रश्न करने की आवश्यकता है कि यह किस प्रकार का डेटा है जिसे हम विश्लेषण करने की कोशिश कर रहे हैं, और किस प्रकार की विश्लेषणात्मक विशेषताएं हैं। क्या आप जानते हैं, पैनल जो आप करना चाहते हैं? क्या यह मशीन सीखना है? क्या यह ग्राफ विश्लेषण है? क्या आप एसक्यूएल से ऐसा कर सकते हैं? तुम्हें पता है, कि एसक्यूएल से अपरिहार्य है? कितने समवर्ती उपयोगकर्ताओं को हम ऐसा कर रहे हैं? आप जानते हैं, हमें सैकड़ों समवर्ती उपयोगकर्ता मिले हैं। क्या यह जटिल डेटा पर संभव है? आप जानते हैं, ये सभी चीजें महत्वपूर्ण प्रश्न हैं। इसलिए, मैंने इस तरह की कुछ सूची बनाई है जो मुझे लगता है कि आपको विचार करना चाहिए। तुम्हें पता है, फ़ाइल स्वरूपों की किस तरह? हम किस प्रकार के डेटा प्रकारों के बारे में बात कर रहे हैं? जटिल डेटा प्राप्त करने के लिए हम एसक्यूएल से किस प्रकार के विश्लेषणात्मक कार्य कर सकते हैं? और तरह के कार्य समानांतर में चलते हैं। मेरा मतलब है, अगर वे इस पैमाने को प्राप्त करने में सक्षम हैं, तो वे समानांतर में चलने लगे। और क्या मैं इसके बाहर आज Hadoop में डेटा शामिल कर सकता हूं, आप जानते हैं, या यह उल्लेखनीय नहीं है? और मैं इन सभी विभिन्न प्रकार के क्वेरी वर्कलोड के साथ क्या करूंगा?

और जैसा कि हम देखते हैं, आप जानते हैं, जो मैंने देखा है, उससे SQL और Hadoop वितरण में बहुत सारे अंतर हैं। ये सभी मैं ट्रैकिंग कर रहे हैं। और वैसे, Hadoop पर यह शुद्ध एसक्यूएल है। इस बिंदु पर डेटा वर्चुअलाइजेशन भी शामिल नहीं है। और इसलिए, वहाँ बहुत कुछ है और समेकन के लिए बहुत सारे कमरे हैं, जो मुझे लगता है कि अगले साल, अठारह महीने या ऐसा होने जा रहा है। लेकिन इससे एक और बात भी खुल जाती है, वह यह है कि मैं Hadoop में एक ही डेटा पर संभावित कई SQL इंजन रख सकता हूं। और वह कुछ ऐसा है जो आप संबंधपरक नहीं कर सकते।

बेशक, इसका मतलब है कि आपको तब जानना होगा, आप जानते हैं, मैं किस प्रकार का क्वेरी कार्यभार चला रहा हूं? क्या मुझे Hadoop पहल पर किसी विशेष SQL पर बैच में चलना चाहिए? क्या मुझे Hadoop पहल पर किसी अन्य SQL के माध्यम से इंटरैक्टिव क्वेरी वर्कलोड चलाना चाहिए, आदि, ताकि मुझे पता हो कि किस से कनेक्ट होना है? आदर्श रूप से, निश्चित रूप से, हमें ऐसा नहीं करना चाहिए। हमें बस होना चाहिए, आप जानते हैं, इस पर एक प्रश्न पूछा है। तुम्हें पता है, कुछ आशावादी आंकड़े इसे करने का सबसे अच्छा तरीका बताते हैं। लेकिन हम अभी तक पूरी तरह से वहाँ नहीं हैं, मेरी राय में।

लेकिन फिर भी, डेटा वर्चुअलाइजेशन, मैंने पहले उल्लेख किया है कि कई डेटा स्टोर तक पहुंच को सरल बनाने के लिए बहुत महत्वपूर्ण भूमिका है। और अगर हम Hadoop पर नई अंतर्दृष्टि बनाते हैं, तो निश्चित रूप से डेटा वर्चुअलाइजेशन के माध्यम से डेटा-से-डेटा और पारंपरिक डेटा वेयरहाउस से जुड़ना हमारे लिए प्रशंसनीय है, उदाहरण के लिए, Hadoop से डेटा को पारंपरिक डेटा वेयरहाउस में स्थानांतरित करने के बिना। बेशक, आप भी ऐसा कर सकते हैं। अगर मैं Hadoop में पारंपरिक डेटा वेयरहाउस से डेटा संग्रहीत करता हूं तो यह भी प्रशंसनीय है। मैं अभी भी इसे प्राप्त कर सकता हूं और इसे वापस सामान में शामिल कर सकता हूं जो हमारे डेटा वेयरहाउस में डेटा वर्चुअलाइजेशन के लिए है। इसलिए, मेरे लिए, मुझे लगता है कि डेटा वर्चुअलाइजेशन को इस समग्र वास्तुकला में एक बड़ा भविष्य मिला है और इन सभी डेटा स्टोरों तक पहुंच को सरल बनाया गया है।

और यह नहीं भूलना चाहिए कि जब हम इन नई अंतर्दृष्टि बनाते हैं, चाहे वह रिलेशनल हो या NoSQL सिस्टम पर, हम अभी भी उन जानकारियों को अपने संचालन में वापस लाना चाहते हैं, ताकि हम जो पाया है उसका मूल्य अधिकतम कर सकें, ताकि हम कर सकें हमारे व्यवसाय को अनुकूलित करने के लिए उस वातावरण में अधिक प्रभावी, अधिक सामयिक निर्णयों के लिए लाभ उठाएं।

तो, फिर, मैं जो देख रहा हूं, उसे पूरा करने के लिए, क्या हमें जरूरत है, आपको पता है, नए डेटा स्रोत उभर रहे हैं। हमें एक और अधिक जटिल वास्तुकला पर नए प्लेटफ़ॉर्म मिले हैं, यदि आप इसे संभालना चाहते हैं। और Hadoop का बनना बहुत महत्वपूर्ण है, हमारे तरल सैंडबॉक्स के लिए डेटा तैयारी के लिए, संग्रह क्वेरी के लिए, डेटा वेयरहाउस से संग्रह के लिए पर्याप्त है, डेटा प्रबंधन इन सभी प्लेटफार्मों पर डेटा के प्रबंधन में डेटा वेयरहाउसिंग से परे जाने के लिए अपने पंख फैला रहा है, और नए उपकरण इन वातावरणों में डेटा का विश्लेषण और उपयोग करने में सक्षम, डेटा के बेहतर अंतर्ग्रहण करने के लिए स्केलेबल प्रौद्योगिकियों को सक्षम करने के लिए, और उन्हें समानांतर में अधिक बनाने के लिए प्लेटफ़ॉर्म में नीचे धकेलकर एनालिटिक्स को स्केल करना। और फिर, उम्मीद है, शीर्ष पर आने वाले उभरते एसक्यूएल के माध्यम से उन सभी तक पहुंच को सरल बनाने के लिए भी। इसलिए, यह आपको उस तरह का एक विचार देता है, जहां हम नेतृत्व कर रहे हैं। तो, उस के साथ, मैं वापस पास करूंगा, मुझे लगता है, एरिक अब है?

एरिक: ठीक है, यह शानदार है। और दोस्तों, मुझे यह कहना है कि जो कुछ आपने अभी रॉबिन और माइक से प्राप्त किया है, वह संभवतः पूरे परिदृश्य के अवलोकन से उतना ही व्यापक और संक्षिप्त है जितना कि आप कहीं भी देखने जा रहे हैं। मुझे आगे बढ़ने और पहले जॉर्ज कोरुगेदो कतार। और वहाँ यह है। मुझे यह एक दूसरे के लिए ले चलो। ठीक है, जॉर्ज, मैं आपको चाबी सौंपने वाला हूं, और इसे ले जाऊंगा। मंजिल आपकी है।

जॉर्ज: बहुत बढ़िया! बहुत बहुत धन्यवाद, एरिक, और धन्यवाद, रोब और माइक। यह महान जानकारी और बहुत कुछ है जिस पर हम सहमत थे। इसलिए, रॉबिन की चर्चा पर वापस जाना, क्योंकि, आप जानते हैं, यह संयोग नहीं है कि RedPoint यहाँ है और SAS यहाँ है। क्योंकि RedPoint, हम वास्तव में शासन के डेटा पक्ष पर, डेटा के प्रसंस्करण और विश्लेषण में उपयोग के लिए तैयारी पर ध्यान केंद्रित करते हैं। इसलिए, मुझे केवल इन दो स्लाइडों के माध्यम से रोकना है। और वास्तव में एमडीएम के बारे में रॉबिन के बिंदु पर बात करें और उठाएं और यह कितना महत्वपूर्ण है, और कितना उपयोगी है, मुझे लगता है - और हमें लगता है - Hadoop एमडीएम और डेटा गुणवत्ता की दुनिया में हो सकता है।

आप जानते हैं, रॉबिन के बारे में थोड़ी बात कर रहा था, आप जानते हैं, यह एंटरप्राइज़ डेटा वेयरहाउस की दुनिया से कैसे संबंधित है और मैं आता हूं - आप जानते हैं, मैंने एक्सेंचर में कई साल बिताए हैं। और जो दिलचस्प था वह यह है कि हमें कितनी बार कंपनियों में जाना था और यह जानने की कोशिश करनी थी कि मूल रूप से छोड़ दिए गए डेटा वेयरहाउस के साथ क्या करना है। और ऐसा बहुत कुछ हुआ क्योंकि डेटा वेयरहाउस टीम ने वास्तव में व्यावसायिक उपयोगकर्ताओं या डेटा के उपभोक्ताओं को अपने बिल्ड को संरेखित नहीं किया था। या, यह सिर्फ इतना लंबा था कि जब तक उन्होंने इस चीज का निर्माण नहीं किया, तब तक इसके लिए व्यावसायिक उपयोग या व्यावसायिक तर्क विकसित हो गया था।

और एक चीज जो मुझे लगता है कि मैं बहुत उत्साहित हूं, मास्टर डेटा प्रबंधन के लिए, डेटा की गुणवत्ता और डेटा की तैयारी के लिए Hadoop का उपयोग करने का विचार है, यह तथ्य है कि आप हमेशा परमाणु डेटा में वापस जा सकते हैं Hadoop डेटा झील या डेटा जलाशय, या डेटा भंडार, या हब, या जो भी buzz फ़ॉर्म आप उपयोग करना चाहते हैं। लेकिन क्योंकि आप हमेशा उस परमाणु डेटा को रखते हैं, तो आपके पास हमेशा व्यापार उपयोगकर्ताओं के साथ पुन: पेश करने का अवसर होता है। क्योंकि, एक विश्लेषक के रूप में - क्योंकि मैंने वास्तव में एक सांख्यिकीविद् के रूप में अपना करियर शुरू किया था - आप जानते हैं, कुछ भी बदतर नहीं है, आप जानते हैं, एंटरप्राइज़ डेटा वेयरहाउस रिपोर्ट चलाने के लिए अद्भुत हैं, लेकिन अगर आप वास्तव में भविष्य कहनेवाला विश्लेषण करना चाहते हैं, तो वे वास्तव में यह उपयोगी नहीं है, क्योंकि आप वास्तव में क्या चाहते हैं दानेदार व्यवहार डेटा है जो किसी भी तरह से डेटा गोदाम में संक्षेपित और एकत्र किया गया है। इसलिए, मुझे लगता है कि यह वास्तव में एक महत्वपूर्ण विशेषता है, और यह एक बात है जो मुझे लगता है कि मैं रॉबिन से असहमत हो सकता हूं कि मैं व्यक्तिगत रूप से डेटा झील या डेटा हब में यथासंभव लंबे समय तक डेटा छोड़ दूंगा, क्योंकि जब तक डेटा वहाँ है और यह साफ है, आप इसे एक दिशा, दूसरी दिशा से देख सकते हैं। आप इसे अन्य डेटा के साथ मर्ज कर सकते हैं। आपके पास हमेशा यह मौका होता है कि आप उसके पास वापस आएं और उसका पुनर्गठन करें, और फिर एक व्यावसायिक इकाई और इस इकाई की आवश्यकता के साथ खुद को पुनः स्थापित करें।

इसके बारे में अन्य प्रकार की दिलचस्प चीजों में से एक यह है कि क्योंकि यह एक ऐसा शक्तिशाली कम्प्यूटेशनल प्लेटफ़ॉर्म है, जो उस कार्यभार का बहुत हिस्सा है जिसके बारे में हम बात कर रहे हैं, हम इसे सीधे Hadoop में आते हैं। और जबकि, मुझे लगता है, माइक दुनिया में बाहर होने वाली सभी विभिन्न तकनीकों के बारे में बात कर रहे थे - इस प्रकार के बड़े डेटा पारिस्थितिक तंत्र में, हम सोचते हैं कि वास्तव में होडोप का कार्यक्षेत्र है कम्प्यूटेशनल गहन प्रसंस्करण में उस बड़े पैमाने पर ऐसा करना। मास्टर डेटा और डेटा गुणवत्ता की आवश्यकता होती है। क्योंकि यदि आप इसे वहां कर सकते हैं, तो आप जानते हैं, बस अपने महंगे डेटाबेस से डेटा को स्थानांतरित करने का किफायती अर्थशास्त्र और किफायती डेटाबेस में, यह वास्तव में बड़े उद्यमों में अभी बहुत तेजी से आगे बढ़ रहा है।

अब, ज़ाहिर है, कुछ चुनौतियाँ हैं, है ना? प्रौद्योगिकियों के आसपास चुनौतियां हैं। उनमें से बहुत सारे अपरिपक्व हैं। मैं कहता हूं, आप जानते हैं, मैं नहीं जानता कि कितने हैं, लेकिन माइक ने जिन तकनीकों का उल्लेख किया है, वे अभी भी शून्य-बिंदु-कुछ रिलीज, सही हैं? तो, ये प्रौद्योगिकियां बहुत युवा हैं, बहुत अपरिपक्व हैं, फिर भी कोड आधारित हैं। और यह वास्तव में उद्यमों के लिए एक चुनौती है। और हम वास्तव में उद्यम-स्तर की समस्याओं को हल करने पर ध्यान केंद्रित करते हैं। और इसलिए, हम सोचते हैं कि एक अलग तरीका होना चाहिए, और जो हम प्रस्तावित करते हैं, उनमें से कुछ के बारे में इन बहुत से नवजात प्रौद्योगिकियों का उपयोग करने के लिए कुछ सामानों के बारे में जाने का एक अलग तरीका है।

और इसलिए, और फिर यहाँ दूसरा दिलचस्प मुद्दा, जिसका उल्लेख पहले किया जा चुका है, जब आपके पास डेटा है, जिसे आप किसी भी प्रकार के Hadoop वातावरण में कैप्चर कर रहे हैं, तो आप जानते हैं, यह आमतौर पर लिखने पर स्कीमा के बजाय रीड पर स्कीमा होता है कुछ अपवादों के साथ। और यह पढ़ना, यह बहुत कुछ सांख्यिकीविदों द्वारा किया जा रहा है। और इसलिए, सांख्यिकीविदों के पास ऐसे उपकरण हैं जो उन्हें विश्लेषणात्मक उद्देश्यों के लिए डेटा को ठीक से संरचना करने की अनुमति देते हैं, क्योंकि दिन के अंत में, डेटा को उपयोगी बनाने के लिए, इसे किसी न किसी रूप में देखने या किसी प्रश्न का उत्तर देने के लिए किसी रूप में संरचित करना पड़ता है। एक व्यवसाय, कुछ प्रकार के व्यवसाय, व्यवसाय मूल्य बनाते हैं।

इसलिए, जहां हम आते हैं, यह है कि हमारे पास बहुत व्यापक-आधारित और परिपक्व ईपीएल, ईएलटी डेटा गुणवत्ता मास्टर कुंजी और प्रबंधन एप्लिकेशन है। यह कई वर्षों से बाजार में है। और इसकी सभी कार्यक्षमता या बहुत अधिक कार्यक्षमता है जो रॉबिन ने उस परिपत्र ग्राफ़ में सूचीबद्ध की है - सभी शुद्ध प्रारूपों और XML संरचनाओं और व्हाट्सनट्स की पूरी तरह से शुद्ध शुद्ध डेटा कैप्चरिंग से सब कुछ, सभी सफाई करने की क्षमता के लिए, सभी डेटा का पूरा होना, डेटा का सुधार, डेटा के जियोस्पेशियल कोर बिट्स। यह कुछ ऐसा है जो इन दिनों इंटरनेट ऑफ थिंग्स के साथ अधिक से अधिक महत्वपूर्ण है। आप जानते हैं, हम जो करते हैं या उस डेटा से बहुत कुछ जुड़ा होता है, वहां का भूगोल होता है। और इसलिए, सभी पार्सिंग, टोकेनाइजेशन, क्लींजिंग, करेक्शन, फॉर्मेटिंग, स्ट्रक्चरिंग इत्यादि, ये सब हमारे प्लेटफॉर्म में किया जाता है।

और फिर, और शायद, हम सबसे महत्वपूर्ण रूप से समर्पण का विचार करते हैं। आप जानते हैं, मूल में, यदि आप मास्टर डेटा प्रबंधन की किसी भी परिभाषा को देखते हैं, तो इसका मूल प्रतिरूप है। यह डेटा के विभिन्न स्रोतों में संस्थाओं की पहचान करने में सक्षम है, और फिर उस इकाई के लिए एक मास्टर रिकॉर्ड बनाता है। और वह संस्था एक व्यक्ति हो सकती है। उदाहरण के लिए, इकाई एक हवाई जहाज का एक हिस्सा हो सकती है। इकाई एक ऐसा भोजन हो सकता है जैसे हमने अपने किसी हेल्थ क्लब के ग्राहकों के लिए किया हो। हमने उनके लिए एक मास्टर फूड डेटाबेस बनाया है। इसलिए, जो भी संस्थाएं हैं, जिनके साथ हम काम कर रहे हैं - और निश्चित रूप से, तेजी से लोग हैं और उनकी पहचान के लिए समीपताएं हैं जो सामाजिक हैंडल या खातों जैसी चीजें हैं, जो भी उपकरण लोगों से जुड़े हैं, कुछ चीजें जैसे कार और फोन, और जो कुछ भी आप कल्पना कर सकते हैं।

आप जानते हैं, हम एक ग्राहक के साथ काम कर रहे हैं, जो सभी प्रकार के सेंसर को खेलों में डाल रहा है। इसलिए, डेटा हर दिशा से आ रहा है। और एक तरह से या किसी अन्य रूप में, यह कोर इकाई का प्रतिबिंब या प्रतिनिधित्व है। और तेजी से, यह लोग और डेटा के इन सभी स्रोतों के बीच संबंधों की पहचान करने की क्षमता है और वे उस मूल इकाई से कैसे संबंधित हैं, और फिर समय के साथ उस मुख्य इकाई को ट्रैक करने में सक्षम हो सकते हैं ताकि आप उस इकाई के बीच के परिवर्तनों का विश्लेषण और समझ सकें। और उन अन्य तत्वों के सभी जो उस इकाई के प्रतिनिधित्व में हैं, उदाहरण के लिए लोगों के दीर्घकालिक और अनुदैर्ध्य विश्लेषण के लिए वास्तव में महत्वपूर्ण है। और यह वास्तव में महत्वपूर्ण लाभों में से एक है, जो मुझे लगता है, बड़ा डेटा हमें ला सकता है लोगों की बेहतर समझ है, और दीर्घकालिक पर, और कांग्रेस को समझें और कैसे लोग व्यवहार कर रहे हैं जब वे किस उपकरण, आदि के माध्यम से व्यवहार कर रहे हैं। ।

तो, मुझे जल्दी से यहाँ से जाने दो। एरिक ने YARN का उल्लेख किया। आप जानते हैं, मैं इसे थोड़े से सेकंड के लिए फेंक देता हूं, क्योंकि YARN - लोग YARN के बारे में बात करते हैं। अभी भी बहुत कुछ अज्ञानता है, मुझे लगता है, YARN के बारे में। और वास्तव में बहुत सारे लोग नहीं हैं - अभी भी YARN के बारे में बहुत सी गलतफहमी है। और तथ्य यह है कि यदि आपका एप्लिकेशन सही तरीके से आर्किटेक्चर किया गया है, और आपके एप्लिकेशन आर्किटेक्चर में उचित स्तर या समानांतरण है, तो आप Hadoop को अपने स्केलिंग प्लेटफॉर्म के रूप में उपयोग करने के लिए YARN का लाभ उठा सकते हैं। और ठीक यही हमने किया है।

तुम्हें पता है, फिर से, बस YARN के आसपास कुछ परिभाषाओं को इंगित करने के लिए। हमारे लिए, वास्तव में YARN ने हमें खुद को और अन्य संगठनों को MapReduce और Spark, और वहाँ से बाहर आने वाले अन्य सभी उपकरणों के लिए सहयोगी बनने के लिए सक्षम किया है। लेकिन तथ्य यह है कि हमारे अनुप्रयोग सीधे कोड को YARN में Hadoop में ड्राइव करते हैं। और वास्तव में एक दिलचस्प टिप्पणी है जिसका माइक ने उल्लेख किया है, क्योंकि, आप जानते हैं, विश्लेषिकी और हमारे विश्लेषिकी के बारे में सवाल, क्योंकि वे क्लस्टर में हैं, क्या वे वास्तव में समानांतर में चल रहे हैं? आप बहुत सारे डेटा गुणवत्ता उपकरणों के बारे में एक ही सवाल पूछ सकते हैं जो वहां से हैं।

दिन के अधिकांश समय, जो गुणवत्ता वाले उपकरण हैं वे या तो डेटा को बाहर निकालना है या वे कोड को अंदर धकेल रहे हैं और बहुत से मामलों में, यह डेटा की एक एकल धारा है जो आपके द्वारा संसाधित किए जाने के तरीके के कारण संसाधित हो रही है। कभी-कभी डेटा-गुणवत्ता प्रकार की गतिविधियों में रिकॉर्ड की तुलना करें। और तथ्य यह है कि क्योंकि हम YARN का उपयोग कर रहे हैं, इसलिए हम वास्तव में समानांतर का लाभ उठाने में सक्षम हैं।

और बस आपको एक त्वरित अवलोकन देने के लिए, क्योंकि पारंपरिक डेटाबेस, नए डेटाबेस आदि का विस्तार करने में सक्षम होने के महत्व के बारे में एक और टिप्पणी की जाती है, हम लागू करते हैं या हम क्लस्टर के बाहर स्थापित करते हैं। और हम अपने बायनेरिज़ को सीधे संसाधन प्रबंधक, YARN में धकेल देते हैं। और वह, और फिर YARN इसे क्लस्टर में नोड्स में वितरित करता है। और वह जो करता है, वह यह है कि YARN - हम YARN को अपना काम प्रबंधित करने और करने की अनुमति देते हैं, जो यह पता लगाना है कि डेटा कहां है और कार्य को डेटा में ले जाएं, डेटा को कोड करें और डेटा को चारों ओर न ले जाएं। जब आप डेटा गुणवत्ता उपकरण सुनते हैं और वे आपको सबसे अच्छा अभ्यास बता रहे हैं, तो डेटा को Hadoop से बाहर ले जाना, अपने जीवन के लिए चलाना है, क्योंकि यह अभी वैसा नहीं है। आप कार्य को डेटा पर ले जाना चाहते हैं। और यही YARN पहले करता है। यह हमारे बायनेरिज़ को उन नोड्स तक ले जाता है जहां डेटा रहता है।

और इसलिए भी कि हम क्लस्टर के बाहर हैं, हम सभी पारंपरिक और संबंधपरक डेटाबेस तक भी पहुँच प्राप्त कर सकते हैं, इसलिए हमारे पास ऐसी नौकरियां हो सकती हैं जो पारंपरिक डेटाबेस पर 100% क्लाइंट सर्वर हों, 100% हडॉप या हाइब्रिड जॉब जो हडॉप क्लाइंट सर्वर पर जाएं , ओरेकल, टेराडाटा - जो भी आप चाहते हैं और सभी एक ही नौकरी में हैं, क्योंकि एक कार्यान्वयन दुनिया के दोनों पक्षों तक पहुंच सकता है।

और फिर, उपकरणों के बारे में पूरे विचार पर वापस जाना, आप यहाँ देखते हैं, यह सिर्फ एक सरल प्रतिनिधित्व है। और हम जो करने की कोशिश कर रहे हैं वह दुनिया को सरल बनाता है। और जिस तरह से हम करते हैं, उसे बनाने के लिए HDFS के चारों ओर कार्यक्षमता का एक बहुत व्यापक सेट लाकर ... और ऐसा नहीं है क्योंकि हम सभी नवीन तकनीकों को खत्म करने की कोशिश कर रहे हैं। इसे सिर्फ उद्यमों को स्थिरता की आवश्यकता है, और वे कोड-आधारित समाधानों की तरह नहीं हैं। और इसलिए, हम जो करने की कोशिश कर रहे हैं, वह उद्यमों को एक परिचित, दोहराने योग्य, सुसंगत अनुप्रयोग वातावरण देता है जो उन्हें डेटा का निर्माण करने और उसे बहुत ही अनुमानित तरीके से संसाधित करने की क्षमता देता है।

जल्दी से, यह इस तरह का प्रभाव है जो हमें हमारे आवेदन के साथ मिलता है। आप MapReduce बनाम Pig बनाम RedPoint देखें - RedPoint में कोड की कोई रेखा नहीं। MapReduce में विकास के छह घंटे, Pig में विकास के तीन घंटे और RedPoint में 15 मिनट का विकास। और जहां हम वास्तव में एक बड़ा प्रभाव है। प्रसंस्करण समय भी तेज है, लेकिन लोगों का समय, लोगों का उत्पादकता समय, काफी बढ़ गया है।

और मेरी अंतिम स्लाइड यहां, मैं इस विचार पर वापस जाना चाहता हूं, क्योंकि यह हमारे डेटा लेक या डेटा हब, या डेटा रिफाइनरी का उपयोग करने का केंद्र बिंदु है। उस विचार से अधिक सहमत नहीं हो सकता। और हम वर्तमान में प्रमुख वैश्विक बैंकों के मुख्य डेटा अधिकारियों के साथ बहुत चर्चा में हैं, और यह पसंद की वास्तुकला है।सभी स्रोतों से डेटा अंतर्ग्रहण डेटा गुणवत्ता प्रसंस्करण और डेटा झील के अंदर मास्टर डेटा प्रबंधन करते हैं, और फिर, डेटा को धक्का देने के लिए, जहां वह हो सकता है बीआई का समर्थन करने के लिए, अनुप्रयोगों का समर्थन करने के लिए जाने की जरूरत है। और फिर, यदि आपके पास बीआई में विश्लेषिकी है, तो वे सीधे डेटा झील के अंदर चल सकते हैं, जहां सभी बेहतर हैं, जो तुरंत शुरू हो सकते हैं। लेकिन इस विचार के साथ बोर्ड पर बहुत ज्यादा। यह टोपोलॉजी यहां एक है - जो कि हम पा रहे हैं, बाजार में बहुत अधिक कर्षण प्राप्त कर रहा है। और बस।

एरिक: ठीक है, अच्छा। चलो यहीं कदम है। मैं आगे बढ़कर केथ को सौंप दूंगा। और, कीथ, आपको यहां घर को रॉक करने के लिए लगभग 10, 12 मिनट मिले। हमें इन शो में थोड़ा लंबा जाना था। और हमने इसके लिए 70 मिनट का विज्ञापन दिया। तो, बस आगे बढ़ें और उस स्लाइड पर कहीं भी क्लिक करें और डाउन एरो का उपयोग करें और इसे हटा दें।

कीथ: ज़रूर। कोई बात नहीं, एरिक। मैं इसकी सराहना करता हूं। मैं आगे बढ़ने जा रहा हूं और एसएएस के बारे में सिर्फ एक-दो टुकड़े कर रहा हूं, फिर मैं उस प्रौद्योगिकी आर्किटेक्चर में कदम रखूंगा, जहां एसएएस बड़े डेटा दुनिया के साथ जुड़ता है। इस सब सामग्री में बहुत कुछ समझाने के लिए है। हम इसके बारे में विस्तार से जानने के लिए घंटों बिता सकते हैं, लेकिन दस मिनट - आपको इस बड़े डेटा की दुनिया में एसएएस ने एनालिटिक्स, डेटा मैनेजमेंट और बिजनेस इंटेलीजेंस टेक्नॉलॉजी के बारे में जानकारी दी है।

सबसे पहले, एसएएस के बारे में थोड़ा सा। यदि आप इस संगठन से परिचित नहीं हैं, तो हम पिछले 38 वर्षों से, न केवल बड़े डेटा, बल्कि पिछले 38 वर्षों से छोटे डेटा और डेटा धन के साथ उन्नत विश्लेषिकी, व्यापार खुफिया और डेटा प्रबंधन कर रहे हैं। हमारे पास दुनिया भर में लगभग 75,000 साइटें मौजूद हैं, जिनमें से कुछ शीर्ष संगठनों के साथ काम कर रही हैं। हम लगभग 13,000 कर्मचारियों और $ 3 बिलियन के राजस्व के साथ एक निजी संगठन हैं। और वास्तव में, मुझे लगता है, महत्वपूर्ण बात यह है कि हमारे पास पारंपरिक रूप से हमारे राजस्व और अनुसंधान संगठन में महत्वपूर्ण मात्रा में पुन: निवेश करने का एक लंबा इतिहास रहा है, जो वास्तव में इन अद्भुत प्रौद्योगिकियों और प्लेटफार्मों का एक बहुत कुछ सहन करने के लिए लाया है ' आज देखने जा रहे हैं।

इसलिए, मैं वास्तव में इन डरावनी वास्तुकला आकृतियों में सही कूदने जा रहा हूं। हम अपनी स्लाइड्स में बाएँ से दाएँ काम करेंगे। इसलिए, इस प्लेटफ़ॉर्म के अंदर आपके परिचित चीजें हैं जिन्हें आप देखने जा रहे हैं। बाईं ओर, वे सभी डेटा स्रोत, जिन्हें हम इन बड़े डेटा प्लेटफ़ॉर्म में प्रवेश करने के बारे में बात कर रहे हैं। और फिर, आपको यह बड़ा डेटा प्लेटफ़ॉर्म मिला है।

मैंने केवल हाडोप शब्द को शीर्ष पर नहीं रखा है, क्योंकि अंततः, आज मैं जो उदाहरण देने जा रहा हूं, वे विशेष रूप से उन सभी तकनीकों के आसपास हैं, जहां हम इन बड़े डेटा प्लेटफ़ॉर्म के साथ प्रतिच्छेद करते हैं। Hadoop सिर्फ उन लोगों में से एक है जहां हमारे पास सबसे मजबूत तैनाती के विकल्प हैं, लेकिन हम भी काफी हद तक एक-दूसरे को काटते हैं और कुछ समय के लिए इन तकनीकों में से कुछ को विकसित किया है, जिसमें हमारे कुछ अन्य उद्यम डेटा वेयरहाउस पार्टनर जैसे Teradata, Oracle, Pivotal और पसंद है। इसलिए, मैं महान विवरणों में नहीं जा सकता क्योंकि सभी अलग-अलग तकनीकों का समर्थन किस प्लेटफॉर्म पर किया जाता है, लेकिन सिर्फ यह आश्वासन दिया जाता है कि आज मैं जिन सभी का वर्णन करता हूं, वे सभी ज्यादातर हैंडो और उनमें से एक विशाल राशि अन्य प्रौद्योगिकी भागीदारों के साथ प्रतिच्छेद करती है जो हमारे पास है। इसलिए, हम उस बड़े मंच पर बैठे हैं।

अगले एक दाईं ओर, हमारे पास हमारा एसएएस एलएएसआर एनालिटिक सर्वर है। अब, यह अनिवार्य रूप से, मेमोरी एनालिटिक एप्लिकेशन सर्वर में एक बड़े पैमाने पर समानांतर है। हम स्पष्ट हैं कि यह इन-मेमोरी डेटाबेस नहीं है। यह वास्तव में जमीन से डिज़ाइन किया गया है। यह क्वेरी इंजन नहीं है, लेकिन बड़े पैमाने पर समानांतर तरीके से बड़े पैमाने पर विश्लेषणात्मक अनुरोधों के लिए डिज़ाइन किया गया है। इसलिए, यह सेवा कुंजी अनुप्रयोग जो आप दाहिने हाथ की ओर देखते हैं।

हम थोड़ा और अधिक पसंद करेंगे, आप जानते हैं, कैसे लोग इन चीजों को तैनात करते हैं। लेकिन अनिवार्य रूप से, आवेदन - क्या आप वहां देखते हैं - पहला, हमारा एसएएस उच्च-प्रदर्शन विश्लेषण है। यह होने जा रहा है - मैं अपनी मौजूदा तकनीक और प्लेटफार्मों जैसे एंटरप्राइज माइनर या सिर्फ एसएएस का उपयोग कर रहा हूं, और न ही उन कुछ एल्गोरिदम के साथ मल्टीथ्रेडिंग कर रहा हूं जो हमने उन उपकरणों में बनाए हैं जो हमने लिए हैं। साल, लेकिन यह भी बड़े पैमाने पर उन समानांतर करने के लिए। इसलिए, उस बड़े डेटा प्लेटफ़ॉर्म से डेटा को LASR एनालिटिक सर्वर में मेमोरी स्पेस में स्थानांतरित करने के लिए, ताकि हम एनालिटिक एल्गोरिदम को निष्पादित कर सकें - आप जानते हैं, बहुत कुछ नई मशीन लर्निंग, न्यूरल नेट, रैंडम फ़ॉरेस्ट रिग्रेशन, उन प्रकार के बातें - फिर, स्मृति में बैठे डेटा। इसलिए, उस निश्चित MapReduce प्रतिमान की अड़चन से छुटकारा पाना, जहाँ हम उन प्लेटफ़ॉर्म पर नीचे आते हैं, यह उस तरह से नहीं है जैसे आप विश्लेषणात्मक काम करना चाहते हैं। इसलिए, हम डेटा को एक बार मेमोरी स्पेस में उठाने में सक्षम होना चाहते हैं और इसके माध्यम से पुनरावृति करना चाहते हैं, आप जानते हैं, कभी-कभी हजारों बार। तो, उस उच्च प्रदर्शन विश्लेषणात्मक LASR सर्वर का उपयोग करने की अवधारणा है।

हम भी - इसके नीचे के अन्य अनुप्रयोग, विजुअल एनालिटिक्स, जो हमें उस डेटा को मेमोरी में बनाए रखने और उसी डेटा पर एक बड़ी आबादी की सेवा करने की अनुमति देता है। इसलिए, लोगों को बड़े डेटा अन्वेषण करने की अनुमति देता है। इसलिए, हमारे मॉडल विकास कार्यों को करने से पहले, हम डेटा की खोज कर रहे हैं, इसे समझने के लिए, सहसंबंध चलाने, निर्णय लेने या ट्रेंडिंग पेड़ों को करने के लिए - उन प्रकार की चीजों - लेकिन बहुत दृश्य में, डेटा पर इंटरेक्टिव तरीका जो स्मृति में बैठा है मंच। यह भी हमारे बीआई समुदाय की सेवा करता है जहां तक उपयोगकर्ताओं के बहुत व्यापक आधार हैं जो उस प्लेटफ़ॉर्म पर मानक प्रकार की रिकॉर्डिंग करने के लिए हिट कर सकते हैं जो आप देख रहे हैं - जो कि बहुत अधिक है, आप जानते हैं, बीआई विक्रेता वहां से बाहर हैं।

अगला चरण, हम तब सेवा में जाते हैं। और हमारे सांख्यिकीविदों और हमारे विश्लेषिकी लोगों की मदद करने के लिए स्मृति में बैठे डेटा के साथ उस तरह के एड-हॉक मॉडलिंग करने में सक्षम होने के लिए, विजुअल एनालिटिक्स से हटा दिया गया और हमारे दृश्य सांख्यिकी एप्लिकेशन में अन्वेषण किया गया। यह उन लोगों के लिए एक अवसर है जो उन बैचों में आँकड़ों को न चलाने के लिए, जिनके माध्यम से पुनरावृति करते थे, मॉडल चलाते थे, परिणाम देखते थे। तो, वह मॉडल चला सकता है, परिणाम देख सकता है। यह नेत्रहीन रूप से इंटरएक्टिव सांख्यिकीय मॉडलिंग में खींचने और छोड़ने के लिए है। इसलिए, यह हमारे सांख्यिकीविदों और हमारे डेटा वैज्ञानिकों को उस प्रारंभिक खोजपूर्ण दृश्य सांख्यिकीय कार्य का एक बहुत कुछ करने के लिए सेवाएं प्रदान करता है।

और फिर, हम अपने कोडर्स को भूल नहीं गए - वे लोग जो वास्तव में करना चाहते हैं, इंटरफ़ेस की परतों को छीलने में सक्षम हैं, अनुप्रयोगों को लिखना है, और एसएएस में अपना कोड आधार लिखना है। और वह है हडोप के लिए हमारी स्मृति के आँकड़े। और वह है - अनिवार्य रूप से कोड परत जिसने हमें उस एनालिसिस LASR सर्वर के साथ सीधे आदेश जारी करने और हमारे अनुरोध के आधार पर उन अनुप्रयोगों को अनुकूलित करने की अनुमति दी। यह विश्लेषणात्मक टुकड़ा है।

ये चीजें कैसे स्थापित होती हैं ... उफ़, मुझे खेद है दोस्तों। हम वहाँ चलें।

इसलिए, वास्तव में कुछ तरीके हैं जिनमें हम ऐसा करते हैं। एक इसे बड़े डेटा के साथ करना है - इस मामले में, हडोप के साथ। और यह कि हमारे पास कहां है कि एसएएस एलएएसआर एनालिटिक सर्वर मशीनों के एक अलग क्लस्टर में चल रहा है जो कट्टर विश्लेषिकी के लिए अनुकूलित है। यह अच्छा है और बड़े डेटा प्लेटफ़ॉर्म को बंद कर दिया गया है, जिससे हम इसे बड़े डेटा प्लेटफ़ॉर्म से अलग कर सकते हैं। इसलिए, हम लोगों को ऐसा करते हुए देखते हैं जब वे चाहते हैं कि मैं वैसा ही कुछ काम करूं जैसा कि वेम्पायर सॉफ्टवेयर की तरह है जो प्रत्येक हडोप क्लस्टर में प्रत्येक नोड पर दूर से भोजन करता है। और वे जरूरी नहीं कि बड़े डेटा प्लेटफ़ॉर्म को मेमोरी-एनलिटिक्स में भारी उठाने के लिए उपयुक्त हों। तो, आपके पास उनके Hadoop क्लस्टर के 120 नोड हो सकते हैं, लेकिन उनके पास विश्लेषणात्मक सर्वर के 16 नोड हो सकते हैं, जो उस तरह का काम करने के लिए डिज़ाइन किए गए हैं।

हमें अभी भी डेटा को मेमोरी में खींचने के लिए बड़े डेटा प्लेटफ़ॉर्म से समानता बनाए रखने की अनुमति है। तो, यह वास्तव में Hadoop प्लेटफॉर्म के साथ SAS का उपयोग है। एक अलग अपॉइंटमेंट मॉडल फिर कहना है, ठीक है, हम उस कमोडिटी प्लेटफॉर्म का भी उपयोग कर सकते हैं और उसको पुश कर सकते हैं - अनिवार्य रूप से Hadoop प्लेटफार्मों पर एनालिटिक LASR सर्वर चलाएं। इसलिए, हम कहाँ हैं ... आप बड़े डेटा प्लेटफ़ॉर्म के अंदर काम कर रहे हैं। यह हमारे कुछ अन्य उपकरण विक्रेताओं के साथ भी है। इसलिए, हमें उस काम को करने के लिए अनिवार्य रूप से उस कमोडिटी प्लेटफॉर्म का उपयोग करने की अनुमति दी गई है।

हम यह देखते हैं कि अधिक बार उच्च प्रदर्शन वाले एनालिटिक्स जैसी चीजों के साथ जहां यह एकल-सेवारत या एकल-प्रकार का विश्लेषणात्मक रन है, अधिक प्रकार का बैच उन्मुख जहां आप हैं - आप जरूरी नहीं कि Hadoop में मेमोरी स्पेस का उपभोग करें मंच। हम इस तरह के परिनियोजन मॉडल पर बहुत लचीले हैं, निश्चित रूप से YARN के साथ हमारे कई मामलों में यह सुनिश्चित करने के लिए कि हम अच्छे क्लस्टर खेल रहे हैं।

ठीक है, ताकि विश्लेषणात्मक दुनिया, विश्लेषणात्मक आवेदन के साथ वहां स्पष्ट हो। लेकिन मैंने उल्लेख किया है कि एसएएस बहुत शुरुआत में एक डेटा प्रबंधन मंच भी है। और ऐसी चीजें हैं जो तर्क को उस मंच में धकेलने के लिए उपयुक्त हैं जहां उपयुक्त हैं। इसलिए, कुछ तरीके हैं जिनमें हम ऐसा करते हैं। डेटा एकीकरण दुनिया में एक है, डेटा पर डेटा ट्रांसफ़ॉर्मेशन का काम करने से इसे वापस खींचने का कोई मतलब नहीं हो सकता है जैसा कि हमने पहले सुना है, डेटा गुणवत्ता रूटीन जो एक बड़ा है। हम निश्चित रूप से डेटा क्वालिटी रूटीन जैसी चीजों को उस प्लेटफॉर्म में लाना चाहते हैं। और फिर, मॉडल स्कोरिंग जैसी चीजें। इसलिए, मैंने अपना मॉडल विकसित कर लिया है। मैं MapReduce में उस चीज़ को फिर से लिखना नहीं चाहता और मुझे उस मूल डेटाबेस प्लेटफ़ॉर्म में फिर से काम करने के लिए मेरे लिए मुश्किल और समय लेने वाला बनाना चाहिए।

इसलिए, यदि आप देखें, उदाहरण के लिए, हमारे Hadoop के लिए स्कोरिंग त्वरक, जो हमें अनिवार्य रूप से एक मॉडल लेने की अनुमति देता है और एसएएस गणितीय तर्क को उस Hadoop प्लेटफॉर्म में धकेल देता है और इसे निष्पादित करता है, तो उस बड़े प्लेटफॉर्म के अंदर समानता का उपयोग करते हुए। तब हमारे पास Hadoop सहित विभिन्न प्लेटफार्मों के लिए हमारा कोड त्वरक है, और यह हमें प्लेटफॉर्म के अंदर एसएएस डेटा चरण कोड को अनिवार्य रूप से बड़े पैमाने पर समानांतर रूप से चलाने की अनुमति देता है - इसलिए, प्लेटफ़ॉर्म में डेटा परिवर्तन प्रकार काम कर रहा है। और फिर हमारे एसएएस डेटा गुणवत्ता त्वरक जो हमें वहां एक गुणवत्ता ज्ञान आधार बैठे हैं, जो लिंग मिलान, मानकीकरण मिलान कोड - सभी अलग-अलग डेटा गुणवत्ता चीजें जो आप पहले से ही सुन रहे हैं, जैसी चीजें कर सकते हैं।

और फिर, अंतिम टुकड़ा, वहाँ डेटा लोडर है। हम जानते हैं कि हमारे कारोबारी उपयोगकर्ता कोड को लिखने में सक्षम नहीं होने वाले हैं, इन बड़े डेटा प्लेटफ़ॉर्म में डेटा परिवर्तन का काम करते हैं। डेटा लोडर एक अच्छा WYSIWYG GUI है जो हमें उन अन्य तकनीकों को एक साथ लपेटने की अनुमति देता है। यह एक हाइव क्वेरी को चलाने, कहने या डेटा गुणवत्ता रूटीन चलाने के लिए वॉक-थ्रू विज़ार्ड की तरह है और उस स्थिति में कोड लिखना नहीं है।

आखिरी चीज जिसका मैं उल्लेख करूंगा वह है यह फ्रंट पीस। हमारे पास - जैसा कि मैंने पहले उल्लेख किया है - दुनिया में एक बड़े पैमाने पर एसएएस फुट। और यह, हम केवल उन सभी प्लेटफार्मों को जरूरी नहीं कर सकते हैं जो इस स्थान पर तुरंत होने के लिए बाहर हैं। इसलिए, हमारे पास निश्चित रूप से उपयोगकर्ताओं के एक मौजूदा पैर हैं, जिन्हें इन बड़े डेटा प्लेटफार्मों में बैठे डेटा प्राप्त करने की आवश्यकता है जैसे कि टेराडाटा से डेटा प्राप्त करना और इसे हैडोप में वापस डालना, और इसके विपरीत। उन मॉडलों को चलाना जिन्हें मैं पहले से ही जानता हूं कि मुझे अपने एसएएस सर्वर पर कैसे चलना है, लेकिन मुझे एक डेटा प्राप्त करने की आवश्यकता है जिसे अब हडोप प्लेटफॉर्म में रखा जा रहा है। तो, वहाँ "वहाँ से" कहा जाता है कि यह एक और छोटा सा आइकन है, और यह हमें हमारे एसएएस एक्सेस इंजनों का उपयोग करने के लिए कनेक्ट करने की अनुमति देता है - पोलो में होदोप से क्लोडा तक पहुंच इंजन, तेरडाटा तक, ग्रीनपुलम तक… और सूची जारी होती है। यह हमारे मौजूदा परिपक्व एसएएस प्लेटफार्मों का उपयोग करने की अनुमति देता है जो इन प्लेटफार्मों से डेटा प्राप्त करने के लिए पहले से ही हैं, उस कार्य को करें जिसे हमें करने की आवश्यकता है, इन क्षेत्रों में परिणाम वापस लाएं।

आखिरी बात जिसका मैं उल्लेख करूंगा कि यह सभी प्रौद्योगिकियां जो आप देख रहे हैं, वे सभी एक ही मानक सामान्य मेटाडेटा द्वारा शासित हैं। इसलिए, हम परिवर्तन कार्य, डेटा गुणवत्ता नियम को काम पर लाने के बारे में बात करते हैं, इसे स्मृति में स्थानांतरित करने में सक्षम होने के लिए एनालिटिक्स, मॉडल के विकास में सक्षम हैं। हमने आज वहां पहले जिन बातों के बारे में बात की थी, उन सभी चीजों के द्वारा, प्रशासन द्वारा, सुरक्षा के द्वारा, आम मेटाडेटा द्वारा शासित होने वाली पूरी विश्लेषणात्मक जीवन शैली, जीवनशैली प्राप्त हुई।

तो, बस एक पुनर्कथन, वहाँ वास्तव में उन तीन बड़ी चीजों को दूर ले जाने के लिए है। एक यह है कि हम किसी अन्य डेटा स्रोत की तरह ही डेटा प्लेटफ़ॉर्म का इलाज कर सकते हैं, उनसे खींचकर, उन्हें उचित और सुविधाजनक होने पर उन्हें धकेल सकते हैं। हम उन बड़े डेटा प्लेटफ़ॉर्म के साथ काम कर सकते हैं, डेटा को एक उद्देश्य-निर्मित उन्नत विश्लेषणात्मक में मेमोरी प्लेटफ़ॉर्म में सूचीबद्ध कर सकते हैं। तो, यह LASR सर्वर है।

और फिर, अंतिम, हम उन बड़े डेटा प्लेटफ़ॉर्म में सीधे काम कर सकते हैं, जो डेटा को इधर-उधर किए बिना उनकी वितरण प्रक्रिया को लाभ पहुँचा सकते हैं।

एरिक: ठीक है, यह शानदार सामान है, लोग। हाँ, यह बहुत अच्छा है! तो, कुछ सवालों के अधिकार में रहने दें। हम आम तौर पर इन घटनाओं पर लगभग 70 मिनट या उससे थोड़ा अधिक समय तक चलते हैं। इसलिए, मुझे लगता है कि हमारे पास अभी भी एक महान दर्शक है। जॉर्ज, मुझे लगता है कि मैं आप पर अपना पहला सवाल फेंक दूंगा। यदि आप अपने बाइनरी साउंड को हडोप में धकेलने के बारे में बात करते हैं, तो मुझे लगता है कि मुझे लगता है कि आपने वास्तव में कम्प्यूटेशनल वर्कफ़्लो को अनुकूलित किया है। और यह पूरी तरह से वास्तविक डेटा डेटा शासन, डेटा गुणवत्ता शैली उपलब्धियों के इन प्रकारों को करने में सक्षम होने के लिए महत्वपूर्ण है, क्योंकि आप जिस मूल्य को प्राप्त करना चाहते हैं, वह सही है? यदि आप एमडीएम की पुरानी दुनिया में वापस नहीं जाना चाहते हैं जहां यह बहुत ही बोझिल है और यह बहुत समय लेने वाली है, और आपको वास्तव में लोगों को कुछ तरीकों से काम करने के लिए मजबूर करना होगा, जो लगभग कभी काम नहीं करता है। और इसलिए, आपने जो किया है, आपने उसके चक्र का संघन किया है। चलो इसे कॉल करें दिन, सप्ताह, कभी-कभी महीनों से सेकंड तक भी सही है? यह क्या चल रहा है?

जॉर्ज: यह बिल्कुल सही है, क्योंकि हम जिस पैमाने को प्राप्त करते हैं और प्रदर्शन हम एक क्लस्टर से बाहर निकलते हैं, वास्तव में, के बारे में लड़खड़ाते हैं, बस, आप जानते हैं, मैं हमेशा बेंचमार्क के बारे में थोड़ा संकोच करता हूं। लेकिन सिर्फ परिमाण के क्रम के लिए, जब हम एक बिलियन, 1.2 बिलियन रिकॉर्ड चलाएंगे और एक पूर्ण पता मानकीकरण करेंगे - मैं कह रहा हूं कि मिड-रेंज एचपी मशीन - यह लगेगा, जैसे, आप जानते हैं, आठ प्रोसेसर मशीन, आप जानते हैं , 2 g RAM प्रति कोर, आप जानते हैं, कि इसे चलाने में 20 घंटे लगेंगे। हम ऐसा कर सकते हैं कि अब लगभग आठ मिनट में, आपको पता है, 12-नोड क्लस्टर। और इसलिए, अब हम जो प्रोसेसिंग कर सकते हैं उसका पैमाना इतना नाटकीय रूप से अलग है कि - और यह इस विचार के साथ बहुत अच्छी तरह से चला जाता है कि आपके पास यह सब डेटा आपके निपटान में है। इसलिए, प्रोसेसिंग करना उतना जोखिम भरा नहीं है। यदि आपने इसे गलत किया है, तो आप इसे फिर से कर सकते हैं। आपको समय मिल गया है, आप जानते हैं इसने वास्तव में इस पैमाने को बदल दिया जहां, आप जानते हैं, उन प्रकार के जोखिम वास्तव में लोगों के लिए वास्तविक व्यावसायिक समस्या बन गए जब वे एमडीएम समाधानों को संचालित करने की कोशिश कर रहे थे। आपके पास 30 लोग हैं जो ऑफशोर डेटा गवर्नेंस और सब कुछ करते हैं। और इसलिए, आपके पास अभी भी उसमें से कुछ है, लेकिन जिस गति और पैमाने पर आप इसे अभी संसाधित कर सकते हैं, वह वास्तव में आपको बहुत अधिक सांस लेने का कमरा देता है।

एरिक: हाँ, यह वास्तव में अच्छा बिंदु है। मुझे वह टिप्पणी पसंद है। तो, आपके पास इसे फिर से करने का समय है। यह बढ़िया है।

जॉर्ज: हाँ।

एरिक: ठीक है, यह गतिशीलता को बदलता है, है ना? यह बदलता है कि आप कैसे सोचते हैं कि आप क्या करने जा रहे हैं। मेरा मतलब है, मुझे यह 18 साल पहले विशेष प्रभाव वाले उद्योग में याद है, क्योंकि मेरे पास एक ग्राहक था जो उस स्थान पर था। और आप इसे रेंडर करने के लिए बटन पुश करेंगे और आप घर जाएंगे। और आप वापस आ गए, शायद शनिवार दोपहर को, यह देखने के लिए कि यह कैसे चल रहा था। लेकिन अगर आपको यह गलत लगा, तो यह बहुत, बहुत, बहुत दर्दनाक था। और अब, यह लगभग नहीं है - यह उस दर्दनाक होने के करीब भी नहीं है ताकि आपके पास अधिक सामान की कोशिश करने का अवसर हो। मुझे कहना है, मुझे लगता है कि वास्तव में एक अच्छा बिंदु है।

जॉर्ज: यह बिल्कुल सही है। हाँ, और आप अपने अतिरिक्त पैर को उड़ा दें। आप जानते हैं, आप पुराने दिनों में नौकरी से आधे रास्ते पर निकल जाते हैं और यह विफल हो जाता है, आपने अपना एसओएस उड़ा दिया है। बस।

एरिक: सही है। और आप बड़ी मुसीबत में हैं, हाँ। ये सही है।

जॉर्ज: यह सही है। ये सही है।

एरिक: कीथ, मुझे तुम पर फेंक दो। मुझे याद है कि आपके CIL, कीथ कॉलिन्स के साथ एक साक्षात्कार करना, मेरा मानना है, बैक इन, मुझे लगता है, 2011 शायद। और उन्होंने एसएएस से प्राप्त दिशाओं के साथ काम करने के लिए ग्राहकों के साथ काम करने के लिए विशेष रूप से निर्देशन के बारे में एक बड़ी बात की। और हां, हमने माइक फर्ग्यूसन को याद करने के महत्व के बारे में बात करते हुए सुना। यहाँ पूरा विचार है कि आप इस सामान को अपने परिचालन में बाँधने में सक्षम होना चाहते हैं। आप उद्यम से डिस्कनेक्ट किए गए वैक्यूम में विश्लेषण नहीं चाहते हैं। जो कुछ भी मूल्य नहीं है।

यदि आप विश्लेषण चाहते हैं जो सीधे संचालन को प्रभावित और अनुकूलित कर सकता है। और अगर मैं पीछे देखता हूं - और मुझे कहना है, मैंने सोचा था कि यह एक अच्छा विचार है फिर - यह पूर्वव्यापी में वास्तव में बहुत अच्छा विचार है। और मैं अनुमान लगा रहा हूं, यह एक वास्तविक लाभ है जो आप लोगों के पास है। और निश्चित रूप से, इस महान विरासत, इस विशाल स्थापित आधार, और तथ्य यह है कि आप इन विश्लेषिकी को परिचालन प्रणालियों में एम्बेड करने पर ध्यान केंद्रित किया है, जिसका अर्थ है - और अब, यह कुछ काम करने जा रहा है - मुझे यकीन है कि आप ' इस पर काफी मेहनत कर रहे हैं। लेकिन अब, आप इन सभी नए नवाचारों का लाभ उठा सकते हैं और वास्तव में अपने ग्राहकों के साथ उस सभी सामान को संचालित करने में सक्षम होने के संदर्भ में हैं। क्या यह उचित आकलन है?

कीथ: हाँ, बिल्कुल। अवधारणा यह है, आपको यह निर्णय डिजाइन या निर्णय विज्ञान का विचार मिलता है, जो आपको पता है, कुछ हद तक खोजपूर्ण, विज्ञान-वाई तरह की चीज है। जब तक आप वास्तव में प्रक्रिया पर इंजीनियरिंग नहीं कर सकते ... यदि आप एक कार विकसित करने के बारे में सोचते हैं, तो आपको ऐसे डिजाइनर मिल गए हैं जो इस खूबसूरत कार को बनाते हैं, लेकिन यह तब तक नहीं है जब तक कि इंजीनियर उस योजना को लागू नहीं करते हैं और आपके सामने एक वास्तविक व्यवहार्य उत्पाद बनाते हैं। वास्तव में चीजों को जगह दे सकता है, और यह अनिवार्य रूप से एसएएस ने किया है। इसमें निर्णय - निर्णय-प्रक्रिया को निर्णय-इंजीनियरिंग प्रक्रिया के साथ मिला दिया गया है, ताकि जब आप त्वरक के बारे में बात करते हैं, तो विशेष रूप से स्कोरिंग त्वरक, आप जानते हैं, यदि आप एक मॉडल लेते हैं जिसे आपने विकसित किया है और इसे बाहर धकेलने में सक्षम है Teradata के लिए, या मॉडल विकास के लिए शून्य डाउनटाइम के साथ, Oracle या Hadoop के लिए इसे बाहर निकालें, मॉडल परिनियोजन के लिए। यह कुंजी है, क्योंकि मॉडल समय के साथ खराब हो जाते हैं, उन मॉडलों की सटीकता। तो, अब आपको इसे लेने में और इसे उत्पादन में लगाने में समय लगता है, इससे मॉडल की सटीकता हानि होती है।

और फिर, दूसरा टुकड़ा है, आप समय के साथ उस प्रक्रिया की निगरानी और प्रबंधन करना चाहते हैं। आप पुराने और गलत होने पर मॉडलों को हटाना चाहते हैं। आप इसे देखना चाहते हैं, समय के साथ उनकी सटीकता की जांच करें और उनका पुनर्निर्माण करें। और इसलिए, हमें मॉडल प्रबंधन उपकरण मिले हैं, जो कि सबसे ऊपर बैठते हैं, जो वास्तव में मॉडलिंग की गई प्रक्रिया के आसपास मेटाडेटा को ट्रैक करता है। और लोगों ने कहा है कि मॉडलिंग, आप जानते हैं, उस तरह की अवधारणा एक मॉडल फैक्टरी की तरह है, या जिसे आप इसे कॉल करना चाहते हैं। बात यह है कि यह मेटाडेटा और प्रबंधन को प्रक्रिया में डाल रहा है और जहां हम टकराते हैं, वह तीन बड़ी चीजें हैं - हम लोगों को पैसा बनाने, पैसा बचाने और उन्हें जेल से बाहर रखने में मदद करते हैं।

एरिक: कि पिछले एक बहुत बड़ा है। मैं वह सब टाल रहा हूँ। तो, चलिए इसके बारे में बात करते हैं ...मैं एक अंतिम प्रश्न दे रहा हूं, हो सकता है कि आप प्रत्येक इस पर दोनों तरह की छलांग लगा सकें। हमारी दुनिया की विषमता केवल बढ़ेगी, यह मुझे लगता है। मुझे लगता है कि हम निश्चित रूप से हाइब्रिड क्लाउड वातावरण के आसपास कुछ क्रिस्टलीकरण देखने जा रहे हैं। लेकिन फिर भी, आप बहुत सारे प्रमुख खिलाड़ियों को घूरते हुए देखेंगे। आईबीएम कहीं नहीं जा रहा है। ओरेकल कहीं नहीं जा रहा है। एसएपी कहीं नहीं जा रहा है। और बहुत सारे अन्य विक्रेता हैं जो इस खेल में शामिल हैं।

इसके अलावा, परिचालन पक्ष पर, जहाँ आपको वस्तुतः हजारों और हजारों तरह के विभिन्न अनुप्रयोग प्राप्त हुए हैं। और मैंने सुना - आप में से अधिकांश इस बारे में बात करते हैं, लेकिन मुझे लगता है कि आप दोनों इस बात से सहमत होंगे कि मैं क्या कह रहा हूं। हमने इस प्रवृत्ति को अब विश्लेषणात्मक इंजन, वास्तुकला में सिर्फ कम्प्यूटेशनल शक्ति के संदर्भ में देखा है। कंपनियाँ वर्षों से इस बारे में बात कर रही हैं कि दूसरे इंजनों में टैप कर सकें और ऑर्केस्ट्रेशन पॉइंट की तरह सेवा कर सकें। और मुझे लगता है, जॉर्ज, मैं इसे पहले आपको फेंक दूंगा। यह मुझे लगता है कि कुछ ऐसा है जो बदलने वाला नहीं है। हमारे पास यह विषम वातावरण होने वाला है, जिसका अर्थ है वास्तविक समय सीआरएम और डेटा गुणवत्ता और डेटा शासन जैसे सामान। आपको उन सभी विभिन्न उपकरणों के साथ इंटरफेस करने के लिए एक विक्रेता के रूप में आवश्यकता होगी। और यही ग्राहक चाहते हैं। वे ऐसा कुछ नहीं चाहते हैं जो इन उपकरणों के साथ ठीक हो और उन उपकरणों के साथ ठीक न हो। वे एमडीएम और सीआरएम का स्विट्जरलैंड चाहते हैं, है ना?

जॉर्ज: यह सही है। और यह दिलचस्प है, क्योंकि हमने बहुत कुछ ग्रहण कर लिया है। इसका एक हिस्सा इतिहास है जो हमारे पास था। और जाहिर है, हम पहले से ही सभी अन्य डेटाबेस, टेराडाटा और दुनिया के टुकड़ों पर काम कर रहे थे। और फिर, कार्यान्वयन प्रक्रिया में, विशेष रूप से जिस तरह से हमने किया, बस इतना है कि यह - आपके पास इन सभी विभिन्न डेटाबेसों में वह अवधि है। चीजों में से एक जो मुझे दिलचस्प लगता है वह यह है कि, हमारे पास कुछ ग्राहक हैं जो सभी संबंधपरक डेटाबेस को खत्म करने पर सिर्फ नरक-तुला हैं। और वह दिलचस्प है। आप जानते हैं, मेरा मतलब है, यह ठीक है। यह दिलचस्प है। लेकिन मैं अभी यह नहीं देखता कि यह वास्तव में एक बड़े उद्यम पैमाने पर हो रहा है। मैं इसे लंबे समय से नहीं देख रहा हूं। इसलिए, मुझे लगता है कि हाइब्रिड एक अच्छे लंबे समय के लिए यहां है और हमारे आवेदन के दूसरी तरफ जहां हमारे अभियान प्रबंधन मंच में हमारा मैसेजिंग प्लेटफॉर्म है। हमने वास्तव में इसे विशेष रूप से डिज़ाइन किया है। अब, हमने एक ऐसा संस्करण जारी किया है जो ऐसा करता है और जो अब हाइब्रिड डेटा वातावरण से जुड़ सकता है और Hadoop, या किसी भी डेटाबेस, किसी भी विश्लेषणात्मक डेटाबेस को क्वेरी कर सकता है। इसलिए, मुझे लगता है कि भविष्य की लहर है। और मैं इस बात से सहमत हूं कि वर्चुअलाइजेशन निश्चित रूप से इसमें एक बड़ी भूमिका निभाएगा, लेकिन हमारे पास बस यही है - हम अपने सभी एप्लिकेशनों के डेटा पर सही तरीके से काम नहीं कर रहे हैं।

एरिक: ठीक है, महान। और, कीथ, मैं इसे आपके ऊपर फेंक दूंगा। आप उस विषम दुनिया के बारे में क्या सोचते हैं जो हम एक प्रकार के पैर के रूप में अभिनय करने में सामना कर रहे हैं?

कीथ: हाँ, यह वास्तव में आकर्षक है। मुझे लगता है, जो हमें अधिक लगता है - न केवल चीजों के डेटा प्रबंधन पक्ष में - बल्कि अभी जो वास्तव में आकर्षक है, वह एनालिटिक्स बेस का ओपन-सोर्स प्रकृति है। तो, हम संगठनों की तरह देखते हैं, या स्पार्क जैसी तकनीकें बोर्ड पर आती हैं, और लोग पायथन और आर और इन सभी अन्य ओपन-सोर्स प्रौद्योगिकियों का उपयोग करते हैं। मुझे लगता है कि इसे एक संघर्ष या कुछ हद तक खतरे के रूप में व्याख्या किया जा सकता है। लेकिन वास्तविकता यह है कि, हमारे पास उन सभी ओपन-सोर्स तकनीकों के साथ वास्तव में अद्भुत तारीफ है। मेरा मतलब है, एक के लिए, हम खुले स्रोत वाले प्लेटफार्मों के शीर्ष पर काम कर रहे हैं, भगवान के लिए।

लेकिन यह भी, जैसे कि एकीकृत करने में सक्षम होने के लिए, उदाहरण के लिए, एसएएस प्रतिमान में एक आर मॉडल आपको दोनों दुनिया के सर्वश्रेष्ठ का उपयोग करने की अनुमति देता है, है ना? जैसे, इसलिए हम जानते हैं कि अकादमिक दुनिया में कुछ प्रयोगात्मक चीजें और कुछ मॉडल विकास कार्य असाधारण और सुपर मॉडल विकास प्रक्रिया में सहायक हैं। लेकिन यह भी, अगर आप यह जोड़ सकते हैं कि उत्पादन वर्ग के प्रकार के उपकरण के साथ, यह बहुत अधिक सफाई और गुणवत्ता और जाँच करता है और यह सुनिश्चित करता है कि मॉडल में डेटा दे रहा है, तो यह ठीक से प्रीपेड हो गया है इसलिए यह विफल नहीं होता निष्पादन पर। और फिर, ओपन-सोर्स मॉडल के साथ चैंपियन चैलेंजर मॉडल जैसी चीजें करने में सक्षम होने के नाते। वे चीजें हैं जिन्हें हम सक्षम करने के लिए देख रहे हैं, और इन सभी प्रौद्योगिकियों के वास्तव में विषम पारिस्थितिकी तंत्र के हिस्से के रूप में। हाँ, इसलिए यह अधिक है - हमारे लिए, यह उन तकनीकों को अपनाने और तारीफों की तलाश करने के बारे में अधिक है।

एरिक: ठीक है, यह शानदार सामान रहा है, दोस्तों। हम यहां थोड़े लंबे चले गए, लेकिन हम यथासंभव अधिक से अधिक प्रश्न प्राप्त करना चाहते हैं। हम आज अपने प्रेजेंटर्स को Q & A फाइल फॉरवर्ड करेंगे। इसलिए, यदि आपके द्वारा पूछे गए किसी भी प्रश्न का उत्तर नहीं दिया गया है, तो हम सुनिश्चित करेंगे कि इसका उत्तर दिया जाए। और दोस्तों, यह 2014 के लिए इसे लपेटता है। कल और अगले सप्ताह डीएम रेडियो पर आपका वास्तव में, और फिर यह सब हो चुका है और यह एक अवकाश अवकाश है।

इन सभी अद्भुत वेबकास्ट के माध्यम से अपने समय और ध्यान के लिए आप सभी का बहुत बहुत धन्यवाद। हमें 2015 के लिए एक शानदार साल मिला है और हम जल्द ही आपसे बात करेंगे, दोस्तों। एक बार फिर धन्यवाद। हम खयाल रखेंगे। अलविदा।