Hadoop के बारे में 7 बातें जानने के लिए

वीडियो: हडूप 5 मिनट में | हडूप क्या है? | हडूप का परिचय | Hadoop समझाया |Simplilearn

विषय

Hadoop की शुरुआत कैसे हुई?
Hadoop के बारे में इतना महत्वपूर्ण क्या है?
क्या है स्कीमा रीड पर?
हाइव क्या है?
Hadoop किस तरह के डेटा का विश्लेषण करता है?
क्या आप हडोप की वास्तविक दुनिया का उदाहरण दे सकते हैं?
क्या Hadoop पहले से ही अप्रचलित है या सिर्फ morphing है?

स्रोत: प्रेशरुआ / ड्रीमस्टाइम डॉट कॉम

ले जाओ:

Hadoop अब सालों से डेटा का विश्लेषण करने में मदद कर रहा है, लेकिन शायद कुछ चीजों से ज्यादा आप इसके बारे में नहीं जानते हैं।

Hadoop क्या है? यह एक पीला खिलौना हाथी है। वह नहीं जो आप उम्मीद कर रहे थे? इस बारे में कैसे: डौग कटिंग - इस ओपन-सोर्स सॉफ्टवेयर प्रोजेक्ट के सह-निर्माता - ने अपने बेटे से नाम उधार लिया था, जो उसके खिलौने हाथी हडोप को कॉल करने के लिए हुआ था। संक्षेप में, Hadoop एक सॉफ्टवेयर फ्रेमवर्क है जिसे Apache Software Foundation द्वारा विकसित डेटा-गहन, वितरित कंप्यूटिंग के विकास के लिए उपयोग किया जाता है। और इसके अन्य buzzword पाठकों में एक महत्वपूर्ण घटक कभी भी पर्याप्त डेटा प्राप्त करने के लिए प्रतीत नहीं हो सकता है: बड़ा डेटा। यहाँ सात चीजें हैं जो आपको इस अनूठी, स्वतंत्र रूप से लाइसेंस प्राप्त सॉफ़्टवेयर के बारे में पता होनी चाहिए।

Hadoop की शुरुआत कैसे हुई?

बारह साल पहले, Google ने एकत्रित किए गए डेटा की भारी मात्रा में हेरफेर करने के लिए एक मंच बनाया था। जैसा कि कंपनी अक्सर करती है, Google ने अपने डिजाइन को दो पेपरों के रूप में जनता के लिए उपलब्ध कराया: Google फाइल सिस्टम और मैपरेड।

उसी समय, डग कटिंग और माइक कैफ़ेरेला एक नए खोज इंजन, नच पर काम कर रहे थे। बड़ी मात्रा में डेटा को कैसे संभालना है, इस बात से भी दोनों जूझ रहे थे। तब दोनों शोधकर्ताओं को Google के कागजात की हवा मिली। सौभाग्यशाली चौराहे ने कटिंग और कैफेरेला को एक बेहतर फ़ाइल सिस्टम और डेटा पर नज़र रखने का एक तरीका पेश करके सब कुछ बदल दिया, अंत में हेडोप के निर्माण की ओर अग्रसर हुआ।

Hadoop के बारे में इतना महत्वपूर्ण क्या है?

आज, डेटा एकत्र करना पहले से कहीं ज्यादा आसान है। यह सब डेटा होने से कई अवसर मिलते हैं, लेकिन साथ ही चुनौतियां भी हैं:

बड़ी मात्रा में डेटा को प्रसंस्करण के नए तरीकों की आवश्यकता होती है।
कैप्चर किया जा रहा डेटा एक असंरचित प्रारूप में है।

असंरचित डेटा की भारी मात्रा में हेरफेर करने की चुनौतियों को दूर करने के लिए, कटिंग और कैफेरेला दो-भाग समाधान के साथ आए। डेटा-मात्रा की समस्या को हल करने के लिए, Hadoop एक वितरित वातावरण को नियोजित करता है - कमोडिटी सर्वर का एक नेटवर्क - एक समानांतर प्रोसेसिंग क्लस्टर बनाता है, जो असाइन किए गए कार्य को सहन करने के लिए अधिक प्रोसेसिंग पावर लाता है।

इसके बाद, उन्हें बिना प्रारूप वाले डेटा या डेटा को उन प्रारूपों से निपटना पड़ा जो मानक रिलेशनल डेटाबेस सिस्टम को संभालने में असमर्थ थे। कटिंग और कैफेरेला ने किसी भी प्रकार के डेटा के साथ काम करने के लिए Hadoop को डिज़ाइन किया: संरचित, असंरचित, चित्र, ऑडियो फ़ाइलें, यहां तक कि। यह क्लोडेरा (हडोप इंटीग्रेटर) श्वेत पत्र बताता है कि यह महत्वपूर्ण क्यों है:

"अपने सभी डेटा को प्रयोग करने योग्य बनाने से, न कि आपके डेटाबेस में क्या है, हैडोप आपको छिपे हुए रिश्तों को उजागर करने देता है और उन उत्तरों को प्रकट करता है जो हमेशा पहुंच से बाहर रहे हैं। आप कूबड़ के बजाय कठिन डेटा के आधार पर अधिक निर्णय लेना शुरू कर सकते हैं, और देखो। पूर्ण डेटा सेट पर, न केवल नमूने और सारांश। "

क्या है स्कीमा रीड पर?

जैसा कि पहले उल्लेख किया गया था, Hadoop के फायदों में से एक असंरचित डेटा को संभालने की क्षमता है। एक अर्थ में, यह "सड़क को नीचे गिरा सकता है।" अंततः डेटा को विश्लेषण करने के लिए किसी प्रकार की संरचना की आवश्यकता होती है।

यही वह जगह है जहाँ रीड पर स्कीमा खेल में आती है। स्कीमा पढ़ने में डेटा किस प्रारूप में है, इस बात का पता लगाना है कि डेटा कहाँ मिलेगा (याद रखें कि डेटा कई सर्वरों में बिखरा हुआ है), और डेटा के लिए क्या किया जाना चाहिए - एक सरल कार्य नहीं है। यह कहा गया है कि एक Hadoop प्रणाली में डेटा में हेरफेर करने के लिए एक व्यवसाय विश्लेषक, एक सांख्यिकीविद और एक जावा प्रोग्रामर के कौशल की आवश्यकता होती है। दुर्भाग्य से, उन योग्यताओं वाले कई लोग नहीं हैं।

हाइव क्या है?

यदि Hadoop सफल होने वाला था, तो डेटा के साथ काम करना सरल होना था। इसलिए, ओपन-सोर्स भीड़ को काम मिला और उसने हाइव बनाया:

"हाइव इस डेटा पर प्रोजेक्ट संरचना को एक तंत्र प्रदान करता है और एचक्यूक्यूएल नामक एसक्यूएल जैसी भाषा का उपयोग करके डेटा को क्वेरी करता है। साथ ही यह भाषा पारंपरिक मानचित्र / प्रोग्रामर को अपने कस्टम मैपर्स और रिड्यूसर में प्लग करने की अनुमति देती है जब यह असुविधाजनक होता है या। HiveQL में इस तर्क को व्यक्त करने के लिए अक्षम। "
हाइव दोनों दुनिया के सर्वश्रेष्ठ को सक्षम बनाता है: SQL कमांड से परिचित डेटाबेस कर्मी डेटा में हेरफेर कर सकते हैं, और रीड प्रक्रिया पर स्कीमा से परिचित डेवलपर्स अभी भी अनुकूलित प्रश्न बनाने में सक्षम हैं।

Hadoop किस तरह के डेटा का विश्लेषण करता है?

वेब एनालिटिक्स पहली चीज है जो वेबसाइटों को अनुकूलित करने के लिए वेब लॉग और वेब ट्रैफ़िक का विश्लेषण करते हुए दिमाग में आती है। , उदाहरण के लिए, निश्चित रूप से वेब एनालिटिक्स में है, Hadoop का उपयोग करके डेटा के टेराबाइट्स के माध्यम से सॉर्ट करने के लिए कंपनी जम जाती है।

जोखिम विश्लेषण, धोखाधड़ी का पता लगाने और ग्राहक-आधार विभाजन करने के लिए कंपनियां Hadoop समूहों का उपयोग करती हैं। यूटिलिटी कंपनियां अपने इलेक्ट्रिकल ग्रिड से सेंसर डेटा का विश्लेषण करने के लिए Hadoop का उपयोग करती हैं, जिससे उन्हें बिजली के उत्पादन का अनुकूलन करने की अनुमति मिलती है। टारगेट, 3 एम और मेड्रोनिक्स जैसी प्रमुख कंपनियां उत्पाद वितरण, व्यापार जोखिम आकलन और ग्राहक-आधार विभाजन को अनुकूलित करने के लिए Hadoop का उपयोग करती हैं।

Hadoop में विश्वविद्यालयों का भी निवेश किया जाता है। यूनिवर्सिटी ऑफ सेंट थॉमस ग्रेजुएट प्रोग्राम्स इन सॉफ्टवेयर के एक एसोसिएट प्रोफेसर ब्रैड रुबिन ने उल्लेख किया कि विश्वविद्यालय में अनुसंधान समूहों द्वारा संकलित डेटा की प्रचुर मात्रा के माध्यम से उनकी Hadoop विशेषज्ञता मदद कर रही है।

क्या आप हडोप की वास्तविक दुनिया का उदाहरण दे सकते हैं?

बेहतर उदाहरणों में से एक TimesMachine है। न्यूयॉर्क टाइम्स में पूर्ण पृष्ठ अखबार टीआईएफएफ छवियों, संबद्ध मेटाडेटा और 1951 के डेटा के टेराबाइट्स के लिए 1922 के लेख का एक संग्रह है। NYT का डेरेक गॉटफ्रिड, EC2 / S3 / Hadoop सिस्टम और विशेष कोड का उपयोग कर,:

"405,000 बहुत बड़ी TIFF छवियों के साथ, SGML में 3.3 मिलियन लेख और TIFF में आयताकार क्षेत्रों के लिए 405,000 xml फ़ाइलों की मैपिंग लेख। यह डेटा अधिक वेब-फ्रेंडली 810,000 PNG छवियों (थंबनेल और पूर्ण छवियों) और 405,000 JavaScript फ़ाइलों में परिवर्तित किया गया था। "
अमेज़ॅन वेब सर्विसेज क्लाउड में सर्वरों का उपयोग करते हुए, गॉटफ्रीड ने उल्लेख किया कि वे 36 घंटों से भी कम समय में TimesMachine के लिए आवश्यक सभी डेटा को संसाधित करने में सक्षम थे।

क्या Hadoop पहले से ही अप्रचलित है या सिर्फ morphing है?

Hadoop पिछले एक दशक से अधिक समय से है। इसने कई कहावतें अप्रचलित हैं। एक विशेषज्ञ, डॉ। डेविड रिको ने कहा है कि "आईटी उत्पाद अल्पकालिक हैं। कुत्ते के वर्षों में, Googles उत्पाद लगभग 70 हैं, जबकि Hadoop 56 है।"

रिको जो कहता है, उसमें कुछ सच्चाई हो सकती है। ऐसा प्रतीत होता है कि हाडोप एक प्रमुख ओवरहाल से गुजर रहा है। इसके बारे में अधिक जानने के लिए, रूबिन ने मुझे एक ट्विन सिटीज़ हडॉप उपयोगकर्ता समूह की बैठक में आमंत्रित किया, और चर्चा का विषय यारो से परिचय था:

"Apache Hadoop 2 में एक नया MapReduce इंजन शामिल है, जिसमें पिछले कार्यान्वयन पर कई फायदे हैं, जिसमें बेहतर मापनीयता और संसाधन उपयोग शामिल है। नया कार्यान्वयन YARN नामक वितरित अनुप्रयोगों को चलाने के लिए एक सामान्य संसाधन प्रबंधन प्रणाली पर बनाया गया है।"Hadoop को डेटाबेस और कंटेंट मैनेजमेंट सर्किल में बहुत चर्चा मिलती है, लेकिन इसके आस-पास अभी भी कई सवाल हैं और इसका उपयोग कैसे किया जा सकता है। ये तो बहुत कम हैं। यदि आपके पास अधिक है, तो वे हमारे रास्ते हैं। खैर Techopedia.com पर सबसे अच्छे लोगों का जवाब।