10 सबसे महत्वपूर्ण Hadoop नियम जिन्हें आपको जानना और समझना आवश्यक है

लेखक: Eugene Taylor
निर्माण की तारीख: 10 अगस्त 2021
डेट अपडेट करें: 1 जुलाई 2024
Anonim
5 मिनट में बड़ा डेटा | बड़ा डेटा क्या है?| बिग डेटा का परिचय |बिग डेटा समझाया |Simplilearn
वीडियो: 5 मिनट में बड़ा डेटा | बड़ा डेटा क्या है?| बिग डेटा का परिचय |बिग डेटा समझाया |Simplilearn

विषय



स्रोत: Trueffelpix / Dreamstime.com

ले जाओ:

वास्तव में बड़े डेटा को समझने के लिए, आपको Hadoop और इसके आस-पास की भाषा के बारे में थोड़ा समझने की आवश्यकता है।

बड़ा डेटा, संरचित, असंरचित या अर्ध-संरचित डेटा के बड़े पैमाने पर आकर्षक नाम, कम से कम पारंपरिक डेटाबेस और सॉफ़्टवेयर अनुप्रयोगों का उपयोग करके स्टोर करना, प्रबंधित करना, साझा करना, विश्लेषण करना और कल्पना करना मुश्किल है। यही कारण है कि बड़ी डेटा प्रौद्योगिकियों में बड़े पैमाने पर डेटा को प्रभावी ढंग से और कुशलता से प्रबंधित और संसाधित करने की क्षमता होती है। और इसके अपाचे Hadoop कि एक वितरित तरीके से कंप्यूटर के समूहों में बड़े डेटा सेट को संसाधित करने के लिए फ्रेमवर्क और संबंधित तकनीकों को प्रदान करता है। इसलिए, बड़े डेटा को समझने के लिए, आपको Hadoop के बारे में थोड़ा समझने की आवश्यकता है। यहाँ अच्छी तरह से Hadoop के संबंध में शीर्ष शब्दों पर एक नज़र डालते हैं - और उनका क्या मतलब है।

लेकिन सबसे पहले, हाडोप वर्क्स पर एक नज़र

Hadoop Eco-system में जाने से पहले, आपको दो मूलभूत बातों को स्पष्ट रूप से समझने की आवश्यकता है। पहला यह है कि कैसे एक फ़ाइल Hadoop में संग्रहीत है; दूसरा यह है कि संग्रहीत डेटा को कैसे संसाधित किया जाता है। सभी Hadoop से संबंधित प्रौद्योगिकियां मुख्य रूप से इन दो क्षेत्रों पर काम करती हैं और इसे अधिक उपयोगकर्ता के अनुकूल बनाती हैं। (कैसे Hadoop में मदद करता है की मूल बातें प्राप्त करें Hadoop बिग डाटा समस्या को हल करने में मदद करता है।)


अब, शर्तों पर।

Hadoop Common

Hadoop फ्रेमवर्क में विभिन्न कार्यात्मकताओं के लिए अलग-अलग मॉड्यूल हैं और ये मॉड्यूल विभिन्न कारणों से एक-दूसरे के साथ बातचीत कर सकते हैं। Hadoop Common को Hadoop इकोसिस्टम में इन मॉड्यूल का समर्थन करने के लिए एक आम उपयोगिताओं पुस्तकालय के रूप में परिभाषित किया जा सकता है। ये उपयोगिताओं मूल रूप से जावा-आधारित, संग्रहीत (JAR) फाइलें हैं। इन उपयोगिताओं को मुख्य रूप से प्रोग्रामर और डेवलपर्स द्वारा विकास के समय में उपयोग किया जाता है।

Hadoop वितरित फ़ाइल सिस्टम (HDFS)

Hadoop डिस्ट्रीब्यूटेड फाइल सिस्टम (HDFS) Apache सॉफ्टवेयर फाउंडेशन के तहत Apache Hadoop का एक सब-प्रोजेक्ट है। यह Hadoop ढांचे में भंडारण की रीढ़ है। यह एक वितरित, स्केलेबल और फॉल्ट-टॉलरेंट फाइल सिस्टम है, जो कि Hadoop क्लस्टर के रूप में जाने वाले कई कमोडिटी हार्डवेयर में फैला है। HDFS का उद्देश्य अनुप्रयोग डेटा के लिए उच्च थ्रूपुट एक्सेस के साथ मज़बूती से डेटा की एक बड़ी मात्रा को संग्रहीत करना है। एचडीएफएस मास्टर / स्लेव आर्किटेक्चर का अनुसरण करता है, जहां मास्टर को नामनोड के रूप में जाना जाता है और दास को डेटानोड्स के रूप में जाना जाता है।


मानचित्र छोटा करना

Hadoop MapReduce भी Apache Software Foundation की एक उप-परियोजना है। MapReduce वास्तव में जावा में लिखा एक सॉफ्टवेयर फ्रेमवर्क है। इसका प्राथमिक उद्देश्य एक वितरित वातावरण (कमोडिटी हार्डवेयर से युक्त) पर बड़े डेटासेट को पूरी तरह से समानांतर तरीके से संसाधित करना है। फ्रेमवर्क सभी गतिविधियों जैसे कि नौकरी का समय निर्धारण, निगरानी, ​​निष्पादन और पुनः निष्पादन (विफल कार्यों के मामले में) का प्रबंधन करता है।

HBase

अपाचे HBase को Hadoop डेटाबेस के रूप में जाना जाता है। यह एक स्तंभ, वितरित और स्केलेबल बड़ा डेटा स्टोर है। इसे एक प्रकार के NoSQL डेटाबेस के रूप में भी जाना जाता है जो कि रिलेशनल डेटाबेस मैनेजमेंट सिस्टम नहीं है। Haseop के शीर्ष पर निर्मित और HDFS पर चलने वाले Java में HBase एप्लिकेशन भी लिखे गए हैं। HBase का उपयोग तब किया जाता है जब आपको वास्तविक समय पढ़ने / लिखने और बड़े डेटा तक यादृच्छिक पहुँच की आवश्यकता होती है। HBase को Googles BigTable अवधारणाओं के आधार पर तैयार किया गया है।

मधुमुखी का छत्ता

अपाचे हाइव एक ओपन-सोर्स डेटा वेयरहाउस सॉफ्टवेयर सिस्टम है। हाइव मूल रूप से अपाचे सॉफ्टवेयर फाउंडेशन के तहत आने से पहले विकसित हुआ था और खुला स्रोत बन गया था। यह वितरित Hadoop संगत भंडारण पर बड़े डेटा सेट के प्रबंधन और क्वेरी की सुविधा प्रदान करता है। Hive अपनी सभी गतिविधियों को HiveQL के रूप में जानी जाने वाली SQL जैसी भाषा का उपयोग करके करता है। (अपाचे हाइव और सुअर के लिए एक संक्षिप्त परिचय में अधिक जानें।)

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार नहीं कर सकते हैं।

अपाचे सुअर

सुअर को मूल रूप से वितरित डेटा की एक बड़ी मात्रा में MapReduce नौकरियों को विकसित करने और निष्पादित करने के लिए याहू द्वारा शुरू किया गया था। अब यह अपाचे सॉफ्टवेयर फाउंडेशन के तहत एक ओपन सोर्स प्रोजेक्ट बन गया है। Apache Pig को एक कुशल तरीके से बहुत बड़े डेटा सेट का विश्लेषण करने के लिए एक मंच के रूप में परिभाषित किया जा सकता है। सूअरों की अवसंरचना परत वास्तविक प्रसंस्करण करने के लिए MapReduce नौकरियों के क्रम का उत्पादन करती है। सूअर की भाषा की परत को सुअर लैटिन के रूप में जाना जाता है और यह वितरित डेटा सेट पर क्वेरी करने के लिए SQL जैसी सुविधाएँ प्रदान करता है।

अपाचे स्पार्क

स्पार्क मूल रूप से यूसी बर्कले में एएमपीलैब द्वारा विकसित किया गया था। यह फरवरी 2014 में एक अपाचे शीर्ष-स्तरीय परियोजना बन गई। अपाचे स्पार्क को एक खुले स्रोत, सामान्य-उद्देश्य, क्लस्टर-कंप्यूटिंग ढांचे के रूप में परिभाषित किया जा सकता है जो डेटा एनालिटिक्स को बहुत तेज बनाता है। इसे हडोप डिस्ट्रीब्यूटेड फाइल सिस्टम के शीर्ष पर बनाया गया है लेकिन यह MapReduce ढांचे से नहीं जुड़ा है। MapReduce की तुलना में स्पार्क्स का प्रदर्शन बहुत तेज़ है। यह स्काला, पायथन और जावा में उच्च-स्तरीय एपीआई प्रदान करता है।

अपाचे कैसांद्रा

Apache Cassandra एक और खुला स्रोत NoSQL डेटाबेस है। कैसंड्रा व्यापक रूप से कई डेटा केंद्रों और क्लाउड स्टोरेज में संरचित, अर्ध-संरचित और असंरचित डेटा स्पैन के बड़े संस्करणों का प्रबंधन करने के लिए उपयोग किया जाता है। कैसंड्रा एक "मास्टरलेस" वास्तुकला पर आधारित है, जिसका अर्थ है कि यह मास्टर / दास मॉडल का समर्थन नहीं करता है। इस वास्तुकला में, सभी नोड समान हैं और डेटा सभी नोड्स में स्वचालित रूप से और समान रूप से वितरित किया जाता है। कैसंड्रास सबसे महत्वपूर्ण विशेषताएं निरंतर उपलब्धता, रैखिक मापनीयता, अंतर्निहित / अनुकूलन योग्य प्रतिकृति, विफलता का कोई एकल बिंदु और परिचालन सादगी नहीं है।

फिर भी एक और संसाधन वार्ताकार (YARN)

फिर भी एक और संसाधन वार्ताकार (YARN) को MapReduce 2.0 के रूप में भी जाना जाता है, लेकिन यह वास्तव में Hadoop 2.0 के अंतर्गत आता है। YARN को नौकरी निर्धारण और संसाधन प्रबंधन ढांचे के रूप में परिभाषित किया जा सकता है। YARN का मूल विचार संसाधन प्रबंधन और समय-निर्धारण या निगरानी के लिए जिम्मेदार दो अलग-अलग डेमॉन द्वारा जॉबट्रैक की कार्यक्षमता को प्रतिस्थापित करना है। इस नए ढांचे में, एक वैश्विक संसाधन प्रबंधक (RM) और एक एप्लिकेशन-विशिष्ट मास्टर होगा, जिसे ApplicationMaster (AM) के नाम से जाना जाएगा। वैश्विक संसाधन प्रबंधक (RM) और NodeManager (प्रति नोड दास) वास्तविक डेटा संगणना रूपरेखा बनाते हैं। मौजूदा MapReduce v1 अनुप्रयोगों को भी YARN पर चलाया जा सकता है, लेकिन उन अनुप्रयोगों को Hadoop2.x जार के साथ फिर से जोड़ने की आवश्यकता है।

इम्पाला

इम्पाला को बड़े पैमाने पर समानांतर प्रसंस्करण (एमपीपी) शक्ति के साथ एक SQL क्वेरी इंजन के रूप में परिभाषित किया जा सकता है। यह मूल रूप से अपाचे Hadoop ढांचे पर चलता है। इम्पाला को Hadoop पारिस्थितिकी तंत्र के हिस्से के रूप में डिज़ाइन किया गया है। यह उसी लचीली फाइल सिस्टम (HDFS), मेटाडेटा, संसाधन प्रबंधन और सुरक्षा ढांचे को साझा करता है जैसा कि अन्य Hadoop पारिस्थितिकी तंत्र घटकों द्वारा उपयोग किया जाता है। सबसे महत्वपूर्ण बिंदु यह ध्यान रखना है कि हाइवे की तुलना में इम्पाला क्वेरी प्रोसेसिंग में बहुत तेज है। लेकिन हमें यह भी याद रखना चाहिए कि इम्पाला डेटा के एक छोटे से सेट पर क्वेरी / विश्लेषण के लिए है, और मुख्य रूप से एक एनालिटिक्स टूल के रूप में डिज़ाइन किया गया है, जो संसाधित और संरचित डेटा पर काम करता है।

Hadoop IT में एक महत्वपूर्ण विषय है, लेकिन ऐसे लोग हैं जो इसकी दीर्घकालिक व्यवहार्यता पर संदेह करते हैं। Hadoop में और अधिक पढ़ें एक Cynics सिद्धांत।