जब SQL अलग नहीं है: बड़े नए डेटा केंद्रों के लिए नियंत्रण

वीडियो: Database Management Unit III | Introduction to SQL | CBSE Term 2 | CS Class 12 | Lovejeet Arora

विषय

Google फ़ाइल सिस्टम: एक बड़ा मामला अध्ययन
नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ
कोर प्रौद्योगिकी पर एक नज़र
अन्य बड़े सिस्टम इसे कैसे प्राप्त करते हैं?
एक DFS को बनाए रखना

ले जाओ:

डेवलपर्स और इंजीनियरों को लगातार उन प्लेटफार्मों पर सेवाओं को तेज करने और सुधारने के लिए काम करने की जरूरत है जो 1990 के दशक के युग के आर्कटाइप्स से बहुत आगे बढ़ गए हैं।

हमारे निजी जीवन के बारे में डेटा बिट्स के gazillions रखने वाले एनएसए डेटा केंद्रों के बारे में सभी चर्चाओं के साथ, कम से कम सीएनएन पर एक बहुत सी बात के बारे में बात नहीं हुई है। इसमें एक इंजीनियरिंग समस्या शामिल है जो क्लाउड प्रौद्योगिकी, बड़े डेटा और प्रभावशाली भौतिक डेटा संग्रहण केंद्रों के साथ उभरा है जो अब पूरी दुनिया में बनाए जा रहे हैं। तो यह क्या है? खैर, कोई बात नहीं जो इन सुविधाओं को चलाने वाले विशाल आईटी सिस्टमों में से एक का प्रशासन कर रहा है, ऐसे सॉफ्टवेयर सिस्टम की आवश्यकता है जो उस डेटा को सभी पाइपलाइन से जल्दी से बाहर निकलने में मदद करें। आज के सबसे दिलचस्प आईटी प्रश्नों या पहेलियों का सामना करना पड़ रहा है।

जैसा कि कई विशेषज्ञ बताते हैं, आज डेटा प्रोसेसिंग की अत्यधिक मांग पारंपरिक दृष्टिकोणों से कहीं अधिक है। सीधे शब्दों में कहें, एसक्यूएल क्वेरी इंटरफेस जैसे सरल डेटाबेस संरचनाओं और उपकरणों का उपयोग करना, पिछले कुछ वर्षों में विकसित की गई स्वामित्व प्रणालियों की पसंद के लिए पर्याप्त प्रसंस्करण शक्ति या कार्यक्षमता प्रदान करने वाला नहीं है। आज की बड़ी टेक कंपनियों के अभिलेखागार को अत्यंत मापनीय प्रौद्योगिकी की आवश्यकता है। उन्हें डेटा प्रोसेसिंग टूल की आवश्यकता होती है, जो एकल सर्वर की सुविधा की तुलना में अधिक मात्रा में इनपुट और आउटपुट कर सकता है। उन्हें ऐसे समाधानों की आवश्यकता होती है, जिन्हें विकास के लिए जल्दी से तैयार किया जा सके, ऐसे समाधान जिनमें कृत्रिम बुद्धिमत्ता के जटिल स्तर शामिल हों, ऐसे समाधान जो आईटी विभाग द्वारा आसान प्रबंधन के लिए तैयार किए गए हों।

सवाल यह है कि कंपनियों और सरकारी एजेंसियों ने परंपरागत डेटा हैंडलिंग मार्ग की सीमाओं को कैसे जीत लिया? यहाँ एक बहुत ही आशाजनक विकल्प पर एक नज़र डालें: सॉफ्टवेयर जो बड़े डेटा और कई डेटा केंद्रों के प्रशासन को संभालता है।

Google फ़ाइल सिस्टम: एक बड़ा मामला अध्ययन

Google अपने डेटा केंद्रों तक पहुंचने के लिए जिस स्वामित्व तकनीक का उपयोग करता है वह बड़े डेटा हैंडलिंग और कई डेटा सेंटर प्रशासन के लिए सामान्य मॉडल का सबसे अच्छा उदाहरण है। 2003 में विकसित Google फ़ाइल सिस्टम (GFS) को डेटा सिस्टम में उच्च-गति संशोधन की भारी मात्रा का समर्थन करने के लिए डिज़ाइन किया गया है, जो एक ही मंच से इतनी नई जानकारी प्राप्त करने का हिस्सा है क्योंकि लाखों उपयोगकर्ता इससे दूर क्लिक करते हैं उसी समय। विशेषज्ञ इसे एक वितरित फ़ाइल सिस्टम के रूप में संदर्भित करते हैं, और इन अत्यधिक जटिल तकनीकों का वर्णन करने के लिए "डेटा ऑब्जेक्ट स्टोरेज" शब्द का उपयोग करते हैं। वास्तव में, हालांकि, ये शब्द काम के दौरान सतह को खरोंच भी नहीं करते हैं।

व्यक्तिगत रूप से, GFS जैसी प्रणाली बनाने वाली सुविधाएँ और घटक भले ही अब ग्राउंड-ब्रेकिंग न हों, लेकिन वे जटिल हैं। उनमें से कई को इस साइट पर अपेक्षाकृत नए नवाचारों के रूप में कवर किया गया है जो एक नए, हमेशा-हमेशा के लिए, वैश्विक आईटी प्रणाली से जुड़े हुए हैं। सामूहिक रूप से, जीएफएस जैसी प्रणाली इसके भागों के योग से बहुत अधिक है: यह एक बड़े पैमाने पर अदृश्य लेकिन बेहद जटिल नेटवर्क है जो व्यक्तिगत डेटा टुकड़ों के साथ इस तरह से फेंका जाता है और इस प्रक्रिया में जो पूरी तरह से नेत्रहीन रूप से मॉडलिंग करता है, अराजकता जैसा दिखता है। यह समझना कि सभी डेटा कहाँ जा रहा है, बहुत सारी ऊर्जा और प्रतिबद्धता लेता है, क्योंकि इन प्रणालियों के युद्ध स्टेशनों को मैनिंग करने वाले आसानी से स्वीकार करेंगे।

"बहुत सारे विवरण हैं जो प्रयोज्य के क्षेत्रों पर गहरा प्रभाव डालते हैं - बाहरी और आंतरिक विखंडन सहित, लॉग-इन बनाम इन-प्लेस अपडेट और लेन-देन की निरंतरता का स्तर - जिस तरह से यह एक अकेले वाक्य में काम करता है। , "मोम्चिल माइकेलोव, सीईओ और Sanbolic के सह-संस्थापक कहते हैं।

"एक वितरित फ़ाइल प्रणाली या तो स्थानीय नाम रिक्त स्थान और प्रतिभागी नोड्स के मुक्त स्थानों का एक वितरित एग्रीगेटर है, या एक स्थानीय फ़ाइल प्रणाली है जो एक वितरित लॉक मैनेजर घटक की सहायता से साझा भंडारण तक पहुंचने वाले कई नोड्स पर चलती है," उन्होंने कहा।

केरी लेबेल अपने स्केलेबल ऑटोमेशन प्लेटफॉर्म के लिए जानी जाने वाली कंपनी ऑटोमिक में वरिष्ठ उत्पाद प्रबंधक हैं। लेबेल का कहना है कि जबकि डीएफएस को एक प्रणाली के रूप में वर्णित करना सटीक है जो केवल हार्डवेयर के कम-लागत वाले टुकड़ों से जुड़े सर्वरों को कार्यभार प्रदान करता है, जो वास्तव में पूरी कहानी नहीं बताता है।

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार कर सकते हैं।

"क्या आप याद आ रही है सब शांत कारक है किस तरह वे वही करते हैं जो वे करते हैं, '' लेबेल ने कहा।

जब आप तकनीकी विवरण से दूर जाते हैं और वितरित फ़ाइल सिस्टम के पीछे मूल विचार के बारे में सोचते हैं, तो लेबेल जिस "शांत कारक" के बारे में बात करता है वह स्पष्ट है। ये बड़े डेटा हैंडलिंग सिस्टम पुरानी फ़ाइल / फ़ोल्डर सिस्टम को उन संरचनाओं से प्रतिस्थापित करते हैं जिनमें न केवल कई डिलीवरी सिस्टम शामिल हैं, बल्कि एक "ऑब्जेक्ट ओरिएंटेड" दृष्टिकोण है, जहां बड़ी संख्या में इकाइयाँ यहाँ और वहाँ अड़चनों को रोकने के लिए स्कैटल होती हैं।

उदाहरण के लिए, एक अत्याधुनिक राजमार्ग प्रणाली के बारे में सोचें, जहाँ सैकड़ों कारें न केवल एक मल्टीलेन सीधे नीचे फ़नल की जाती हैं, बल्कि साफ-सुथरी छोटी तिपतिया घास की पत्ती या बैलों की सहायक नदियों में बिखेर दी जाती हैं, जो चारों ओर घूमती हैं और भेजी जाती हैं विभिन्न स्थलों पर अपने गंतव्य की ओर। आकाश से, सब कुछ एक स्विस घड़ी की तरह कोरियोग्राफ किया गया है। इंजीनियर जिस तरह के दृश्य मॉडल को देखते हैं, वे जब किसी मल्टी-टियर डेटा कंट्रोल स्कीमा के विभिन्न स्तरों पर "किक" करके सूचनाओं को रूट करने के नए तरीकों को देखते हैं। ऐनक को छोड़ते हुए, यह एक हैंडलिंग सिस्टम का शीर्ष-स्तरीय लक्ष्य है: उन स्व-सम्‍मिलित वस्‍तुओं को अपने एम्बेडेड मेटाडेटा के साथ शीर्ष गति पर चलते रहने के लिए, जहाँ उनकी आवश्‍यकता है, निरंतरता लक्ष्यों तक पहुँचने के लिए, अंतिम उपयोगकर्ता को संतुष्ट करना, या यहां तक कि एक शीर्ष-स्तरीय अवलोकन या विश्लेषण को सूचित करने के लिए।

कोर प्रौद्योगिकी पर एक नज़र

शॉन गलाघेर का एक लेख जो आर्स टेक्निका पर दिखाई दिया था, जीएफएस डिज़ाइन को कुछ अधिक प्रबंधनीय भागों में तोड़ता है, और Google पर शीट के नीचे संकेत करता है।

GFS डेटा रीडिंग और राइट के लिए एक निरर्थक और दोष सहिष्णु मॉडल के साथ शुरू होता है। यहां विचार यह है कि एक एकल ड्राइव पर एक विशिष्ट अपडेट लिखने के बजाय, नई प्रणालियां कई स्थलों पर डेटा का हिस्सा लिखती हैं। इस तरह, अगर एक लिखने में विफल रहता है, तो अन्य लोग बने रहेंगे। इसे समायोजित करने के लिए, एक प्राथमिक नेटवर्क घटक डेटा को अन्य अधीनस्थ इकाइयों को सौंप देता है, जब ग्राहक इसके लिए "कॉल" करता है तो डेटा को फिर से एकत्र करता है। यह सब एक मेटाडेटा प्रोटोकॉल द्वारा संभव बनाया गया है जो यह पहचानने में मदद करता है कि कुछ अपडेट और ट्रांसमिशन परिणाम अधिक से अधिक सिस्टम में कहां हैं।

इसका एक और बहुत महत्वपूर्ण पहलू यह है कि ये डुप्लिकेट-हैवी सिस्टम डेटा संगति कैसे लागू करते हैं। गलाघेर नोटों के रूप में, जीएफएस डिज़ाइन कुछ स्थिरता का त्याग करता है, जबकि अभी भी "परमाणुता को लागू कर रहा है," या इस सिद्धांत की रक्षा करता है कि समय के साथ मेल खाने के लिए कई स्टोरेज इकाइयों में डेटा कैसे अपडेट होता है। Google का "आराम स्थिरता मॉडल" BASE मॉडल के आवश्यक सिद्धांत का पालन करता प्रतीत होता है, जो स्थिरता प्रवर्तन के लिए एक लंबे समय के फ्रेम के बदले में अधिक लचीलापन प्रदान करता है।

अन्य बड़े सिस्टम इसे कैसे प्राप्त करते हैं?

"जब पर्याप्त रूप से बड़े पैमाने पर पहुंच जाता है, तो डेटा के लिए असंगतता या भ्रष्टाचार अपरिहार्य हो जाते हैं," मिखाइलोव कहते हैं। "इसलिए, वितरित फ़ाइल सिस्टम का एक प्राथमिक लक्ष्य भ्रष्टाचार की उपस्थिति में यथासंभव अधिक से अधिक संचालन करने की क्षमता होना चाहिए, जबकि एक साथ भ्रष्टाचार से निपटने के लिए कुशल तरीके प्रदान करना।" माइकेलोव ने अतिरेक के सावधानीपूर्वक कार्यान्वयन के माध्यम से प्रदर्शन को संरक्षित करने की आवश्यकता का भी उल्लेख किया है।

"उदाहरण के लिए, प्रत्येक डिस्क पर मेटाडेटा (डेटा के बारे में डेटा) बनाना उस डिस्क को इसकी उचित डेटा संरचना को फिर से बनाने में सक्षम बनाता है यदि इसकी दर्पण प्रतिलिपि दूषित है," मिखाइलोव ने कहा। "इसके अतिरिक्त, RAID स्तर का उपयोग फ़ाइल सिस्टम एग्रीगेटर या साझा वॉल्यूम प्रबंधक स्तरों पर भंडारण विफलताओं से निपटने के लिए किया जा सकता है।"

एक और स्थिरता मॉडल पर चर्चा करने के लिए, लेबेल एक सिस्टम पर ध्यान केंद्रित करते हैं जिसे Hadoop डिस्ट्रिब्यूटेड फाइल सिस्टम (HDFS) कहा जाता है, जिसे वह "उद्योग डी-फैक्टो मानक" कहता है।

एचडीएफएस में, लेबेल कहते हैं, प्रत्येक डेटा ब्लॉक को अलग-अलग नोड्स पर तीन बार दोहराया जाता है, और दो अलग-अलग रैक पर। डेटा को एंड-टू-एंड चेक किया गया है। विफलताएँ NameNode को रिपोर्ट की जाती हैं, एक डेटा हैंडलर जो भ्रष्ट ब्लॉकों से छुटकारा पाता है और नए बनाता है।

यह सभी "स्वच्छ डेटा" के प्रकारों का समर्थन करता है जो इन बड़े डेटा सिस्टमों में से एक की अखंडता के लिए बहुत महत्वपूर्ण हैं।

एक DFS को बनाए रखना

जीएफएस पर एक और बहुत अलग नज़र वायर्ड लेखक स्टीवन लेवी द्वारा अक्टूबर 2012 के लेख से आती है। Google के सामूहिक टॉप-डाउन नेटवर्क हैंडलिंग के लिए सॉफ़्टवेयर दृष्टिकोण को चिह्नित करने में यह बहुत ही दुखद है।

"इन वर्षों में," लेवी लिखता है, "Google ने एक सॉफ्टवेयर सिस्टम भी बनाया है जो इसे अपने अनगिनत सर्वरों का प्रबंधन करने की अनुमति देता है जैसे कि वे एक विशाल इकाई थे। इसके घर में रहने वाले डेवलपर्स कठपुतली स्वामी की तरह कार्य कर सकते हैं, प्रदर्शन करने के लिए हजारों कंप्यूटर भेजते हैं। एक मशीन चलाने के रूप में आसानी से काम करता है। ”

ऐसा करने में साइबर आधारित और पर्यावरण रखरखाव के टन भी शामिल हैं, जो समर्पित परीक्षण टीमों से "सिस्टम" को तोड़ने की कोशिश करते हैं, डेटा क्रिप्ट के हॉल में तापमान को सावधानीपूर्वक नियंत्रित करते हैं।

लेवी जीएफएस के लिए पूरक प्रौद्योगिकियों का भी उल्लेख करता है, जैसे मेप्रेड्यूस, एक क्लाउड एप्लिकेशन टूल और हडोप, एक एनालिटिक्स इंजन जो जीएफएस के साथ कुछ डिजाइन सिद्धांतों को साझा करता है। इन उपकरणों का अपना प्रभाव है कि बड़े डेटा सेंटर हैंडलिंग सिस्टम कैसे तैयार किए जाते हैं, और भविष्य में इसके उभरने की क्या संभावना है। (बिग डेटा के विकास में इन तकनीकों के बारे में अधिक जानें।)

माइकेलोव का मानना है कि MapReduce में कभी भी अधिक से अधिक डेटा सेंटर सिस्टम का समर्थन करने की क्षमता है, और साझा और एकत्रित फ़ाइल सिस्टम के "एकल कार्यान्वयन" के बारे में बात करता है जो भंडारण के लिए एसएसएल के साथ एक साझा क्लस्टर में एकत्रित फ़ाइल सिस्टम के नाम नोड्स को रख सकता है। । "

अपने हिस्से के लिए, लेबेल बैच प्रसंस्करण (Hadoop समर्थित पद्धति) से प्रसंस्करण को स्ट्रीम करने के लिए दूर जाती है, जो इन डेटा संचालन को वास्तविक समय के करीब लाएगा।

लेबेल कहते हैं, "तेजी से हम डेटा को संसाधित कर सकते हैं और इसे व्यापार निर्णय लेने वालों या अपने ग्राहकों को उपलब्ध करा सकते हैं, जितना अधिक प्रतिस्पर्धी लाभ होगा, उतनी ही अधिक संभावना है कि उपरोक्त प्रसंस्करण शब्दावली को ध्यान में रखते हुए। अंतिम उपयोगकर्ता। "सिंक्रोनस" गतिविधियों के बारे में सोचकर, या गतिविधियाँ एंड-यूज़र क्रियाओं के साथ समन्वयित होती हैं, और "एसिंक्रोनस" गतिविधियाँ जो कार्यान्वयन के संदर्भ में अधिक लचीली होती हैं, लेबेल का कहना है कि कंपनियां SLAs और अन्य संसाधनों का उपयोग यह परिभाषित करने के लिए कर सकती हैं कि किसी दी गई सेवा प्रणाली कैसे काम करेगी ।

यह सब कुछ एक अर्थ में उबलता है, डेवलपर्स और इंजीनियरों को लगातार उन प्लेटफार्मों पर सेवाओं को तेज करने और सुधारने के लिए काम करने की आवश्यकता है जो अपने क्लासिक, 1990 के दशक के आर्कटाइप्स से बहुत आगे बढ़ गए हैं। इसका मतलब है कि डेटा की मशीनरी पर गंभीर रूप से देखना और बाधाओं के माध्यम से उन तरीकों से टूटना, जो न केवल एक बढ़ती हुई आबादी का समर्थन करते हैं, बल्कि ब्रेक-नेक गति से होने वाले घातीय परिवर्तन जिसे पंडित "अगली औद्योगिक क्रांति" कह रहे हैं। यह संभावना है कि जो लोग इन मोर्चों पर सबसे अधिक आधार तोड़ेंगे, वे भविष्य के बाजारों और अर्थव्यवस्थाओं में हावी होंगे।