क्यों Hadoop जीनोम सीक्वेंसिंग के लिए एक आदर्श मैच है

लेखक: Roger Morrison
निर्माण की तारीख: 19 सितंबर 2021
डेट अपडेट करें: 5 मई 2024
Anonim
हडूप 5 मिनट में | हडूप क्या है? | हडूप का परिचय | Hadoop समझाया |Simplilearn
वीडियो: हडूप 5 मिनट में | हडूप क्या है? | हडूप का परिचय | Hadoop समझाया |Simplilearn

विषय


स्रोत: A3701027 / ड्रीमस्टाइम.कॉम

ले जाओ:

जीनोम अनुक्रमण को अपने सभी डेटा को संभालने के लिए शक्तिशाली प्रौद्योगिकी उपकरणों की आवश्यकता होती है, और Hadoop कार्य पर निर्भर है।

क्लिनिकल जीनोमिक्स एक आकर्षक विषय है, जहां लोग त्वरित और सटीक परिणाम प्राप्त करने के लिए अत्याधुनिक तकनीकों पर काम कर रहे हैं। बाजार पर बहुत सारे जीनोम सीक्वेंसर उपलब्ध हैं, और वे अनुक्रम डेटा के पेटाबाइट्स का उत्पादन कर रहे हैं, और अनुक्रमण में वृद्धि निकट भविष्य में डेटा के एक्सबाइट्स का उत्पादन करने जा रही है। यहाँ, Hadoop जटिल जीनोमिक्स कार्य प्रवाह को संसाधित करने के लिए सही मंच है। Hadoop जानकारी की भारी मात्रा को संग्रहीत और सॉर्ट कर सकता है और सार्थक विश्लेषण भी प्रस्तुत कर सकता है। (यह पता लगाने के लिए कि यह वास्तव में कितना डेटा है, अंडरस्टैंडिंग बिट्स, बाइट्स और उनके गुणकों को पढ़ें।)

जेनोमिक्स का वर्तमान और भविष्य

आज, जीनोम मानचित्रण अपने विकास के चरम पर पहुंच गया है। जीनोमिक्स उद्योग से जुड़े कई लोग जिज्ञासा के साथ फूट रहे हैं, और जैसे-जैसे नए अवसर खुद को पेश कर रहे हैं, बेहतर तकनीक समय की जरूरत है। जीनोम अनुक्रमण एक बहुत दोहरावदार और संसाधन-गहन कार्य है। अकेले 2013 में, लगभग 15 पेटाबाइट डेटा का उत्पादन किया गया था, और केवल 2,000 सीक्वेंसर द्वारा। इस जबड़े को छोड़ने वाली राशि में 300 KB अनुक्रमित मानव जीनोम डेटा शामिल था। डेटा उत्पादन की इस दर पर, यह अनुमान लगाया जा सकता है कि 2018 तक लगभग एक एक्साबाइट डेटा का उत्पादन किया जाएगा। यह सीक्वेंसर की वृद्धि के कारण होगा, जो प्रति रन अधिक से अधिक डेटा का उत्पादन करेगा। एक और कारण बेहद शक्तिशाली और कम लागत वाली जीनोम अनुक्रमण मशीनों का आगमन है। 2008 के बाद से, इन मशीनों की कीमत लगातार घट रही है। इसका कारण शक्तिशाली अगली पीढ़ी की मशीनें हैं जो बाजार में आई हैं।


जीनोम मैपिंग इंडस्ट्री की जरूरतें

जटिल एल्गोरिदम का उपयोग उन आंकड़ों को संसाधित करने के लिए किया जाता है जो मानव जीनोम से एकत्र किए जाते हैं। फिर, इस जानकारी को संग्रहीत करने की आवश्यकता है। भविष्य में मूल डेटा की तुलना में इसकी समीक्षा की जा सकती है। 100 जीबी डेटा को संसाधित करने और संग्रहीत करने का कार्य बहुत मुश्किल नहीं है, खासकर जब आप इसे अनुक्रमण केंद्रों पर कार्यरत शक्तिशाली मशीनों के साथ कर रहे हैं। अध्ययनों से पता चलता है कि डेटा की इस मात्रा को लगभग 1,000 सीपीयू घंटों में संसाधित किया जा सकता है, इसलिए यह बहुत आसान है। तकनीकी प्रगति की इस दर पर, यह स्पष्ट है कि जीनोम उद्योग जल्द ही कुछ ही सेकंड में हजारों गीगाबाइट की प्रक्रिया करेगा।

हालाँकि, डेटा प्रबंधन और भंडारण तकनीक जल्दी से विकसित नहीं हो रहे हैं, जिसके कारण कीमती डेटा के बड़े नुकसान की उम्मीद की जा सकती है। यह वास्तव में अवांछनीय है, क्योंकि यह मानव जीनोमिक्स में हुई प्रगति को गंभीरता से बाधित करेगा। इसलिए, एक कुशल डेटा प्रबंधन तकनीक, जिसे आसानी से अपडेट किया जा सकता है, की आवश्यकता बहुत अधिक है। यह विशेष रूप से निकट भविष्य में प्रभावी हो सकता है, जहां जीनोम मैपिंग बड़ी प्रयोगशालाओं से शक्तिशाली कंप्यूटरों से छोटे अस्पतालों और प्रयोगशालाओं में चले जाएंगे।


समाधान में क्या अपेक्षित है?

जिस गति से नई जीनोमिक अनुक्रमण तकनीकों की खोज की जा रही है और विकसित की जा रही है वह बहुत अधिक है। प्रमुख रोगों के उन्मूलन की दिशा में एक शक्तिशाली कदम के रूप में यह गति चिकित्सा विज्ञान के लिए बहुत फायदेमंद हो सकती है। हालाँकि, यह गति बहुत चुनौतीपूर्ण भी हो सकती है।

चुनौती अनुक्रमण परियोजनाओं द्वारा उत्पादित बड़ी मात्रा में डेटा के प्रबंधन के रूप में आती है। तो, एक प्रभावी समाधान की आवश्यकता है जो बड़े डेटा के भंडारण और प्रसंस्करण में मदद करेगा। यह समाधान सस्ता और तेज होना चाहिए, जबकि अनुकूली भी होना चाहिए। इस समाधान द्वारा प्रदान किया गया विश्लेषण भी सटीक और स्थिर होना चाहिए। तो, समस्या का समाधान क्या है? निस्संदेह, यह Hadoop है। (Hadoop के उपयोग के बारे में अधिक जानकारी के लिए, सेवा के रूप में बिग डेटा (Hadoop) के बारे में 5 जानकारी देखें।)

क्यों Hadoop जीनोम अनुक्रमण के लिए सबसे अच्छा समाधान है

जिनोमिक्स उद्योग को क्या चाहिए, एक बेहतर समाधान है जो उन्हें डेटा को प्रभावी ढंग से प्रबंधित करने, उसे संसाधित करने और भविष्य में उपयोग के लिए स्टोर करने में मदद कर सकता है। यह समाधान Hadoop सॉफ्टवेयर के साथ एक परिपूर्ण मेल प्रतीत होता है। तो, Hadoop को सही बड़े डेटा प्रबंधन सॉफ़्टवेयर के रूप में माना जा सकता है जो जीनोमिक्स उद्योग की वर्तमान डेटा भंडारण तकनीकों में बहुत सुधार कर सकता है।

Hadoop की रीयल-टाइम क्षमताएं जीनोम सिक्वेंसर के लिए वास्तविक समय में एक बार में बड़ी मात्रा में डेटा का विश्लेषण और संग्रह करना संभव बनाती हैं। यह डेटा के भविष्य के उपयोग को भी सक्षम बनाता है। Hadoop कई विरासत प्रणालियों को हरा सकता है, क्योंकि यह उनसे बहुत तेज और अधिक विश्वसनीय है।

नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार कर सकते हैं।

और क्या कर सकता है Hadoop?

Hadoop के कारण, जीनोमिक्स और जीन अनुक्रमण के क्षेत्र में बड़ी संख्या में संभावनाएं और अवसर खुले हैं। Hadoop समानांतर कंप्यूटिंग विकल्प प्रदान करता है जिसके कारण तेजी से अनुक्रमण संभव है। इसके अलावा, Hadoop के MapReduce फ़ंक्शन का उपयोग करके बड़ी संख्या में जीन को बहुत आसानी से मैप किया जा सकता है। इस वजह से, हडोप के साथ अनुक्रमण वास्तव में "अगला-जीन" बन जाएगा और बहुत कम जटिल होगा।

Hadoop के लिए अवसर

Hadoop के जीनोम उद्योग में कई अवसर हैं, लेकिन सबसे अच्छा एक Lynda चिन के लेख "कैंसर जीनोमिक डेटा की समझ," जीन और विकास पत्रिका से लिया गया था। इस लेख में, वह चर्चा करती है कि आधुनिक जीनोमिक्स ने कैसे नए दरवाजे खोले हैं, और इससे कैंसर के बारे में जीनोमिक जानकारी की खोज जैसे कई सकारात्मक परिणाम सामने आए हैं। इसके कारण, हम स्वयं कैंसर का इलाज खोजने के करीब हैं। हालांकि, इस क्षेत्र में बेहतर अनुसंधान क्षमता के लिए थोड़ा और ध्यान देने और एक शक्तिशाली डेटा प्रबंधन एप्लिकेशन की आवश्यकता है। अपनी गति, शक्ति और सटीकता को साबित करने के लिए Hadoop के लिए यह सबसे अच्छा अवसर हो सकता है।

क्रॉसबो: नेक्स्ट-जेनेरेशन डेटा मैनेजमेंट प्लेटफॉर्म

क्रॉसबो, जो एक सॉफ्टवेयर पाइपलाइन है जो जीनोम री-सीक्वेंसिंग के विश्लेषण के लिए है, सबसे अच्छे समाधानों में से एक है। यह अनुक्रमित डेटा को संरेखित करने के लिए एक त्वरित एल्गोरिदम के बीच Hadoop के भीतर एकीकरण का परिणाम था, जिसे बोवी कहा जाता है, और एक शक्तिशाली एल्गोरिथ्म जो अनुक्रमित डेटा की तुलना और जांच करता है, अर्थात् एक जीनोटायर जिसका नाम SoapSPP है। इसे Apache Hadoop पर बनाया गया है और यह MapReduce ढांचे के कार्यान्वयन पर आधारित है। क्रॉसबो पोर्टेबल, स्केलेबल है और क्लाउड कंप्यूटिंग टूल के रूप में भी उपयुक्त है।

इस शक्तिशाली एकीकरण के साथ, 10 नोड्स वाले स्थानीय क्लस्टर पर एक दिन में एक पूर्ण जीनोम की जांच की जा सकती है। 40-नोड क्लस्टर के साथ, प्रक्रिया और भी तेज है और $ 100 से कम की कुल लागत के साथ सिर्फ तीन घंटों में पूरी होती है! क्रॉसबो की सटीकता का परीक्षण करने के लिए किए गए एक अध्ययन से पता चला कि यह 99 प्रतिशत सटीकता के साथ प्रत्येक जीनोम की तुलना कर सकता है। क्रॉसबो की एक और सहायक विशेषता यह है कि यह बादल पर चलता है। इस प्रकार, क्रॉसबो भविष्य के हजारों अनुक्रमण केंद्रों को सक्षम करेगा, अस्पतालों की तरह, किसी भी शक्तिशाली, महंगे कंप्यूटर और प्रौद्योगिकी की आवश्यकता के बिना बड़ी मात्रा में जीनोम डेटा का अनुक्रम करने के लिए।

अन्य Hadoop- आधारित जीनोमिक्स सॉफ्टवेयर

कई कंपनियों ने जीनोमिक्स की दुनिया को बदलने में Hadoop की शक्ति को मान्यता दी है। उन्होंने उन्नत जीनोम अनुक्रमण के लिए अपनी क्षमता में टैप करने के लिए Hadoop को उपयुक्त रूप से संशोधित किया है। प्रसिद्ध हडोप-आधारित जीनोम अनुक्रमण समाधान के कुछ उदाहरण नीचे दिए गए हैं:

  • Hadoop-BAM: यह एक शक्तिशाली डेटा प्रबंधन उपकरण है जो जीनोमिक्स से संबंधित विभिन्न गतिविधियों जैसे जीनोटाइपिंग के लिए Hadoop के MapReduce फ़ंक्शन का उपयोग करता है। यह बाइनरी एलाइनमेंट / मैप फॉर्मेट में काम करता है।
  • क्लाउडबर्स्ट: यह हडोप-आधारित समाधान 2009 में बनाया गया था। यह जीनोम अनुक्रमों की तुलना करने और व्यक्तिगत किरणों की मैपिंग करने में बेहद कुशल है। यह भी इस उद्देश्य के लिए डिज़ाइन किए गए पहले Hadoop- आधारित अनुप्रयोगों में से एक है।

निष्कर्ष

बड़े आंकड़ों और जीनोमिक्स उद्योग के बीच एकीकरण आधुनिक समय में एक वरदान साबित हो रहा है। ये प्लेटफॉर्म कैंसर जैसी कई बीमारियों के इलाज की खोज में कारगर हैं। जिन आंकड़ों को जीनोम मैपिंग द्वारा पाया जा रहा है, उनका उपयोग ऐसी बीमारियों की निवारक जानकारी के निर्माण के लिए किया जा सकता है। बड़े डेटा के आगमन को जीनोमिक्स की दुनिया में एक महत्वपूर्ण मोड़ माना जा सकता है, और यदि जानकारी का बुद्धिमानी से उपयोग किया जाता है, तो संभवतः स्वास्थ्य सेवा के व्यापक क्षेत्र में भी। इस क्षेत्र को आगे बढ़ाने का एकमात्र तरीका है Hadoop जैसे उचित डेटा प्रबंधन उपकरण।