विषय
प्रश्न:
क्या कभी बड़े डेटा में बहुत अधिक डेटा हो सकता है?
ए:
प्रश्न का उत्तर एक शानदार YES है। किसी बड़ी डेटा परियोजना में बहुत अधिक डेटा हो सकता है।
ऐसे कई तरीके हैं जिनमें यह हो सकता है, और विभिन्न कारणों से पेशेवरों को सही परिणाम प्राप्त करने के लिए किसी भी संख्या में डेटा को सीमित और क्यूरेट करने की आवश्यकता होती है। (पढ़ें बिग डेटा के बारे में 10 बड़े मिथक।)
सामान्य तौर पर, विशेषज्ञ एक मॉडल में "शोर" से "सिग्नल" को अलग करने के बारे में बात करते हैं। दूसरे शब्दों में, बड़े डेटा के समुद्र में, प्रासंगिक अंतर्दृष्टि डेटा को लक्षित करना मुश्किल हो जाता है। कुछ मामलों में, हस्टैक में एक सुई की तलाश में हैं।
उदाहरण के लिए, मान लीजिए कि एक कंपनी ग्राहक आधार के एक सेगमेंट पर विशिष्ट अंतर्दृष्टि उत्पन्न करने के लिए बड़े डेटा का उपयोग करने की कोशिश कर रही है, और एक विशिष्ट समय सीमा पर उनकी खरीद। (पढ़ें बड़ा डेटा क्या करता है?)
डेटा परिसंपत्तियों की एक बड़ी मात्रा में लेने से यादृच्छिक डेटा का सेवन प्रासंगिक नहीं हो सकता है, या यह एक पूर्वाग्रह भी पैदा कर सकता है जो डेटा को एक दिशा या किसी अन्य में स्केज़ करता है।
यह नाटकीय रूप से प्रक्रिया को धीमा कर देता है, क्योंकि कंप्यूटिंग सिस्टम को बड़े और बड़े डेटा सेट के साथ कुश्ती करनी होती है।
इतने अलग-अलग प्रकार के प्रोजेक्ट्स में, डेटा इंजीनियरों के लिए डेटा को प्रतिबंधित और विशिष्ट डेटा सेटों के लिए क्यूरेट करना बेहद महत्वपूर्ण है - उपरोक्त मामले में, यह केवल ग्राहकों के उस सेगमेंट के लिए डेटा का अध्ययन किया जाएगा, केवल उस समय के लिए डेटा फ्रेम का अध्ययन किया जा रहा है, और एक दृष्टिकोण जो अतिरिक्त पहचानकर्ताओं या पृष्ठभूमि जानकारी को मात देता है जो चीजों को भ्रमित कर सकता है या सिस्टम को धीमा कर सकता है। (ReadJob भूमिका: डेटा इंजीनियर।)
अधिक के लिए, यह देखने का मौका देता है कि यह मशीन सीखने की सीमा में कैसे काम करता है। (पढ़ें मशीन सीखना 101.)
मशीन सीखने के विशेषज्ञ "ओवरफिटिंग" नामक किसी चीज के बारे में बात करते हैं, जहां मशीन निर्माण कार्यक्रम नए उत्पादन डेटा पर ढीला होने पर एक अत्यधिक जटिल मॉडल कम प्रभावी परिणाम देता है।
ओवरफिटिंग तब होती है जब डेटा बिंदुओं का एक जटिल सेट एक प्रारंभिक प्रशिक्षण सेट से बहुत अच्छी तरह से मेल खाता है, और न ही कार्यक्रम को आसानी से नए डेटा के अनुकूल होने की अनुमति देता है।
अब तकनीकी रूप से, ओवरफिटिंग बहुत अधिक डेटा नमूनों के अस्तित्व के कारण नहीं है, बल्कि बहुत अधिक डेटा बिंदुओं की ताजपोशी के कारण भी है। लेकिन आप तर्क दे सकते हैं कि इस प्रकार की समस्या के लिए बहुत अधिक डेटा का योगदान कारक हो सकता है, साथ ही साथ। आयामीता के अभिशाप से निपटने में कुछ ऐसी ही तकनीकें शामिल हैं जो पहले की बड़ी डेटा परियोजनाओं में की गई थीं क्योंकि पेशेवरों ने यह बताने की कोशिश की थी कि वे आईटी सिस्टम को क्या खिला रहे हैं।
लब्बोलुआब यह है कि बड़ा डेटा कंपनियों के लिए काफी मददगार हो सकता है, या यह एक बड़ी चुनौती बन सकता है। इसका एक पहलू यह है कि क्या कंपनी के पास खेलने में सही डेटा है। विशेषज्ञों को पता है कि इसकी सलाह नहीं है कि सभी डेटा परिसंपत्तियों को एक हॉपर में डुबो दें और इस तरह से अंतर्दृष्टि के साथ आएं - नए क्लाउड-मूल और परिष्कृत डेटा सिस्टम में, डेटा को नियंत्रित करने और प्रबंधित करने और अधिक सटीक और व्यवस्थित करने के लिए प्रयास करने के लिए डेटा परिसंपत्तियों का कुशल उपयोग।