डेटा खनन और डेटा विज्ञान सीखने के लिए 7 कदम

लेखक: Eugene Taylor
निर्माण की तारीख: 12 अगस्त 2021
डेट अपडेट करें: 22 जून 2024
Anonim
6 महीने में डेटा साइंस सीखने के लिए स्टेप बाय स्टेप रोडमैप | पूरा डेटा विज्ञान रोडमैप
वीडियो: 6 महीने में डेटा साइंस सीखने के लिए स्टेप बाय स्टेप रोडमैप | पूरा डेटा विज्ञान रोडमैप

विषय


स्रोत: पॉल फ्लीट / ड्रीमस्टाइम डॉट कॉम

ले जाओ:

डेटा विज्ञान सबसे अच्छा करके सीखा जाता है, लेकिन आंकड़ों और मशीन सीखने का एक अच्छा आधार भी है।

मुझसे अक्सर पूछा जाता है कि डेटा माइनिंग और डेटा साइंस कैसे सीखें। यहाँ मेरा सारांश है।

आप डेटा माइनिंग और डेटा साइंस सीख सकते हैं, इसलिए जितना हो सके डेटा का विश्लेषण शुरू करें! हालांकि, सिद्धांत को सीखना न भूलें, क्योंकि आपको यह समझने के लिए एक अच्छे सांख्यिकीय और मशीन लर्निंग फाउंडेशन की आवश्यकता है कि आप क्या कर रहे हैं और बड़े डेटा के शोर में वास्तविक सोने की डली खोजने के लिए।

यहां डेटा माइनिंग और डेटा साइंस सीखने के सात चरण हैं। यद्यपि वे क्रमांकित हैं, आप उन्हें समानांतर या एक अलग क्रम में कर सकते हैं।

  1. भाषाएँ: आर, पायथन और एसक्यूएल सीखें
  2. उपकरण: डेटा खनन और विज़ुअलाइज़ेशन टूल का उपयोग करना सीखें
  3. किताबें: मूल सिद्धांतों को समझने के लिए परिचयात्मक किताबें पढ़ें
  4. शिक्षा: वेबिनार देखें, पाठ्यक्रम लें और डेटा विज्ञान में एक प्रमाण पत्र या डिग्री पर विचार करें (बेन लोरिकास में और पढ़ें कैसे एक वैज्ञानिक का पोषण करें।)
  5. डेटा: उपलब्ध डेटा संसाधनों की जाँच करें और वहां कुछ खोजें
  6. प्रतियोगिताएं: डेटा माइनिंग प्रतियोगिताओं में भाग लें
  7. सामाजिक नेटवर्क, समूहों और बैठकों के माध्यम से अन्य डेटा वैज्ञानिकों के साथ बातचीत करें

इस लेख में, मैं डेटा माइनिंग और डेटा साइंस का परस्पर उपयोग करता हूं। मेरी प्रस्तुति, Analytics उद्योग अवलोकन देखें, जहाँ मैं आँकड़ों, ज्ञान की खोज, डेटा खनन, भविष्य कहनेवाला विश्लेषिकी, डेटा विज्ञान और बड़े डेटा जैसे विभिन्न शब्दों के विकास और लोकप्रियता को देखता हूं।


1. भाषा सीखना

हाल ही में केडीएनगेट्स पोल ने पाया कि डेटा माइनिंग के लिए सबसे लोकप्रिय भाषाएं आर, पायथन और एसक्यूएल हैं। उदाहरण के लिए, प्रत्येक के लिए कई संसाधन हैं:

  • आर के साथ डेटा विज्ञान पर मुफ्त ई-पुस्तक
  • डेटा साइंस के लिए पायथन के साथ शुरुआत करना
  • डेटा विश्लेषण के लिए पायथन: वास्तविक विश्व डेटा के लिए चुस्त उपकरण
  • एक अपरिहार्य पायथन: डेटा सोर्सिंग टू डेटा साइंस
  • W3 स्कूल्स लर्निंग एसक्यूएल

2. उपकरण: डेटा माइनिंग, डेटा साइंस और विज़ुअलाइज़ेशन सॉफ़्टवेयर

विभिन्न कार्यों के लिए कई डेटा माइनिंग टूल हैं, लेकिन यह सीखना सबसे अच्छा है कि डेटा माइनिंग सूट का उपयोग कैसे करें जो डेटा विश्लेषण की पूरी प्रक्रिया का समर्थन करता है। आप ओपन-सोर्स (फ्री) टूल्स जैसे KNIME, RapidMiner और Weka से शुरू कर सकते हैं।

हालांकि, कई एनालिटिक्स नौकरियों के लिए आपको एसएएस जानने की जरूरत है, जो प्रमुख वाणिज्यिक उपकरण है और व्यापक रूप से उपयोग किया जाता है। अन्य लोकप्रिय एनालिटिक्स और डेटा माइनिंग सॉफ़्टवेयर में MATLAB, StatSoft STATISTICA, Microsoft SQL Server, Tableau, IBM SPSS Modeler और Rattle शामिल हैं।


नो बग्स, नो स्ट्रेस - योर स्टेप बाय स्टेप गाइड बाय स्टेप गाइड टू लाइफ-चेंजिंग सॉफ्टवेर विदाउट योर लाइफ

जब कोई भी सॉफ़्टवेयर गुणवत्ता की परवाह नहीं करता है तो आप अपने प्रोग्रामिंग कौशल में सुधार कर सकते हैं।

विज़ुअलाइज़ेशन किसी भी डेटा विश्लेषण का एक अनिवार्य हिस्सा है। Microsoft Excel (कई सरल कार्यों के लिए अच्छा), आर ग्राफिक्स, (विशेषकर ggplot2), और भी झांकी का उपयोग करना सीखें - विज़ुअलाइज़ेशन के लिए एक उत्कृष्ट पैकेज। अन्य अच्छे विज़ुअलाइज़ेशन टूल में TIBCO Spotfire और Miner3D शामिल हैं।

3. किताबें

कई डेटा माइनिंग और डेटा साइंस की किताबें उपलब्ध हैं, लेकिन आप इन्हें जांच सकते हैं:

  • डाटा माइनिंग एंड एनालिसिस: फंडामेंटल कॉन्सेप्ट्स एंड अल्गोरिदम, मुफ्त पीडीएफ डाउनलोड (ड्राफ्ट), मोहम्मद जकी और वैगनर मीरा जूनियर द्वारा।
  • डाटा माइनिंग: प्रैक्टिकल मशीन लर्निंग टूल्स एंड टेक्निक्स, इयान विटेन, आइब फ्रैंक एंड मार्क हॉल द्वारा, वेका के लेखकों से, और उदाहरणों में वीका का बड़े पैमाने पर उपयोग करना
  • ट्रेवर हैस्टी, रॉबर्ट टिब्शिरानी, ​​जेरोम फ्रेज़मैन द्वारा सांख्यिकीय शिक्षा, डेटा खनन, आविष्कार और भविष्यवाणी के तत्व। गणितीय रूप से उन्मुख के लिए एक महान परिचय
  • लायनबुक: लर्निंग एंड इंटेलिजेंट ऑप्टिमाइजेशन, रॉबर्टो बैटी और मौरो ब्रूनो द्वारा, वेब पर, स्वतंत्र रूप से उपलब्ध चैप्टर द्वारा
  • ए। राजारमन, जे। उलेमन द्वारा बड़े पैमाने पर डेटासेट बुक का खनन
  • स्टेटसॉफ्ट इलेक्ट्रॉनिक स्टेटिस्टिक्स बुक (फ्री) में कई डेटा माइनिंग विषय शामिल हैं

4. शिक्षा: वेबिनार, पाठ्यक्रम, प्रमाण पत्र और डिग्री

आप एनालिटिक्स, बिग डेटा, डेटा माइनिंग और डेटा साइंस में नवीनतम विषयों पर कई मुफ्त वेबिनार और वेबकास्ट देखकर कुछ शुरू कर सकते हैं।

कई ऑनलाइन पाठ्यक्रम भी हैं, छोटे और लंबे, उनमें से कई मुफ्त हैं। (ऑनलाइन शिक्षा निर्देशिका केडीएनगेट्स देखें।)

विशेष रूप से इन पाठ्यक्रमों की जाँच करें:

  • मशीन लर्निंग, कोर्टेरा में, एंड्रयू एनजी द्वारा सिखाया जाता है
  • EdX में डेटा से सीखना, कैल्टेक के प्रोफेसर यासर अबू-मुस्तफा द्वारा सिखाया गया
  • एप्लाइड डाटा साइंस में ऑनलाइन कोर्स, साइराक्यूज आईस्कूल से खोलें
  • वीका के साथ डाटा माइनिंग, मुफ्त ऑनलाइन कोर्स
  • डेटा खनन में एक सेमेस्टर-लंबे परिचयात्मक पाठ्यक्रम, मेरे डेटा माइनिंग कोर्स से मुफ्त ऑनलाइन स्लाइड की जाँच करें

अंत में, डेटा माइनिंग में सर्टिफिकेट और डेटा साइंस या एडवांस डिग्री जैसे डेटा साइंस में मास्टर्स डिग्री हासिल करने पर विचार करें।

5. डेटा

आपको विश्लेषण करने के लिए डेटा की आवश्यकता होगी - डेटा खनन के लिए डेटासेट की केडनगेट्स निर्देशिका देखें, जिसमें शामिल हैं:

  • सरकार, संघीय, राज्य, शहर, स्थानीय और सार्वजनिक डेटा साइटें और पोर्टल
  • डेटा एपीआई, हब, मार्केटप्लेस, प्लेटफॉर्म, पोर्टल और सर्च इंजन
  • मुफ्त सार्वजनिक डेटासेट

6. प्रतियोगिताएं

फिर, आप सबसे अच्छा करके सीखेंगे, इसलिए कागल प्रतियोगिताओं में भाग लें। शुरुआत प्रतियोगिताओं से करें, जैसे कि प्रिडिक्टिंग टाइटैनिक सर्वाइवल यूजिंग मशीन लर्निंग।

7. सहभागिता: बैठकें, समूह और सामाजिक नेटवर्क

आप कई साथियों के समूह में शामिल हो सकते हैं। Analytics, बिग डेटा, डेटा माइनिंग और डेटा साइंस के लिए शीर्ष 30 लिंक्डइन समूह देखें।

एनालिटिकब्रिज एनालिटिक्स और डेटा साइंस के लिए एक सक्रिय समुदाय है।

आप एनालिटिक्स, बिग डेटा, डेटा माइनिंग, डेटा साइंस और नॉलेज डिस्कवरी पर कई मीटिंग और सम्मेलनों में भाग ले सकते हैं।

इसके अलावा, ACM SIGKDD में शामिल होने पर विचार करें, जो वार्षिक KDD सम्मेलन का आयोजन करता है - क्षेत्र में अग्रणी शोध सम्मेलन।

यह लेख KDNuggets.com से रीड किया गया है। लेखक से अनुमति लेकर इसका उपयोग किया गया है।