वॉयस रिकॉग्निशन टेक्नोलॉजी: मददगार या दर्दनाक?

लेखक: Judy Howell
निर्माण की तारीख: 28 जुलाई 2021
डेट अपडेट करें: 1 जुलाई 2024
Anonim
स्मार्ट हाउस {फनी कमर्शियल}
वीडियो: स्मार्ट हाउस {फनी कमर्शियल}

विषय


ले जाओ:

संवादी इलेक्ट्रॉनिक्स के साथ बातचीत तेजी से आम होती जा रही है - और आवश्यक। लेकिन अभी तक, परिणाम निश्चित रूप से मिश्रित हैं।

क्या आपने कभी किसी कंपनी को कुछ मदद लेने या अपने बिल का भुगतान करने के लिए बुलाया है, केवल एक सुखद रिकॉर्ड की गई आवाज से अभिवादन करने के लिए, जो आपके साथ बातचीत करना चाहता है - लेकिन कैंट आप क्या कह रहे हैं इसका आधा समझें? या हो सकता है कि आपके पास एक आईफोन हो, और जब सिरी पहली बार एक अच्छे सहयोगी की तरह लग रहा था, तो आपको एहसास हुआ कि कभी-कभी (ठीक है, ईमानदार होने देता है, अक्सर) वह बस नहीं मिलता है? वॉयस रिकग्निशन टेक्नोलॉजी (वीआरटी), जिसे स्पीच-टू के रूप में भी जाना जाता है, एक सामान्य जाल में गिर जाता है: इसमें अविश्वसनीय रूप से शांत होने की क्षमता होती है (और लड़के, क्या हम इसके लिए रूटिंग कर रहे हैं), लेकिन अधिक बार, इसके दांत पीसने की कवायद निराशा में।

एक बार जब एक विचार जो विज्ञान कथा के दायरे में था, आवाज पहचान 1950 के दशक में अपनी प्रारंभिक अवस्था से बढ़ी है, जब बेल प्रयोगशालाओं ऑड्रे प्रणाली को एक स्वर में बोले गए अंकों को पहचानने के लिए डिज़ाइन किया गया था, हम संवादी इलेक्ट्रॉनिक्स के आधुनिक नेटवर्क के साथ बातचीत करते हैं दैनिक आधार पर - मिश्रित परिणामों के साथ।

एक मानव से बात करने के लिए, कृपया 0 दबाएं

आज के कई व्यवसाय अब ग्राहक सेवा कॉल को संभालने के लिए संवादात्मक आवाज प्रतिक्रिया (आईवीआर) नामक प्रणालियों का उपयोग करते हैं। सबसे आम उपयोग वॉयस-नेवीगेटेड मेनू के लिए है, लेकिन कुछ कंपनियां आईवीआर सिस्टम का उपयोग करती हैं जो ग्राहक के खाते की जानकारी तक पहुंच सकते हैं और मामूली सवालों के जवाब दे सकते हैं। मेनू आईवीआर सॉफ्टवेयर में आमतौर पर एक सीमित शब्दावली होती है, जिसे "हां," "नहीं" और संख्या तक सीमित किया जा सकता है। अधिक जटिल प्रणालियां कंपनी-विशिष्ट शब्दों और वाक्यांशों को पहचान सकती हैं।

ये सिस्टम अधिक लोकप्रिय हो रहे हैं - कम से कम व्यवसायों के लिए - एक साधारण कारण के लिए: वे लागत प्रभावी। वॉल स्ट्रीट जर्नल की 2010 की रिपोर्ट के अनुसार, एक विशिष्ट ग्राहक कॉल जो एक एजेंट तक $ 3 और $ 9 के बीच पहुंचती है, जबकि एक स्वचालित प्रणाली के माध्यम से कॉल करने पर केवल पांच से सात सेंट का खर्च आता है। और, ज़ाहिर है, कंप्यूटर प्रोग्राम न थकते हैं, न बीमार पड़ते हैं, न ग्राहकों से निराश होते हैं (हालाँकि ग्राहक निश्चित रूप से उनसे निराश हो जाते हैं!)।

सौभाग्य से, इसका मतलब यह नहीं है कि आईवीआर लोगों को नौकरियों से दूर ले जाता है - या कम से कम सभी लोग कॉल सेंटर से गायब हो रहे हैं। ये आवाज सक्रिय मददगार मानव ग्राहक सेवा को कॉल का निर्देशन और सरल सवालों के जवाब देकर अधिक उत्पादक होने की अनुमति देते हैं।

बेशक मानव उपयोगकर्ताओं के लिए जो इन तकनीकों के साथ बातचीत करते हैं, यह हमेशा सहज नौकायन नहीं है। प्रौद्योगिकी आईवीआर प्रौद्योगिकी में आम समस्याओं पर सुधार करने में मदद कर रही है, जैसे कि उच्चारण के साथ परेशानी, लेकिन स्वचालित सिस्टम को बर्खास्त करना अभी भी ऑनलाइन एक सामान्य विषय है। वॉइस रिकग्निशन से लैस एक एलेवेटर के बारे में इस कॉमेडी स्किट को देखें, जो आईवीआर सिस्टम में खराबी पैदा करने वाली हताशा को उजागर करता है।

पर्सनल फोन ऐप्स: सिरी, Google नाओ

ज्यादातर लोग स्मार्टफोन के लिए आवाज पहचान से परिचित हैं। जबकि अधिकांश नवीनतम फोन मॉडल वीआर के साथ आते हैं, उनकी लोकप्रियता - और कुख्याति - जब एप्पल ने सिरी को हल्के ढंग से व्यंग्यात्मक, ध्वनि-सक्रिय "पर्सनल असिस्टेंट" के रूप में 2011 में iPhone 4S के लिए पेश किया। Google ने जल्द ही एक प्रत्यक्षदर्शी बनाया: Google अब एंड्रॉइड जेली बीन ओएस के लिए। दोनों प्रणालियों में फीमेल वॉयस और परिष्कृत पहचान की विशेषताएं हैं जो उपयोगकर्ताओं को आकस्मिक भाषा का उपयोग करके अपने फोन पर "बात" करने देती हैं।

लेकिन जब ये सिस्टम अपने पूर्ववर्तियों की तुलना में काफी अधिक परिष्कृत और कार्यात्मक हैं, तो वे यह भी बताते हैं कि प्रौद्योगिकी अभी भी लंबा रास्ता तय करना है। सिरिस की विफलता के बारे में चुटकुले एक लोकप्रिय इंटरनेट मेमे बन गए हैं। एक व्यक्ति ने भी सिरिस क्षमताओं के बारे में झूठे विज्ञापन के लिए एप्पल पर मुकदमा दायर किया।

शायद यही कारण है कि जबकि Apple ने सिरी को उन्नत और जानकारीपूर्ण बनाने के लिए बनाया था, वीआर सॉफ्टवेयर भी सैसी की तरफ थोड़ा सा है। उदाहरण के लिए, यदि आप 1968 की फिल्म "2001: ए स्पेस ओडिसी" से सिनेमा के इतिहास में सबसे बदनाम खुफिया प्रौद्योगिकी लाइनों में से एक बोलते हैं - "पॉड बे दरवाजे खोलें" - सिरी फिल्म से उत्तर देने वाली रेखा के साथ जवाब देगी, " Im खेद (आपका नाम), Im डर मैं खिचड़ी भाषा है कि, "या अधिक व्यंग्यात्मक," हम खुफिया एजेंटों कि नीचे कभी नहीं रह जाएगा, जाहिरा तौर पर। "

आपको नाम से पुकारना केवल उन कार्यों में से एक है जो सिरी को प्यार करना आसान बनाने की कोशिश करता है, और थोड़ा और मानवीय। वीआर असिस्टेंट कॉल करने, डिक्टेशन और एस लेने के लिए वॉयस कमांड का पालन कर सकता है, सूचनाओं के लिए इंटरनेट सर्च कर सकता है, आस-पास के स्टोर ढूंढ सकता है, ड्राइविंग निर्देश दे सकता है और सभी कुछ भी छूने की जरूरत के बिना। उत्तर फोन द्वारा एक साथ बोले जाते हैं और स्क्रीन पर प्रदर्शित होते हैं।

एंड्रॉइड जेली बीन प्लेटफॉर्म का वीआर हिस्सा Google नाओ, सिरी से काफी मिलता-जुलता है। सिस्टम कैजुअल स्पीच को कमांड में ट्रांसलेट करके समान व्यापक पहचान क्षमता प्रदान करता है जो यूजर्स को कॉल, एस, रन सर्च, कैलकुलेशन और कन्वर्सेशन करते हैं, वर्ड परिभाषाओं को पकड़ते हैं, अलार्म सेट करते हैं, गाने बजाते हैं, और मैप्स और दिशाएं प्राप्त करते हैं।

व्यक्तिगत आवाज सहायकों जैसे सिरी और Google नाओ के साथ, लाभ स्पष्ट हैं। कॉलिंग और आईएनजी से लेकर सर्च और मनोरंजन तक सब कुछ तेज और आसान है। जैसा आप चाहते हैं वैसा ही कहें और (अधिकतर समय) वीआर ऐप आपके लिए इसे पकड़ लेता है। ड्राइविंग करते समय VR की हैंड्स-ऑफ तकनीक विशेष रूप से सहायक है। और जबकि कई लोगों ने सिरीस की खामियों को कम किया है, और लेखकों ने तर्क दिया है कि उपयोगकर्ताओं को अनिवार्य रूप से चलाने के लिए Google Nows की क्षमता दोनों थोड़ा अपमानजनक है, ज्यादातर लोगों को अभी भी लगता है कि ये भविष्यवादी प्रौद्योगिकियां बहुत अच्छी हैं।

बेशक, सिरी और Google नाओ जैसे व्यक्तिगत फोन ऐप परिपूर्ण हैं - हालांकि वे दिखाते हैं कि भविष्य में इस तकनीक का नेतृत्व कहां किया जा सकता है। इसका मतलब यह है कि जब सिरी एक गलत जवाब देता है, तब भी उसे हंसने और माफ करने की संभावना थी, यह जानकर कि अगला संस्करण बहुत बेहतर होगा।

जहां वीआर फॉल्स फ्लैट

यदि आपने कभी एक आईवीआर का सामना किया है, जब आपने एक व्यवसाय कहा है, तो आपने संचार में कुछ बाधाओं को देखा होगा। कुछ कार्यक्रमों में रोबोट-बोलने वाली आवाज का उपयोग किया जाता है जो शब्दों को गलत तरीके से प्रस्तुत करता है और चीजों को समझने में मुश्किल करता है। दूसरों को संवेदनशीलता की समस्या होती है, जिसके परिणामस्वरूप सॉफ्टवेयर प्रक्रिया करने में असमर्थ हो जाता है, जिसे आप कह रहे हैं यदि आप बहुत जोर से, बहुत नरम हैं, या ध्यान से नहीं।

इसके अलावा, बहुत से लोग अभी भी न सिर्फ एक मशीन से बात करने में सहज महसूस करते हैं। यदि आप आईवीआर पर कुछ खोज चलाते हैं, तो आप एनकाउंटर सूची में लोगों को आईवीआर सिस्टम को बायपास करने के तरीकों को एक साथ रखेंगे और एक "वास्तविक व्यक्ति" को प्राप्त करेंगे। यह समाधान "एक ऑपरेटर के लिए 0 दबाए रखें" से लेकर "मशीन की कसम खाता है जब तक कि यह एक मानव प्राप्त नहीं करता है।" नतीजतन, आईवीआर सिस्टम में हालिया विकास का अधिकांश हिस्सा मनुष्यों के लिए उन्हें अधिक स्वादिष्ट बनाने के लिए घूमता रहा है; आवाज़ों को अधिक सहानुभूतिपूर्ण और कम रोबोट बनाते हुए, सिस्टम को नेविगेट करना आसान बना देता है, और कॉल करने वालों को पता चलता है कि शुरू से अंत तक पूरी बात में कितना समय लगेगा। यह बताता है कि बेहतर तकनीक यहाँ केवल आधी लड़ाई है; अन्य आधे को मशीन पर बोलने के साथ उपयोगकर्ताओं को मिल रहा है।

भविष्य के गर्त में क्या छिपा हैं

इन चुनौतियों के बावजूद, आवाज मान्यता प्रौद्योगिकी में हर समय सुधार हो रहा है। सिरी और Google नाओ जैसे एप्लिकेशन - दोष और सभी - अभी भी उनके प्रदर्शन में असाधारण रूप से प्रभावशाली हैं, और कई कंपनियां वीआर क्षमताओं को अन्य अनुप्रयोगों में विस्तारित कर रही हैं।

उदाहरण के लिए, नुअरेन्स, ड्रैगन नेचुरलीस्पीकिंग स्पीच-टू-सॉफ्टवेयर के निर्माता, पहले से ही टीवी और ऑटोमोबाइल के लिए आवाज नियंत्रण विकसित कर चुके हैं, और इस तकनीक के संस्करणों को कुछ सैमसंग टीवी और कुछ फोर्ड वाहनों में इस्तेमाल होने वाले SYNC मनोरंजन प्रणालियों में शामिल किया गया है।

Google और Apple अपनी आवाज पहचान प्रौद्योगिकियों के लिए नए उपयोग करना जारी रखते हैं, इसकी संभावना है कि हर तरह की रोजमर्रा की मशीनों से, हमारे टेलीविज़न से हमारे टोस्टर्स तक तेजी से बात हो रही है। और, एक बार फिर, ऐसा लग रहा है कि विज्ञान कथा सही थी। खैर बस उम्मीद है कि उन चतुर लेखकों को एक बात के बारे में गलत थे। अगर ये मशीनें खत्म हो रही हैं, तो अगली बार जब आप सिरी को "पॉड बे दरवाजे खोलने" के लिए कहेंगे तो आप बहुत परेशानी में पड़ सकते हैं।