मैंने सुना है मृत लोग? नेचुरल लैंग्वेज टेक अतीत बनाता है और वर्तमान आवाजें जिंदा आती हैं

वीडियो: टू किड्स वन एपिक डेयर | डबल डॉग डेयर यू | हायहो किड्स

विषय

एनएलपी में बड़े बदलाव
विवो में "वॉयस" क्रिएशन के लिए रोमांचक
विपणन में कृत्रिम आवाज
आपकी आवाज रहती है
वर्ष 2525 में

ले जाओ:

डिब्बाबंद आवाज़ों को भूल जाओ; वास्तविक लोगों को पुन: प्रस्तुत करना प्राकृतिक भाषा प्रसंस्करण के लिए नया लक्ष्य है।

इन दिनों, अधिकांश कंप्यूटर आवाजें पास हैं। जब आप बिल भुगतान में मदद करते हैं या आपसे पूछते हैं कि आप अपने विभाग में "droid" सुनते हैं तो आप साइबरबॉर्ज और रोबोट के बारे में बहुत उत्साहित नहीं होते। लेकिन क्या होगा अगर आपने अचानक कार्ड की जानकारी के लिए कर्ट कोबेन को आपको सुना है? या जॉन एफ कैनेडी आपको शुरुआती मतदान के चमत्कार के बारे में बता रहे हैं? या एल्विस अपना नाम और पता पाने से पहले "एक हंक, जलते हुए प्यार का एक कबाड़?"

ये सब होगा ... थोड़े अजीब, लेकिन क्या और भी अधिक आकर्षक है कि तकनीक मूल रूप से यहां पहले से ही है। अभी एक दशक पहले, हम कंप्यूटर की क्षमता से चकित थे, यहाँ तक कि बात करने की क्षमता भी। अब, हम मुफ्त में फ़्लॉयर करने वाले हैं, कंप्यूटर जनित आवाज़ें पैदा करता है जो हम जैसे लोगों को पता है।

एनएलपी में बड़े बदलाव

यदि आप प्राकृतिक भाषा प्रसंस्करण (एनएलपी) के क्षेत्र पर ध्यान दे रहे हैं, तो आपने कुछ हालिया अग्रिमों के बारे में सुना होगा जो डिब्बाबंद आभासी सहायक आवाज़ों के प्रकार से परे हैं जो अब हम अपने वैश्विक पोजिशनिंग सिस्टम (जीपीएस) और स्वचालित व्यापार में सुनते हैं। फोन लाइनों।

एनएलपी की शुरुआत को मानव भाषण के सामान्य यांत्रिकी में पूरे शोध की आवश्यकता थी। शोधकर्ताओं और इंजीनियरों को व्यक्तिगत ध्वन्यात्मकता की पहचान करनी थी, वाक्यांशों और वाक्यों को उत्पन्न करने के लिए उन्हें अधिक से अधिक एल्गोरिदम में बदल दिया, और फिर वास्तविक लगने वाली चीज़ को उत्पन्न करने के लिए एक मेटा-स्तर पर सभी को प्रबंधित करने का प्रयास किया। समय के साथ, एनएलपी के नेताओं ने इसमें महारत हासिल कर ली और मनुष्यों के कहने पर समझने के लिए उन्नत एल्गोरिदम का निर्माण शुरू कर दिया। इन दोनों को एक साथ रखकर, कंपनियां आज के आभासी सहायकों और पूरी तरह से डिजिटल बिल-भुगतान क्लर्कों के लिए ड्राइवरों के साथ आईं, जिनकी कार्यप्रणाली - जब गुस्सा - तब भी आश्चर्यजनक है जब आप उन कामों के बारे में सोचना बंद कर देते हैं जो उन में गए थे।

अब, कुछ कंपनियाँ एक अधिक विशिष्ट वैयक्तिकृत परिणाम को एक साथ रखने के लिए जेनेरिक आभासी आवाज से परे जा रही हैं। इसके लिए किसी विशेष व्यक्ति के लेक्सिकॉन के माध्यम से जाने और बड़ी मात्रा में अनूठे वॉयस वीडियो को इकट्ठा करने की आवश्यकता होती है, फिर इस संग्रह को ध्वन्यात्मकता, जोर, ताल और अन्य सभी छोटे संकेतों के लिए जटिल लय में लागू किया जाता है, जो भाषाविद अक्सर "प्रॉसिकोडी" के व्यापक बैनर के तहत समूह बनाते हैं।

जो सामने आता है वह एक ऐसी आवाज है जिसे श्रोता किसी विशेष व्यक्ति द्वारा "स्वामित्व" के रूप में सोचते हैं - या तो कोई व्यक्ति जिसे वे जानते हैं और जिनके साथ बात की है, या किसी व्यक्ति की आवाज़ के कारण वे पहचानते हैं।

एल्विस से लेकर मार्टिन लूथर किंग तक, किसी की भी आवाज़ अब इस तरह "क्लोन" की जा सकती है - बशर्ते उनके भाषण का पर्याप्त पूर्व रिकॉर्ड हो। व्यक्तिगत छोटी ध्वनियों के लिए और भी अधिक विस्तृत विश्लेषण और हेरफेर को लागू करके, कंपनियां किसी की आवाज़ की एक आभासी कार्बन कॉपी बनाने में सक्षम होती हैं जो वास्तविक चीज़ की तरह लगती है।

विवो में "वॉयस" क्रिएशन के लिए रोमांचक

उदाहरण के लिए, विवो, एक कंपनी है जो ऑडीओबूक से लेकर इंटरएक्टिव वॉयस रिस्पॉन्स (आईवीआर) तक सभी तरह के अभियानों के लिए कृत्रिम मानव आवाज़ के इस्तेमाल में क्रांति लाने का काम कर रही है। विवो में, अनुसंधान और उत्पादन टीमें ऐसी प्रक्रियाओं पर काम कर रही हैं, जो सैद्धांतिक रूप से, मृत हस्तियों की आवाज़ों को दोहरा सकती हैं, जैसे कि स्वयं ऑल ब्लू आइज़।

"इस तरह की तकनीक कैसे काम कर सकती है, इस पर बात करते हुए वीवो के सीईओ गेर्शन सिलबर्ट कहते हैं," फ्रैंक सिनात्रा की आवाज को क्लोन करने के लिए, हम वास्तव में उनकी रिकॉर्ड की गई विरासत से गुजरेंगे।

अभी, विवो उन लोगों की आवाज़ों को संग्रहित करने पर काम कर रहा है जो अभी भी हमारे साथ हैं, जैसे कि एनपीआर संवाददाता नील कॉनन, जिन्होंने इस तरह के आईटी अग्रणी प्रोजेक्ट के लिए एक मॉडल के रूप में हस्ताक्षर किए हैं। एक प्रचार वीडियो में पता चलता है कि विवो कार्यकर्ता श्रमसाध्य रूप से कॉनन से प्रदान किए गए वॉयस इनपुट का उपयोग करके ध्वन्यात्मक कोड मॉड्यूल बना रहे हैं। वे फिर भाषण (टीटीएस) उपकरण के लिए मॉडल बनाते हैं जो नाटकीय रूप से मानव और व्यक्तिगत परिणाम उत्पन्न करते हैं।

विवो में रणनीति और व्यवसाय विकास के उपाध्यक्ष बेन फेबेलमैन के अनुसार, कंप्यूटर एक व्यक्तिगत मानव आवाज के लिए एक अभियोजन मॉडल के अनुरूप करने के लिए एक ध्वनि स्तर (भाषण के सबसे छोटे अद्वितीय भागों का उपयोग) पर काम करता है।

"यह जानता है कि आवाज कैसे बात करती है," फैबेलमैन कहते हैं, "इकाई चयन" का उपयोग करके, कंप्यूटर एक एकल छोटे शब्द को एक साथ रखने के लिए कई टुकड़े चुनता है, जैसे "शुक्रवार" शब्द को पांच घटक दिए गए हैं जो विकास में मदद करते हैं एक विशेष जोर और तानवाला परिणाम।

विपणन में कृत्रिम आवाज

तो, विपणन में यह कैसे काम करता है? वीवो के उत्पाद ऑडियोबुक की तरह उत्पाद बनाने में बेहद उपयोगी हो सकते हैं, जो लक्षित दर्शकों तक पहुंच सकते हैं। उदाहरण के लिए, एल्विस की आवाज़ आज के जेनेरिक, डेडपैन, स्वचालित आवाज़ों की तुलना में कितनी अधिक प्रभावी होगी अगर इसका इस्तेमाल मनोरंजन से जुड़े उत्पादों को बेचने के लिए किया जाता?

या, राजनीति में कैसे? Feibleman ऐसे प्रोजेक्ट्स का उपयोग करने के लिए विभिन्न विचारों पर काम कर रहा है, जो कंपनियों या अन्य पार्टियों के लिए विपणन को बढ़ाने के लिए हैं जिन्हें अधिक प्रभावी संदेश की आवश्यकता है।

"यदि आप राष्ट्रपति के लिए चल रहे किसी भी राजनेताओं को जानते हैं, तो इससे 10 मिलियन स्विंग-राज्य मतदाताओं को एक उम्मीदवार से व्यक्तिगत कॉल मिल सकता है, उन्हें उनके समर्थन के लिए धन्यवाद देते हुए, उन्हें बताएंगे कि उन्हें वोट देने के लिए कहां जाना है, मौसम और सभी ट्रिम्मिंग चुनाव से पहले की रात, "फेबिलमैन ने कहा।

आपकी आवाज रहती है

इस प्रौद्योगिकी के सभी के लिए एक और स्पष्ट अनुप्रयोग है। विवो जैसी प्राकृतिक भाषा कंपनियाँ एक ऐसी व्यक्तिगत सेवा बना सकती हैं, जो ग्राहक के सभी वॉयस डेटा को एक उत्पाद में अपलोड करेगी, जो उस व्यक्ति को "हमेशा के लिए बोलने" की अनुमति देगा।

व्यावहारिक रूप से कार्यान्वयन संभवत: हमारे द्वारा बोली जाने वाली आवाज़ों को सुनने और आंतरिक करने के बारे में कई प्रश्न उठाएगा। उदाहरण के लिए, ध्वनि प्रवाह को किसी की तरह ध्वनि बनाने में क्या लगता है? किसी विशेष आवाज़ को पहचानने के लिए हमें एक व्यक्ति को कितनी अच्छी तरह से जानना होगा? और, दिलचस्प बात यह है कि अगर कोई प्राकृतिक भाषा सेवा एक सम्मोहक नकल के बजाय एक कच्ची कैरिकेचर का निर्माण करती है?

परिणाम का मूल्यांकन करते हुए, फेबीलमैन कहते हैं, अक्सर चुनाव के विचार पर निर्भर करता है। उदाहरण के लिए, उनका कहना है कि आमतौर पर बच्चे किसी कहानी के बारे में सवाल नहीं पूछते हैं कि कौन क्या बोल रहा है। उन्हें बस और चाहिए। लेकिन साथ ही, कई वयस्क यह नहीं सोच सकते हैं कि कोई उनसे बात कर रहा है, किसी विशेष परिदृश्य को देखते हुए, जैसे कि निष्क्रिय प्रसारण या फोन। इसके अलावा, फोन पर कंप्यूटर द्वारा बेवकूफ़ बनाया जाना आसान है क्योंकि फंसी हुई ध्वनि कंप्यूटर के परिणामों और एक मानवीय आवाज़ के बीच गड़बड़ या अन्य विसंगतियों का सामना कर सकती है।

"यह आवाज की प्रामाणिकता को चुनौती देने के लिए आपके पास नहीं है," फेलिबलमैन कहते हैं।

वर्ष 2525 में

जैसा कि कंपनियां उत्पादों और सेवाओं को विकसित करने और इन सवालों के जवाब देने के लिए आगे बढ़ती हैं, "जीवित भाषण" प्रौद्योगिकियां हमें प्रौद्योगिकी और मानव मन के उस अभिसरण की ओर अग्रसर कर सकती हैं, जिसे शास्त्रीय रूप से कृत्रिम बुद्धिमत्ता (एआई) कहा गया है।

यदि कंप्यूटर हमारी तरह बोल सकते हैं, तो वे अन्य उपयोगकर्ताओं को यह सोचने में सक्षम करने में सक्षम हो सकते हैं कि वे हमारी तरह सोचते हैं, विलक्षणता के बड़े सिद्धांत को खिलाते हैं, जैसा कि जॉन वॉन न्यूमैन, हमारे 1950 के दशक के एक तकनीकी विशेषज्ञ लेखक द्वारा प्रचारित किया गया था। और रे कुर्ज़वील जैसे विचारक। कुर्ज़विल्स 2005 की किताब, "द सिंगुलैरिटी इज नियर," कुछ को उत्साहित करती है और दूसरों को डराती है। कुर्ज़वील ने भविष्यवाणी की थी कि 2045 तक, एक घटना के रूप में "खुफिया" मानव मस्तिष्क से बहुत अधिक अप्रकाशित हो जाएगा और प्रौद्योगिकी में माइग्रेट हो जाएगा, मशीनों और उनके मानव स्वामी के बीच की रेखाओं को धुंधला कर देगा।

ज़गर एंड इवांस के गीत "इन द इयर 2525" में अमर (कोई भी इन लोगों की तरह डरावना विज्ञान-गाथा नहीं करता) ...

वर्ष 4545 में
आप अपने दांतों की जरूरत नहीं है, अभ्यस्त जरूरत है
तुम्हारी आँखें
तुम चबाने की चीज नहीं खोजोगे
नोबडीज़ आपको देखने वाले हैं

वर्ष 5555 में
आपकी भुजाएँ अपने अंगों पर लटकती हैं
आपके पैरों को करने के लिए कुछ नहीं मिला
कुछ मशीनें आपके लिए ऐसा करती हैं

क्या कंप्यूटर की आवाजें इस दिशा में एक कदम हैं? मानव शरीर के कुछ कार्यों को आउटसोर्स करने के एक नए तरीके के रूप में (या अधिक सामान्यतः, उन्हें अनुकरण करने के लिए), इस तरह की तकनीकी प्रगति सबसे बड़ी में से एक है - और शायद कमतर - क्षितिज पर अग्रिम जैसा कि हम एक एकल भविष्य में देखते हैं । (विल कंप्यूटर में "विलक्षणता" के बारे में और अधिक पढ़ें मानव मन की नकल करने में सक्षम हो?)