Sesli asistanın iyi konuşmasına izin verme başarısı, Google'ın hala size söyleyeceği bir şey var

Yapay zeka, "siyah teknoloji" terimiyle ilgili anlayışımızı hala sürekli olarak altüst ediyor. Bu, Google'ın yeni sesli etkileşim teknolojisinin gösterimini izledikten sonra birçok insanın iç çekişi.

Geçen hafta düzenlenen Google I / O konferansında, Google CEO'su Sundar Pichai (Sundar Pichai) herkese günlük hayatta normal olan bir telefon iletişim bölümü gösterdi: bir berber dükkanı veya bir restoranla randevu almak.

Aradaki fark, bunun Google AI sesli asistanı ile gerçek bir kişi arasındaki bir konuşma olmasıdır. Çok gerçek, basın toplantısında olmasaydı, yapay zekanın kim olduğunu ve kimin gerçek kişi olduğunu basitçe bu kaydı dinleyerek söylemek zor olurdu.

Son olarak Google Duplex adlı yapay zeka asistanı, geçmişte gerçek kişilere ihtiyaç duyan telefonla randevu hizmetini gerçekleştirdi ve aynı zamanda ses asistanının bir sonraki evrimini görmemizi sağlıyor.

Yapay zeka teknolojisinin yardımıyla, insanlar ve sesli asistanlar arasındaki iletişim artık tek yönlü değil, tıpkı insanlar arasındaki bir konuşma gibi çok bölümlü iletişimi doğal ve sorunsuz bir şekilde gerçekleştirebilir.

Bu doğa, aşağıdaki ayrıntılarda somutlaştırılmıştır:

1. Daha duygusal bir ton sandhi, örneğin, soru cümlelerinde duraklamalar olacak ve bazı kelimelerin bariz uzun süreli sesleri olacak;

2. Karşı tarafın cevabının içeriği biraz kafa karıştırıcı olsa bile, Duplex yanıt içeriğini zamanında ayarlayabilir;

3. "um hum" ve "e ..." gibi sesler çıkacaktır;

4. Doğru tepki hızı.

Aslında insanlar günlük konuşmalarda kelime sıralaması mantığına çok fazla dikkat etmezler ve bir cümlede birden fazla anlam olabilir.Bu, Google'ın gösterdiği iki telefonla iletişim vakasına da yansımıştır. Çin alanında ise, çok sayıda sesteş sözcükler veya sesteş sözcükler durumu daha karmaşık hale getirecektir.

Tabii ki, şu anda, Duplex yalnızca "telefon randevusu" alanında insanlarla doğal olarak iletişim kurabiliyor. Google'ın bu pilot alanı seçmesinin nedeni aynı zamanda bu senaryoda çok fazla sorun olmaması ve konuşmaların genellikle zaman, yer ve kişi sayısı gibi anahtar kelimelerden ayrılamaz olmasıdır. Tek ortam, yapay zekanın sahnenin içeriğini daha eksiksiz öğrenebileceği ve hedefli eğitim verebileceği anlamına gelir.

Bununla birlikte, gerçek kişi görüşmelerinin kelime sırasına bağlı olarak, telefon iletişimindeki birçok deterministik mesaj genellikle yalnızca birkaç görüşmeden sonra görünür, örneğin "Önümüzdeki Cuma günü" "Ne zaman?" "Gelecek Cuma, 18 Hayır. "Zaman noktası hakkında bu tür tekrarlanan onay.

Ses asistanı sadece daha akıllı değil, aynı zamanda ses gittikçe daha gerçekçi hale geliyor

Diyalog sorunlarını doğru bir şekilde ele almak için, Duplex işleme akışını kısaca sıralamak için resmi Google AI blogunun içeriğini birleştirdik:

1. Tekrarlayan bir sinir ağı (RNN) modeli oluşturmak ve eğitim için anonim arama verilerini kullanmak için TensorFlow Extended'a güvenmek;

2. İnsan sesi, metin bilgisini önce otomatik konuşma tanıma teknolojisi (ARS) aracılığıyla RNN ağına girecektir, bu da ses özelliklerini ve diyalog geçmişini içerir;

3. RNN tarafından oluşturulan metin, son yanıt içeriği olarak metni konuşmaya dönüştürmek için TTS'yi kullanacaktır.

Bu şekilde, Google Duplex ve diğer birçok yapay zeka da çok benzer. Önce büyük miktarda veriyi analiz edip eğitmeli, verileri kendi başlarına işlemeyi ve tanımayı öğrenmeli ve ardından tahmin sonuçlarını türetmek için uygun bir model kullanmalıdırlar.

Halkın "Duplex'in sesi insana benzer" konusuna önem verdiklerine gelince, bir yandan yapay zekanın tek bir alanda daha derin öğrenme yapabildiği bir önceki makalede belirtilmişken, diğer yandan Google'ın WaveNet dahil metinden konuşmaya kullandığı belirtilmişti. Teknoloji, yapay zekanın tonu ve tonlamayı farklı durumlara göre değiştirmesine ve yüksek kaliteli ve incelikli konuşma üretmesine olanak tanır.

(Resim kaynağı: CNET)

En önemli noktalardan biri "modüler parçacıkların" kullanılmasıdır.İnsanlar da konuşma sürecinde düşünürler ve duraklamalara genellikle bazı modal parçacıklar eşlik eder. Google Duplex'in cevabında bu tür doğal ifadeler duyacağız.Bazıları eğitim anında geliştiriciler tarafından kastedilmiştir ve bazıları birden fazla ses birimini daha iyi aşmayı amaçlamaktadır.

Elbette, "Merhaba" gibi hızlı yanıt gerektiren bazı sorulara yanıt verirken, Google Duplex model hesaplama sonuçlarını beklemeyebilir, ancak önce belirsiz bir yanıt verir ve ardından sonraki içeriğe dayalı olarak resmi bir yanıtla işbirliği yapar.

Bu yöntem, AI'nın yanıt süresini aynı anda daha hızlı ve daha doğal hale getirebilir - sonuçta karmaşık sorunlara çok hızlı yanıt verirseniz, kulağa "insan" ın yapabileceği bir şey gibi gelmez.

Bu "kişisel sesin" doğal ses ifadesi, metinden sese teknolojisinin ilerlemesinden ayrılamaz. Günümüzde pek çok ses asistanında, bir cümle birkaç kelimenin sesini birbirine ekliyor.Yapının kendisi iyi olsa da, tonlama temelde tutarlı değil ve kulağa çok açık geliyor.

En tipik örnek, iş süreçleri için 10086'yı aramamızdır Herkes yanıt sesinin önceden ayarlandığını bilir - bu tür bir ses herhangi bir duygu taşımaz, bu yüzden onu "duyabiliriz".

(Resim kaynağı: Marques Brownlee)

Ancak Google Duplex farklıdır, telaffuzu insanlardan daha standart olabilir.

2016 gibi erken bir tarihte, Google ve DeepMind bize WaveNet adlı derin öğrenmeye dayalı bir konuşma oluşturma modelini gösterdi. Ses çok fazla bilgi içerdiğinden, evrişimli sinir ağı katman istifleme ve geciktirme bağlantısının yanı sıra çok sayıda örnek eğitim kullanır ve üretilen nihai orijinal ses dalga biçimi ritim ve tonlamada çok iyi performans gösterir.

Gerçek Amerikan İngilizcesi konuşma testi oturumunda, WaveNet'in ses puanı zaten insan seviyesine çok yakındır.Cümlenin doğruluğu eklenirse, insandan daha az olamaz.

Duplex, artık WaveNet'in konuşma sentez teknolojisini metinden sese bağlantısında kullanıyor. Aynı zamanda, görüntü tanıma ve çeviri gibi Google bulut bilişim platformu API'leri gibi, WaveNet'in metin okuma hizmeti de Google'ın bulut bilişim hizmetlerinin mevcut satış noktalarından biri haline geldi.

Sadece telefon randevularına değil, sesli iletişim hizmetlerine de talep var

Google'ın planına göre Duplex, restoranlar ve berber dükkanları gibi daha fazla telefon rezervasyonunun olduğu alanlarda test yapmaya başlayan ilk kişi olacak. Daha önce de belirtildiği gibi, telefonla randevu alanına dahil olan çok fazla anahtar kelime yoktur AI yardımıyla, birçok "tekrarlayan iletişim" azaltılabilir.

1. Satıcılar için Duplex tarafından desteklenen rezervasyon sistemini kullanırlarsa, müşteriler çevrimdışı olsalar bile Google Asistan üzerinden rezervasyon yapabilirler.

2. Tatillerde, bazı işletmeler çalışma saatlerini değiştirecek. Şu anda, Duplex'in telefonla yapılan aramalardan sonra, işletmenin kendi işlemi olmadan bilgileri Google aracılığıyla otomatik olarak güncellemesine izin verebilirsiniz ve kullanıcıların onaylamak için tekrar tekrar işletmeyi aramasına gerek kalmaz.

3. Google Duplex'in telefon randevusunu tamamlama işlemi arka planda tamamen otomatiktir.Tamamlandıktan sonra doğrudan cep telefonunda kullanıcıya hatırlatır.Bu engelliler için çok faydalıdır; Duplex'in tanımadığı bir görevle karşılaşırsa kullanıcıya aktarılır Gel ve bitirmeye devam et.

WaveNet metinden konuşmaya teknolojisine gelince, Google bulut bilişim platformuna erişim daha geniş bir alanda kullanılabilir. Google şu anda birkaç pratik uygulama senaryosuna açıklık getirdi:

1. Akıllı TV'ler, arabalar, robotlar ve akıllı hoparlörler gibi IoT cihazlarıyla entegre edin Bunların arasında, sürüş ve oturma odası iki sahne sesli etkileşimin mevcut odak alanlarıdır.

2. Özellikle az önce bahsedilen China Mobile 10086 gibi telefon ses hizmetlerine talebi olan bazı operatör şirketler için daha doğal bir ses ifade sistemi oluşturun.

3. Metin içeriğini (bilgi ve e-kitaplar gibi) podcast'lere ve sesli kitaplara dönüştürün. Asıl odak, antropomorfik okumanın etkisidir.

Ayrıca Microsoft, bu yılki Build 2018 geliştirici konferansında Cortana'nın sesli asistanının çok kişili iş toplantısı senaryolarında kullanımını da gösterdi.

Toplantıda bir koni hoparlör ürünü sergilendi.Sadece yüz tanımayı desteklemekle kalmaz, aynı zamanda birden fazla kişinin sohbetlerini metne dönüştürür ve yorumlanabilen eksiksiz bir toplantı raporu oluşturmak için gerçek zamanlı çeviriyi destekler Toplantıdaki görüşmenin içeriğini gösterin, yapılacakları sınıflandırın ve bir sonraki toplantı zamanını ve toplantı odasını önceden ayarlayın.

Bu sadece bir video gösterimi olsa da, AI sesli asistanının sadece hava durumunu sormaktan ve bir çalar saat ayarlamaktan çok daha fazlası olduğunu da kanıtlıyor.

Ama o bir robot olduğuna göre, neden kasıtlı olarak gerçek bir insan gibi davranıyor?

İş gücü maliyetlerini düşürmek ve verimliliği artırmak için yapay zeka kullanmak, çoğu şirketin her zaman başarmayı umduğu şey olmuştur. Bir yandan, daha yaratıcı ve belirsiz olanlara odaklanabilmemiz için robotlara ve hatta yapay zekaya az önce bahsedilen tekrarlayan, öngörülebilir ve yüksek derecede prosedürel görevleri devretmek için otomatikleştirilmiş araçları kullanabilmeyi umuyoruz, böylece daha yaratıcı ve belirsiz olanlara odaklanabiliyoruz. Daha yüksek faktörlere sahip işler için, ikincisini yapay zeka ile değiştirmek şu anda zordur.

Ancak öte yandan, "yapay zekayı gerçek insanlar gibi gösteren" diğer teknolojiler gibi, Google Duplex'in başlangıcı, kullanıcıların yapay zeka teknolojisi ile ilgili endişelerini de tetikledi.

Oxford İnternet Koleji Dijital Etik Laboratuvarı'ndan Dr. Thomas King şunları söyledi: "Bu Google testi aslında iyi tasarlanmış bir aldatmacadır. İnsanların gerçek insanlarla yapay zekanın seslerini ayırt edemeyeceklerini varsayarlarsa, bir operatör konuştuğunu düşünürse Bir grup bot sohbet ediyor, iletişim yöntemi eskisi gibi kalabilir mi? Kaba olmak sorun olabilir mi? Her neyse, kabalık insanların kalplerini incitmez mi? Bu tür bir düşünce, bir tane alsa bile aklımda kalmaya devam edecek Gerçek bir kişiden arayın. "

"Orijinal olarak sentezlenmiş bir konuşma olduğu için, neden kasıtlı olarak gerçek olanla aynı olsun? Herhangi bir aldatmacanın başarılı bir şekilde gerçekleştirilmesi, güvenin yok olmasına yol açacaktır. Güven kaybetmeye başladığında çökecektir.

Benzer tartışmalar birçok yabancı teknoloji medyasında ve Twitter'da görülebilir. Genel tutum temelde şudur: "İnsanlar robotlar tarafından kandırılmak istemezler."

Google, Duplex'in resmi olarak teste tabi tutulduktan sonra "AI kimliğini göstermesine" izin vereceğini belirtmesine rağmen, özel uygulama yöntemini hala bilmiyoruz. Google gerçekten bu teknolojiyi günlük yaşamın içine sokmak istiyorsa, az önce bahsedilen etik ve ahlaki kaygılardan kaçınamaz.

Akıllı konuşmacıların mevcut ivmesi dikkate alındığında, ses asistanları doğal olarak büyük devlerin odak noktası haline geldi. Konuşma sentezi teknolojisi daha olgunlaştığında, yapay zeka asistanlarının bizimkine benzer sesler çıkarabileceğini hayal etmenin çok zor olmadığı tahmin edilebilir.

Ancak beklentiniz onunla konuşmaksa ve iç düşüncelerinizi tahmin etmeniz gerekiyorsa, şimdi ona bakın, Google muhtemelen sadece teknik sorunlarla karşı karşıya kalmıyor.

Başlık resminin kaynağı: Newsunleashed

Oyuncuya söylediğiniz her "Merhaba", sizi desteklemek için nedenimizdir
önceki
Zafer Kralı Xiahou Dun'un cildi çevrimiçi, Koleksiyoncu Sürümü başlamaya değer mi? Beceri efektleri yeterli!
Sonraki
Taslaktaki ilk düşüşteki en güçlü 165: 2013'te 10 takımdan boylarını yanlış bir şekilde bildirmeleri istendi
Oyunculuk "Wei Monk" popüler oldu, çekimler için depresyondan muzdarip oldu ve sonunda güçlü bir aktör haline geldi, karısıyla birlikte mütevazı mutluluk
Önce Warcraft / Heartstone'un yeni sürümünü deneyimlemek için ChinaJoy Blizzard standına gelin
Onmyoji Ibuki'nin görevi çok mu üzücü? Onmyojilerin "esir" olmasına üzüldü
Şanghay "7, 5 Polis Ailesi": Yılbaşı akşam yemeği için sadece büyükanne ve torunu birbirine eşlik ediyor
Corbyn 1, Kral James Curry'nin kaderini değiştirmeye karar verdi, Aşk Büyük Dörtlü olmalıydı
"People's Daily" Overseas Edition Yorum: E-spor eğitimi eğlenceli olamaz
Bir dövüş sanatları ailesinde doğdu, "Huang Feihong" da popüler oldu, karısıyla alçakgönüllü mutluluk, ancak izleyiciler tarafından unutuldu
Çılgın Şapkacı'nın estetiğine meydan okuyun, IKEA sizi 1980'lere geri götürüyor
King's Glory Five Sacred Beast Skin Değerlendirmesi: Özel efektler ortalama bir his veriyor, ancak oyuncular "gerçek koku" mu diyor?
1980'lerde doğanlar "dedenin yaptığı çay" içti, 10 yaşından sonra doğanlar büyükbabanın yaptığı krepleri yediler ve aynı tadı "tattılar" |
"Vergi servisi" 100 milyon Harden için gerçekten zengin olmak için 200 milyon Curry miydi? Ürdün on bin vergi trajedisine neden oldu
To Top