Apple'ın en son ses teknolojisi ortaya çıktı! Siri'nin gecikmesi% 60 azaldı ve çok dilli "alay etmeyi" destekliyor

Akıllı şeyler (genel hesap: zhidxcom) düzenlendi | Wei Shiwei

Yabancı medya VentureBeat'e göre 4 Şubat'ta Wisdom News, geçtiğimiz hafta Apple konuşma tanıma alanında ses tetikleme algılama, konuşmacı doğrulama ve çoklu hoparlör doğrulamasını iyileştirmeye odaklanan bir dizi araştırma makalesi yayınladı. Dil tanıma teknikleri.

Aslında Apple, konuşma tanıma alanındaki teknik araştırmalara her zaman büyük önem vermiştir. Şu anda, platformlar arası sanal asistanı Siri, dünya çapında 500 milyondan fazla kullanıcıyı kapsamıştır.

Yakın tarihli bir makalede Apple, ses yardımcısının popüler kelimeleri ve çok dilli konuşmacıları tanımasına yardımcı olmak için kendi AI ses teknolojisini de ayrıntılı olarak açıkladı.

1. Hoparlör doğrulama ve sesle tetikleme algılama

Apple araştırmacıları, "HOPARLÖR DOĞRULAMASI VE SES TETİKLEYİCİ TESPİTİ İÇİN ÇOK GÖREVLİ ÖĞRENME" adlı makalede, eğitimden sonra otomatik konuşma tanıma ve konuşmayı aynı anda gerçekleştirebilen bir yöntem önerdiler. İnsan tanıma görevleri için AI modeli.

Araştırmacılar kağıda, kişisel ses asistanı tarafından tanınan komutların genellikle tetikleme ifadesini algılamak için iki adım gerektiren "Hey, Siri" gibi bir tetikleyici cümle ile ön ekli olduğunu belirtti.

Birincisi, ses tetikleme algılamadır, AI modeli, giriş sesindeki ses içeriğinin tetikleyici ifadenin ses içeriğiyle eşleşip eşleşmediğini belirlemelidir; ikincisi konuşmacı doğrulamadır, AI modeli konuşmacının sesinin bir veya daha fazla kayıtlı kullanıcıyla eşleşip eşleşmediğini belirlemelidir. Sesi eşleştirin.

Bu iki görev genellikle bağımsız olarak değerlendirilir, ancak araştırmacılar, AI modelinin konuşmacı hakkındaki bilgisinin ses sinyalindeki konuşma içeriğini çıkarmaya yardımcı olabileceğine ve bunun tersi olduğuna ve böylece bu iki niteliğin tahmin edilmesine yardımcı olabileceğine inanırlar.

Modelin sol kolu, ses tetikleme detektörüdür; sağ kol, hoparlör doğrulama modelidir; düz yatay ok, sabit ağırlıklı katmanı gösterir; noktalı ok, sabit ağırlık katmanı olmaması olasılığını gösterir

Buna dayanarak, araştırmacılar ses ve konuşmacı bilgilerini öğrenebilen üç set AI modeli tasarladı.

16.000 saatten fazla açıklamalı örnek içeren bir dizi ses veri seti üzerinde eğitim aldılar. Bunların arasında 5000 saatlik ses konuşma ile etiketlendi ve geri kalanında yalnızca hoparlör etiketleri vardı.

Eğitimi tamamladıktan sonra, korpusu daha da zenginleştirmek için 100'den fazla denek, bir dizi akustik ayarı test etmek için akıllı hoparlör cihazları kullandı. Bunların arasında, akustik ayarlar arasında sessiz bir oda, odadaki TV veya mutfak aletlerinden gelen harici gürültü ve bir teyp kaydedici tarafından çalınan müzik bulunur.

Araştırmacılar aynı zamanda yapay zeka modelinin "yanlış alarm oranını" ölçmek için 2000 saat ardışık TV, radyo ve podcast ses kaydı eklediler.

Sonuçlar, AI modelinin konuşma ve konuşmacı bilgilerini öğrenme yeteneğinin aynı sayıda parametreye (eğitim sürecinin belirli özelliklerini kontrol eden değişkenler) sahip olmasına rağmen, her görevin doğruluğunun en azından temel model ile aynı olduğunu göstermektedir.

Aslında, bu üç yapay zeka modelinden biri, birden çok ortamda konuşmacı doğrulama karşılaştırmasını geride bırakıyor ve "metinden bağımsız" görev karşılaştırmasına kıyasla% 7,6 iyileştirmeye sahip.

"Bu sonuçların ilginç bir özelliği, modelin ilgisiz veri kümeleri üzerinde eğitilmiş olmasıdır, yani her ses örneğinin bir konuşma etiketi veya bir hoparlör etiketi vardır ve hiçbir zaman ikisine birden sahip değildir." Gazetede belirtilen personel.

Buradan, bu test sonucunun esnek bir AI ses tasarımını doğruladığı görülebilir. Bu tasarımda, araştırmacılar, her eğitim örneği için birden fazla etiket almak yerine, farklı görevler için eğitim verilerini birbirine bağlayarak birden çok ilgili görev için modeller eğitebilirler.

Araştırmacılar, "Pratik bir bakış açısıyla, iki görev arasında hesaplamaları paylaşmanın bu tasarımı bellek, hesaplama süresi, bekleme süresi ve cihazda tüketilen güç veya pil miktarından tasarruf sağlayabilir." Dedi.

2. Yanlış tetikleyicileri azaltın

Apple'ın bir başka ek çalışması, ses asistanının Siri gibi bir sesli asistanın sesini kasıtlı olarak görmezden geldiği yanlış tetikleyicileri azaltma görevini ele alıyor.

Araştırmacılar, bir grafik sinir ağı (GNN) olan bir grafik yapısı üzerinde çalışan bir AI modeli kullandıklarını söylediler. Modelin her bir düğümü bir etiketle ilişkilendirilir ve amaç, düğümün etiketini temel gerçekler olmadan tahmin etmektir.

"Sesle tetiklenen akıllı asistanlar genellikle kullanıcının isteğini dinlemeye başlamadan önce tetikleyici ifadenin tespitine güvenirler ... yanlış tetikleyiciler genellikle arka plan gürültüsünden veya tetikleyici ifadeye benzer seslerden kaynaklanır." Yanlış tetikleme, gizlilik merkezli, müdahaleci olmayan bir akıllı asistan oluşturmanın önemli bir yönüdür.

Apple araştırmacıları, gelecekteki çalışmalarda, grafik sinir ağı tabanlı işlemeyi, kullanıcı amaç sınıflandırması gibi diğer görevlere genişletmeyi planlıyor.

3. Çok dilli konuşmacı tanıma

Apple araştırmacıları, "Çok dilli kullanıcıların dil tanıma becerilerinin iyileştirilmesi (ÇOK DİLİ KONUŞMACILAR İÇİN DİL KİMLİĞİNİN GELİŞTİRİLMESİ)" başlıklı makalede, çok dilli kullanıcılar için özel olarak tasarlanmış bir konuşmacı dil tanıma sistemini keşfettiler.

Araştırmacılar, dil tanıma sisteminin çoğu dil için yüksek doğruluğa sahip olduğunu, ancak çoklu dil kombinasyonları durumunda sistemin performansının tatmin edici olmadığını söyledi.

Aslında öyle. The Washington Post tarafından yapılan yakın tarihli bir araştırmaya göre, Google ve Amazonun akıllı konuşmacılarının Amerikalı kullanıcıların aksanlarını anlama olasılıkları Amerikan olmayan aksanlara göre% 30 daha yüksek.

Buna ek olarak, Switchboard gibi bir külliyatın Amerika Birleşik Devletleri'ndeki belirli bölgelerden kullanıcılara karşı ölçülebilir bir eğime sahip olduğu kanıtlanmıştır.Koruma ayrıca IBM ve Microsoft gibi şirketler tarafından konuşma modellerinin hata oranını değerlendirmek için kullanılan bir veri kümesidir.

Apple araştırmacıları, bu sorunu çözmek için 60'tan fazla bölgedeki konuşmacılar için kararlar alabilen bir dikte sistemine kullanım modelleri hakkındaki bilgileri entegre etti.

Akustik model alanı doğruluğu

Akustik alt model, konuşma sinyali tarafından iletilen bilgilere dayalı olarak tahminlerde bulunur ve bağlama duyarlı tahmin bileşeni, çeşitli etkileşimli bağlam sinyallerini dikkate alır. Model, en iyi tek dilli otomatik konuşma tanıma sistemini seçmek için bu iki tahmini kullanır.

Bunlar arasında bağlam sinyali, komutun yayınlanması durum bilgisini, kurulu komut dili ortamını, halihazırda seçilmiş olan komut dili ortamını ve kullanıcı komutu vermeden önce komut dili ortamının değiştirilip değiştirilmeyeceği hakkındaki bilgileri içerir.

Daha da önemlisi, konuşma sinyalinin akustik modeller aracılığıyla güvenilir tahminler üretemeyecek kadar kısa olduğu durumlarda yardımcı olabilirler. Örneğin, kullanıcı hem İngilizce hem de Almanca yüklerse, "naIn" gibi kısa belirsiz cümleler Almanca'da negatif "nein" ve İngilizce'de "dokuz" olabilir.

Sistemi değerlendirmek için, araştırmacılar ayrıca modeldeki "nüfus seviyesi" kullanım modellerini daha iyi yansıtabilen "Ortalama Kullanıcı Doğruluğu" (AUA) adlı özel bir gösterge geliştirdiler.

Çok dilli konuşmacıların dahili külliyatında eğitilmiş 128.000 sözlü söz ve buna karşılık gelen etkileşimli bağlam bilgisine sahip tüm dil kombinasyonlarında, ortalama doğruluk oranı% 87'dir. Temel ile karşılaştırıldığında, en kötü durumu Doğruluk oranı da% 60'tan fazla arttı.

Ayrıca araştırma ekibi, hesaplama doğruluğunu ve modelin cihazda çalıştırılmasının gecikmesini dengelemek için parametreleri ayarladıktan sonra, ortalama gecikme 2 saniyeden 1,2 saniyeye düşürüldü ve AUA üzerindeki etki% 0,05'i aşmadı.

Sonuç: Konuşma tanıma teknolojisinin daha da iyileştirilmesi ve olgunlaştırılması gerekiyor

Günümüzde konuşma tanıma, insanların cep telefonlarında, bilgisayarlarında, akıllı hoparlörlerinde, giyilebilir cihazlarında ve diğer platformlarda ve cihazlarda giderek önemli bir uygulama "penceresi" haline geldi. Ayrıca, kullanıcıları etkileyen konuşma ve dil tanıma doğruluğu için giderek daha önemli hale geliyor. Ürün deneyimi.

Bununla birlikte, mevcut teknolojik gelişmeden yola çıkarak, konuşma tanıma teknolojisinin uygulanmasının hala yanlış tetikleme ve çok dilli tanımanın düşük doğruluğu gibi birçok sınırlaması vardır. Konuşma tanıma alanında önemli bir oyuncu olan Apple'ın konuşma tanıma konusundaki çeşitli araştırmaları da bu teknolojinin gelişimini ve mükemmelliğini bir ölçüde teşvik etti.

Gelecekte, teknoloji olgunlaşmaya ve yenilik yapmaya devam ettikçe, akıllı ses asistanları, insanların günlük yaşamlarında ve işlerinde insan temizlikçiler ve asistanlarla karşılaştırılabilecek önemli uygulamalar haline gelebilir.

Makale kaynağı: VentureBeat

Kağıt bağlantıları: 1. "HOPARLÖR DOĞRULAMASI VE SESLİ TETİKLEYİCİ TESPİTİ İÇİN ÇOK GÖREVLİ ÖĞRENME" https://arxiv.org/pdf/2001.10816.pdf 2. "HOPARLÖR DOĞRULAMASI VE SESLİ TETİKLEME TESPİTİ İÇİN ÇOK GÖREVLİ ÖĞRENME) Dil kullanıcılarının dil tanıma yeteneği (ÇOK DİLİ KONUŞMACILAR İÇİN DİL KİMLİĞİNİN GELİŞTİRİLMESİ) "https://arxiv.org/pdf/2001.11019.pdf

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Akıllı şeyler akşam haberleri: sıcaklık ölçümü 5G devriye robotu maskesiz çevrimiçi oluyor, yüksek vücut sıcaklığı için otomatik alarm
önceki
Ağır! Zhongguancun, zatürree ile mücadeleye katılmak için bir gecede 138 siyah teknoloji topladı
Sonraki
"İnsan Köpek Savaşı" nın arkasındaki kahraman! Google TPU'yu tek bir makalede okuyun: Cloud AI chip öncüsü
Çin cep telefonu pazarı 2019 karne! Huawei sıralamaya hakim ve küçük oyuncular çaresizlik içinde "indirme ekli"
Çin Bilimler Akademisi 2019 Küresel Yapay Zeka Geliştirme Teknik Raporu! Sekiz anahtar teknoloji Çin yükseliyor
Çin Atılımı: İki yıl üst üste dünyanın ilk robot tüketimi! Yangtze River Delta Robot Endüstrisini Başlatma
Xi Jinping, "tehlike" ve "fırsatı" açıklamak için bahar mevsiminin sonlarında Zhejiang'a gitti.
Milli Gün'de, ulusal bayrağı yükseltmek için güneybatı Guizhou'daki 100 metrelik ıssız dağa tırmandı ... Bu video geçen yıl ödülü kazandı, bu yıl sıra kimde?
Salgının ilk patlak verdiği İtalya valisi, Çin valisini okyanus ötesi videoya davet ediyor
Sınıftan "canlı gösteriye", evde öğretmek bebeğe bakmakla ilgilenir. Öğretmen Liu çok meşgul ...
Tabana Yılbaşı ziyareti | Shanghai Minhang, salgını önlemek ve kontrol etmek için 509 parti üyesi komando kurdu
Evde kalın, ücretsiz e-kitap okuyun veya Matematik Olimpiyatı dersleri alın
Brexit ile Premier Lig'in "Dünya 1 Numaralı Lig" unvanı kaybedilecek mi?
73 yaşındaki Akademisyen Li Lanjuan, kritik hastaları tedavi etmek için Wuhan'a bir sağlık ekibi götürdü
To Top