Microsoft'un diyalog konuşma tanıma, başka bir atılım gerçekleştirerek ilk kez insan profesyonel seviyesine ulaşıyor

1 Xinzhiyuan Tavsiyesi 1

Bir ay önce, 14 Eylül 2016'da, Microsoftun konuşma konuşma tanıma teknolojisi, endüstri standardı Santral konuşma tanıma karşılaştırma testinde kelime hata oranına (WER) ulaştı % 6,3'e kadar düşük atılım , O zaman sahada en düşük hata oranı kaydının oluşturulması.

Bir ay sonra, 18 Ekim'de Microsoft, kelime hata oranını% 5,9'a düşürdü ve ilk kez profesyonel stenograflarınkine eşit ve çoğu insandan daha iyi bir performans elde etti: geçen hafta sonu Microsoft'un yapay zeka araştırma departmanından araştırmacılar ve mühendisler yayınladı. "Diyaloğa Dayalı Konuşma Tanıma Alanında İnsan Eşitliğine Ulaşmak" başlıklı makale, bu kayıt-belirleyici konuşma tanıma sistemini göstermektedir.

% 5,9 kelime hatası oranı, konuşma konuşma tanıma için ne anlama geliyor?

Endüstri standardı Santral konuşma tanıma görev testinde, insan kontrol grubu (profesyonel stenograflardan oluşan) konuşma konuşmasını metne dönüştürdü. Şu anda kaydedilen en düşük kelime hatası oranı% 5,9, yani Microsoft'un konuşma tanıma sisteminin konuşması Tanıma yeteneği, halihazırda dünyadaki insanların büyük çoğunluğununkinden daha yüksektir ve insan profesyonellerle eşit olup, yeni bir dünya rekoru kırmaktadır.

Daha da heyecan verici olan şey, Microsoft'un yapay zeka ve araştırma departmanının% 6,3'ten% 5,9'a yalnızca bir aydan fazla zaman harcaması, bu da bize bilgisayarların insan konuşma tanıma yeteneklerini gerçekten aştığı günün çok da uzak olmadığına inanmamız için neden veriyor. .

Microsoft'un Baş Konuşma Bilimcisi Dr. Xuedong Huang, "Konuşma tanıma alanında, insanlarla aynı seviyeye ulaştık. Bu tarihi bir ilerleme. Bu, bir bilgisayarın tarihte ilk kez insanlar gibi konuşmaları tanıyabileceği anlamına geliyor. Her kelime. Ve ekibimizin, herkesin beklentilerini fazlasıyla aşan bu hedefe ulaşması bir yıldan kısa sürdü. Microsoft Küresel Yapay Zeka ve Araştırma Departmanı Başkan Yardımcısı Dr. Shen Xiangyang bile güldü. "Beş yıl önce bu hedefe ulaşabileceğimize asla inanmazdım." Dedi.

Konuşma tanıma ile ilgili araştırma, 1970'lerde DARPA (Savunma İleri Araştırma Projeleri Ajansı, ABD Savunma Bakanlığı İleri Araştırma Projeleri Ajansı, esas olarak ABD savunma yüksek teknolojisinin araştırma, geliştirme ve uygulamasına adanmış) tarafından finanse edilen ilgili bir projeye kadar geri götürülebilir. Sonraki on yıllarda, giderek daha fazla araştırma kurumu ve büyük şirket katıldı. Microsoft'ta Dil ve Diyalog Araştırma Grubu'ndan sorumlu bir araştırmacı olan Geoffrey Zweig, "Bu atılım, son yirmi yılda konuşma tanıma teknolojisinin sürekli birikiminin sonucudur," dedi.

Konuşma tanımadaki bu dönüm noktası, tüketiciler ve ticari ürünler üzerinde derin bir etkiye sahip olacak çünkü konuşma tanıma teknolojisi, insanların günlük bilgisayar deneyimlerini önemli ölçüde artırabilir. Bu ürünler arasında XBOX gibi eğlence cihazları, Cortana gibi üretkenlik araçları ve gerçek zamanlı sesten metne transkripsiyon sağlayan kişisel yapay zeka asistanları bulunur. "Bu teknoloji Xiaona'yı daha güçlü hale getirecek ve Xiaona'nın asistan servisini daha akıllı hale getirecek." Shen Xiangyang ekledi.

"Atlar İçin Hayal Kurmak"

Geoffrey Zweig, sistemlerinin başarısını, benimsedikleri en son sinir ağı teknolojisine bağladı; araştırmayı nitel bir sıçrama gerçekleştirmenin anahtarı, uzayda sürekli bir vektör olarak temsil edilen bir sinir dili modelini benimsemeleri. , Bilgisayar bu modelden, örneğin "hızlı" ve "hızlı" nın birbiriyle yakından ilişkili eş anlamlılar olduğunu öğrenebilir. "Bu, modelin her kelimeyi tam anlamıyla kavramsallaştırmasına izin veriyor." Zweig açıkladı.

Derin sinir ağları yeteneklerini konuşma tanıma ve görüntü tanıma gibi alanlarda gösterdikçe, bu teknoloji ısınıyor.

Derin sinir ağları, bilgisayar sistemlerini görüntüler veya sesler gibi girdilerden gelen kalıpları tanımak üzere eğitmek için büyük miktarda veri (eğitim setleri adı verilir) kullanır. İnsanlarla aynı tanıma seviyesinin kilometre taşına ulaşmak için Microsoft ekibi, Microsoft tarafından yıllarca biriken teknolojiye dayanan yerelleştirilmiş bir derin öğrenme sistemi olan CNTK'yı kullandı.CNTK araç seti bir yıl önce GitHub'da açık kaynaklıydı ve şu anda Microsoft yapay zeka kişisel asistanı Xiaona'yı içeriyor HoloLens ve karma gerçeklik holografik gözlüklerin konuşma tanıması CNTK'ya dayanmaktadır.

Dr. Xuedong Huang, CNTK ile diğer açık kaynaklı yazılımlar arasındaki en büyük farkın, güçlü performans sağlarken büyük ölçekli, dağıtılmış makine öğrenimi yapabilmesi olduğunu söyledi; Microsoft'un konuşma tanıma teknolojisinin büyük ölçüde kayıtları tekrar tekrar ayarlayabildiği söylenebilir. Yukarıdakiler, ekibin araştırma hızını büyük ölçüde artıran ve nihayet bugün insan profesyonel yeteneklerine uygun olma hedefine ulaşan açık kaynak aracı CNTK'dan kaynaklanmaktadır.

Ödül o kadar çabuk geldi ki 30 yılı aşkın süredir konuşma tanıma araştırmasıyla meşgul olan Dr. Huang bize Sonuçların% 5,9'u sabah 03: 30'da alındı. Birkaç saat sonra uyanana kadar bilmiyordum. Ekip üyeleri başarı sevincini ilk kez sosyal medyada paylaştı ... Bu benim için uzun yıllardır gerçekleşen bir hayal. "

Arka sırada soldan: Wayne Xiong, Geoffrey Zweig, Frank Seide; Ön sırada soldan: Huang Xuedong, Dong Yu, Mike Seltzer, Jasha Droppo, Andreas Stolcke; Fotoğraf: Dan DeLong

Aynı zamanda, Microsoft Research Asia'nın Görsel Hesaplama Grubu'ndan araştırmacılar da kendi alanlarında bir dönüm noktası atılımı gerçekleştirerek görüntü tanıma MS COCO (Bağlamda Microsoft Ortak Nesneler) görüntü bölümleme yarışmasında birinci oldu. isim. Bu zorluk, temel olarak bir görüntüdeki belirli nesnelerin konumunu belirleme tekniklerini inceler. Microsoft Asya Araştırma Araştırma Başkan Yardımcısı Dr. Guo Baining, görüntü bölümleme teknolojisinin zorluğunun insanların hayal gücünün çok ötesinde olduğunu, çünkü bilgisayarın görüntüdeki nesnenin sınırını doğru bir şekilde tanımlaması gerektiğini söyledi. "Bu, görüntü tanımanın en zor kısmı olmalı. "

Ekip geçen yıl çok derin bir sinir ağı sistemi tasarladı, derin artık ağ olarak adlandırıldı (kısaltıldı ResNet, derin artık ağlar ). Sistem piyasaya sürüldüğü anda birçok ödül kazandı.Örneğin, görüntü bölümlemede çığır açan sonuçlar da bu sisteme dayanıyordu. Puan, ikinciliğe göre% 11 daha yüksekti ve geçen yıl COCO Görüntü Segmentasyon Yarışmasında birincilikle karşılaştırıldığında. Ayrıca sıçramalar ve sınırlar da var. Bu bağlamda Dr. Guo Baining gururla, "Microsoft her zaman görüntü tanıma alanında lider olmuştur." Dedi.

Tanınmadan gerçek anlayışa, "% 5,9'da durmayacağız"

Bilim adamları son yıllarda bilgisayarla görme ve konuşma tanıma konusunda büyük atılımlar yapmış olsalar da, ileride hala çok iş olduğunu biliyorlar.

Yine de örnek olarak diyalog konuşma tanıma teknolojisini alırsak, Microsoft ekibinin kelime hata oranı% 5,9 ile profesyonel insan stenografları ile aynı seviyeye ulaşmış olsa da, bu bilgisayarın her kelimeyi mükemmel bir şekilde tanıyabileceği anlamına gelmez. Aslında, insanlar bile mükemmelliğe ulaşamazlar. Bilgisayarların hata oranı, insanlar için genellikle doğru bir şekilde ayırt edilmesi zor olan içerik karşısında bilgisayarların yenileceği anlamına gelir: hem bilgisayarlar hem de insanlar "mavi ince" bulacaktır ve " "Shiitake" ("Rahatsız", "Ağlamak İstiyorum") ile baş etmek kolay değil.

"Çok çalışmaya devam etmeliyiz!" Dedi Zweig. Bir sonraki çabalarından biri, konuşma tanıma teknolojisinin gürültülü sesli arkadaş toplantıları veya gürültülü arka plan gürültüsü olan otoyollarda sürüş gibi daha karmaşık gerçek hayat sahnelerini doğru bir şekilde ayırt edebilmesini ve nasıl geliştirileceğine odaklanabilmesidir. Uygulama yöntemi, bilgisayarın birden fazla kişinin konuştuğu bir durumda her konuşmacıya bir ad vermesine yardımcı olur ve ayrıca bilgisayarın, konuşmacının yaşı, aksanı ve ses düzeyinden bağımsız olarak çeşitli sesleri tanıyabilmesini sağlar.

Uzun vadede, araştırmacılar bilgisayarlara yalnızca insanların ağzından gelen ses sinyallerini kelimelere dönüştürmeyi değil, aynı zamanda insanların sözlerinin anlamını anlamayı da öğretecekler. Bu şekilde, bilgisayar kullanıcının sorularını doğru bir şekilde yanıtlayabilir veya ilgili işlemleri yapabilir. Zweig, "Bir sonraki sınır teknolojisi, tanımadan anlamaya." Dedi.

Daha makro bir perspektiften, Dr. Shen Xiangyang, bilgisayarları anlamamız gereken dünyadan uzaklaştığımıza ve bilgisayarların dünyamızı anlaması gereken dünyaya yavaş yavaş yaklaştığımıza dikkat çekti. Gerçek yapay zeka hala ufkun çok ötesinde. "Bilgisayarlar dilimizi gerçekten anlayabilir. Ya da sinyal vermeden önce, daha gidecek çok yolumuz var. "

Sogou Wang Xiaochuan: Yapay zeka alanındaki hangi teknolojiler ve ürünler dünyayı etkiliyor?
önceki
Dünyadaki birçok ülke çok sayıda ABD tahvili sattıktan ve altını evlerine önceden gönderdikten sonra dünyaya ne olacak?
Sonraki
Çinli alıcıların Londra'da ev satın alması tehlikeli ve konut fiyatları uçurumdan düştükten sonra evlere "el konulabilir" mi?
Doğruyu söyle! Neden iPhone XS Max satın almıyorum?
Tencent Operation Art of War: Kullanıcıları daha iyi anlayan ürün operasyonları nasıl yapılır?
Adam Porsche'yi köye geri götürdü, ancak köylüler tarafından alay konusu oldu: Beş koltuklu bir arabaya bile parası yoktu!
Çin, Rusya ve Hindistan ABD dolarına doğru hareket ettikten sonra, Hindistan ekonomisi ham petrol yuanına yaklaşıyor olabilir
Ağır! Bu yıl kuzey yarımküre aurora programlanandan önce patladı.
Kadın 100.000'den fazla "erkek arkadaşı" tarafından dolandırıldı, ancak polis onun uzun süredir arkadaşını tutukladı ...
Liu Qingfeng, iFLYTEK: Yapay zeka hakimiyeti elinde tutmuyor ve Çin dünya için çalışmaya devam edecek
Mükemmel yarı mamul ürünlerden başlayarak harika ürünler
Çin'deki Japon otomobil satışlarının analiziToyota istikrarlı bir şekilde kazanıyor, Honda toparlanıyor, Mazda düşüyor!
Ekonomist Mervyn King: Altı unsura ek olarak, İngiliz inovasyonu da bu büyüye güveniyor
Anne ve kızı cenazede öldürüldü, polis, katile 200.000 yuan ödül teklif eden gözetleme videosunu yayınladı!
To Top