Tam platformlu bir konuşma tanıma yarışmasında ilk kez, iFLYTEKin Yitu BAT algoritmaları büyük ölçüde farklılık gösteriyor

Yapay zeka şirketi YITU Technology, 11 Aralık'ta Çin konuşma tanıma teknolojisindeki en son gelişmeyi duyurdu. Dünyanın en büyük Çin açık kaynak veritabanı AISHELL-2'de, Yitu'nun kısa ses diktesinin kelime hata oranı (CER) yalnızca% 3.71'dir, bu da mevcut rekoru büyük ölçüde yenileyen orijinal endüstri liderinden yaklaşık% 20 daha yüksektir. Yitu ayrıca, Yitu ses açık platformunu başlatmak için Microsoft Azure ile işbirliği yaptı ve Yitu'nun önde gelen ses tanıma teknolojisini çok çeşitli üçüncü taraf uygulama geliştiricilerine sunan ve akıllı ses endüstrisinin ilerlemesini ortaklaşa destekleyen "Akıllı Ses Ortak Çözümü" nü yayınlamak için Huawei ile işbirliği yaptı. .

Yitu'nun Baş İnovasyon Sorumlusu Dr.Hao Lu

Ses tanıma teknolojisi olgun olmaktan uzak ve teknik şeffaflık zayıf

Son yıllarda, derin öğrenmenin patlaması konuşma tanıma teknolojisinin hızlı gelişimini sağlamıştır, ancak doğruluk açısından yüz tanımanın yüksek büyüme oranıyla karşılaştırıldığında, konuşma tanımanın gelişimi hala nispeten yavaştır. Bazı kurumlar insan seviyesine ulaşmayı teşvik etseler de, çoğu durumda sessiz ve yakın alan gibi kısıtlı sahnelerden geliyorlar. Telefon, ses programları ve uzak alan gibi daha karmaşık senaryolar için, hedeflenen bir şekilde farklı modellerin geliştirilmesi gerekir.Ancak, pratik uygulamalardaki belirsizlik, ideal ve gerçek arasında hala büyük bir boşluk bırakarak, uygulama senaryolarında daha büyük atılımlar elde etmeyi zorlaştırmaktadır.

Konuşma tanıma için konuşma hızı, ses, ton, aksan vb. Tanımanın doğruluğunu önemli ölçüde etkiler. Genelde kelime hata oranının% 3'ten az olduğunda okunabilirliği etkilemeyeceğine ve% 15'i aştığında okunabilirlik olmadığına inanılmaktadır. Bu iki veri, konuşma tanımanın iki kırmızı çizgisi olarak düşünülebilir ve farklı senaryolarda, farklı algoritmaların performansı çok farklı olabilir. Çince konuşma tanıma teknolojisi alanında, Çince'nin genişliğinin ve derinliğinin getirdiği homofonik anlaşmazlık gibi sorunlar, konuşma tanımanın işleme zorluğuna büyük zorluklar getirdi ve son kullanıcı deneyimini önemli ölçüde etkiledi.

Yitu'nun Baş İnovasyon Sorumlusu Dr. Hao Lu, "Ses tanıma teknolojisi uzun bir gelişme ve evrim geçirdi, ancak şimdiye kadar yalnızca sınırlı senaryolarda daha iyi sonuçlar elde edebilir. Temel teknolojideki atılımın hala devam ettiğine inanıyoruz. Çince konuşma tanımanın geliştirilmesinin anahtarı şu anda kırılmış durumda. Konuşma tanıma alanında, Yitu Technology bir birinci sınıf öğrencisi, ancak endüstri yeniliği ve gelişimini teşvik etmeye ve dünyanın en iyi Mandarin Çincesi konuşma tanıma teknolojisi olmaya kararlı.

Xunfei Yitu BAT algoritmaları büyük ölçüde farklılık gösterir ve Xunfei Yitu ilk sırada yer alır

Sektördeki orijinal liderlerle karşılaştırıldığında, Yitu tarafından başlatılan Çince konuşma tanıma algoritması, yalnızca tanıma doğruluğunu büyük ölçüde iyileştirmekle kalmadı, aynı zamanda tek bir algoritma modelinde mükemmel çoklu senaryo uygulanabilirliğine de sahip. Yakın alan aksan testi seti, yakın alan sessiz sohbet testi seti, ses programı test seti, telefon test seti ve üçüncü şahıslardan gelen uzak alan test setinin yanı sıra sektörde yakın zamanda piyasaya sürülen AISHELL-2'nin üç test alt grubu resme göre Sektörde lider düzeydedir ve kelime hata oranının neredeyse tamamı% 15'in altındadır. Bunların arasında, AISHELL2-2018A-EVAL veri setinde, Yitu'nun tanıma doğruluk oranı% 96.29'a kadar yükseliyor ve kelime hata oranı (CER) sadece% 3.71, bu da endüstrinin ikinci sırasının yaklaşık% 20 önünde. "Dikte Konferansı" WeChat uygulaması sayesinde kullanıcılar, sektörde ilk kez olan konuşma tanıma teknolojisinin gerçek performansını sezgisel olarak hissedebilir ve çeşitli algoritmalardaki farklılıkların seviyesini açık ve şeffaf bir şekilde deneyimleyebilirler.

AISHELL-2, AISHELL Vakfı ve Hill Shell tarafından açıklanan 1.000 saatlik veri ölçeğine sahip açık kaynaklı bir veritabanıdır ve şu anda dünyanın en büyük Çin açık kaynak veritabanıdır. Çin'in farklı aksan bölgelerinden 1991 konuşmacılar tarafından kaydedildi, profesyonel ses düzelticileri tarafından yazıya döküldü ve işaretlendi ve sıkı kalite denetimlerinden geçti. Veritabanı metin doğruluk oranı% 96'nın üzerindedir. Kaydedilen metin uyandırma sözcükleri, sesle kontrol sözcükleri ve zeka içerir. Ev mobilyası, sürücüsüz, endüstriyel üretim vb. Dahil 12 alan

Dikte Konferansı Mini Programı

Çin konuşma tanıma makineleri ile insanlar arasında hala bir boşluk var ve sektörün daha alması gereken uzun bir yolu var

Konuşma tanıma alanındaki teknolojik atılımlara dayanan YITU ve Microsoft, ortaklıklarını daha da derinleştireceklerini ve YITU Voice Open Platform'u ortaklaşa başlatacaklarını duyurdu. Platform, çok çeşitli üçüncü taraf uygulama geliştiricilerine açık sektör lideri ses tanıma teknolojisi yetenekleri olan Microsoft Azure bulutuna dayalı olacak ve kullanıcılara ve müşterilere daha kapsamlı hizmetler ve daha iyi deneyim sağlamak için birlikte çalışacak. Açık sesli platformun ortak olarak piyasaya sürülmesinden sonra, YITU ve Microsoft, birlikte bir AI ekosistemi oluşturmak için akıllı ses alanında daha fazla işbirliği yapacak.

YITU ve Huawei ayrıca YITU Ses Açık Platformu, Huawei'nin tam yığın, tam senaryo Ascend serisi yongalar ve veri merkezi için Atlas 300 AI hızlandırıcı kartına dayanan "Akıllı Ses Ortak Çözümü" nü ortaklaşa piyasaya sürdü. Güçlü teknik araştırma ve geliştirme yetenekleri, yazılım ve donanımı entegre eden ortak bir çözüm oluşturmak için ekolojik hizmet yetenekleriyle derinlemesine entegre edilmiştir. Bu çözümle, üçüncü taraf uygulama geliştiricileri, geliştirme verimliliğini daha da artırabilir ve endüstri lideri ses teknolojisinden yararlanabilir.

Konuşma tanıma, AI'nın dünya anlayışının en önemli parçası ve aynı zamanda insan-insan etkileşimi ve insan-bilgisayar etkileşimi için en önemli giriş. Yitu Teknolojisinin konuşma tanıma teknolojisindeki atılımı, yalnızca Yitu'nun konuşma tanıma alanına ilk kez girdiği ve Çince konuşma tanımanın ilk kampı haline geldiği anlamına gelmiyor, aynı zamanda konuşma tanımanın teknik düzeyde evrim için yeterli alana sahip olduğunu gösteriyor. "İnsanlığı aşmayı" başaramadı. Yitu, önümüzdeki 6 ila 12 ay içinde, konuşma tanıma teknolojisinin algoritma performansının katlanarak artacağını ve daha fazla senaryonun kilidinin açılarak endüstri uygulamalarına daha fazla değer getireceğini tahmin ediyor.

[Hatırlatma] 50.000 çiftin boşanma nedeni ortaya çıktı! Bir numaralı katil hile yapmıyor, ama ...
önceki
Gerçek süper kahraman, "Marvel'in Babası" Stan Lee ölür
Sonraki
Dünyayı dolaşın, dolaşmayın! Onlar Sincan Demir Polisinin "oğul bebekleri"!
Jack Ma bir keresinde onun için şarkı söylemişti! "Üç At" tarafından desteklenen düşük anahtar zengin işadamları kimlerdir?
Çin Süper Ligi 10'uncu Tur Önizlemesi: Hengfeng'e karşı kafa kafaya mücadele mi yoksa üzgün, Quan Jian Luneng'i zirveye mi gönderiyor?
2018 Seamaster S5 Alışveriş Rehberi: Güçlü gücün yanı sıra Paskalya yumurtaları nelerdir?
Adam benzin istasyonunda çıldırdı ama araba kullanırken sarhoş olduğu bulundu.
Yabancı medya perspektifi: 2018 Kuzey Amerika Otomobil Fuarı'nda görülmeye değer 5 araba
Meizhou Hakka 1-1 Liaozu zirveyi kaçırdı, Wang Weilong Russell'ın kurtarıcısını kırdı, Zall geçici olarak orta sınıfa liderlik etti
[Hatırlatma] İnsanların% 80'inde vitamin yok, bir resim size bunu telafi etmeyi öğretecek
Tiehuo, Kuzeydoğu'daki iyi talebe atıfta bulunarak grubun ürünlerine güveniyor
Ülkeye tanıtılacak Kuzey Amerika Otomobil Fuarı'nın dört modeli: sıcak modeller geç olabilir, ancak asla yok olmayacaklar
TCL kavisli TV, Samsung'dan daha yüksek pazar payına sahip ve 147 milyon kar elde etti
2018, AI geliştirme hakkındaki gerçeği görmek için bir makale (bölüm 1)
To Top