Yapay zeka şirketi YITU Technology, 11 Aralık'ta Çin konuşma tanıma teknolojisindeki en son gelişmeyi duyurdu. Dünyanın en büyük Çin açık kaynak veritabanı AISHELL-2'de, Yitu'nun kısa ses diktesinin kelime hata oranı (CER) yalnızca% 3.71'dir, bu da mevcut rekoru büyük ölçüde yenileyen orijinal endüstri liderinden yaklaşık% 20 daha yüksektir. Yitu ayrıca, Yitu ses açık platformunu başlatmak için Microsoft Azure ile işbirliği yaptı ve Yitu'nun önde gelen ses tanıma teknolojisini çok çeşitli üçüncü taraf uygulama geliştiricilerine sunan ve akıllı ses endüstrisinin ilerlemesini ortaklaşa destekleyen "Akıllı Ses Ortak Çözümü" nü yayınlamak için Huawei ile işbirliği yaptı. .
Yitu'nun Baş İnovasyon Sorumlusu Dr.Hao Lu
Son yıllarda, derin öğrenmenin patlaması konuşma tanıma teknolojisinin hızlı gelişimini sağlamıştır, ancak doğruluk açısından yüz tanımanın yüksek büyüme oranıyla karşılaştırıldığında, konuşma tanımanın gelişimi hala nispeten yavaştır. Bazı kurumlar insan seviyesine ulaşmayı teşvik etseler de, çoğu durumda sessiz ve yakın alan gibi kısıtlı sahnelerden geliyorlar. Telefon, ses programları ve uzak alan gibi daha karmaşık senaryolar için, hedeflenen bir şekilde farklı modellerin geliştirilmesi gerekir.Ancak, pratik uygulamalardaki belirsizlik, ideal ve gerçek arasında hala büyük bir boşluk bırakarak, uygulama senaryolarında daha büyük atılımlar elde etmeyi zorlaştırmaktadır.
Konuşma tanıma için konuşma hızı, ses, ton, aksan vb. Tanımanın doğruluğunu önemli ölçüde etkiler. Genelde kelime hata oranının% 3'ten az olduğunda okunabilirliği etkilemeyeceğine ve% 15'i aştığında okunabilirlik olmadığına inanılmaktadır. Bu iki veri, konuşma tanımanın iki kırmızı çizgisi olarak düşünülebilir ve farklı senaryolarda, farklı algoritmaların performansı çok farklı olabilir. Çince konuşma tanıma teknolojisi alanında, Çince'nin genişliğinin ve derinliğinin getirdiği homofonik anlaşmazlık gibi sorunlar, konuşma tanımanın işleme zorluğuna büyük zorluklar getirdi ve son kullanıcı deneyimini önemli ölçüde etkiledi.
Yitu'nun Baş İnovasyon Sorumlusu Dr. Hao Lu, "Ses tanıma teknolojisi uzun bir gelişme ve evrim geçirdi, ancak şimdiye kadar yalnızca sınırlı senaryolarda daha iyi sonuçlar elde edebilir. Temel teknolojideki atılımın hala devam ettiğine inanıyoruz. Çince konuşma tanımanın geliştirilmesinin anahtarı şu anda kırılmış durumda. Konuşma tanıma alanında, Yitu Technology bir birinci sınıf öğrencisi, ancak endüstri yeniliği ve gelişimini teşvik etmeye ve dünyanın en iyi Mandarin Çincesi konuşma tanıma teknolojisi olmaya kararlı.
Sektördeki orijinal liderlerle karşılaştırıldığında, Yitu tarafından başlatılan Çince konuşma tanıma algoritması, yalnızca tanıma doğruluğunu büyük ölçüde iyileştirmekle kalmadı, aynı zamanda tek bir algoritma modelinde mükemmel çoklu senaryo uygulanabilirliğine de sahip. Yakın alan aksan testi seti, yakın alan sessiz sohbet testi seti, ses programı test seti, telefon test seti ve üçüncü şahıslardan gelen uzak alan test setinin yanı sıra sektörde yakın zamanda piyasaya sürülen AISHELL-2'nin üç test alt grubu resme göre Sektörde lider düzeydedir ve kelime hata oranının neredeyse tamamı% 15'in altındadır. Bunların arasında, AISHELL2-2018A-EVAL veri setinde, Yitu'nun tanıma doğruluk oranı% 96.29'a kadar yükseliyor ve kelime hata oranı (CER) sadece% 3.71, bu da endüstrinin ikinci sırasının yaklaşık% 20 önünde. "Dikte Konferansı" WeChat uygulaması sayesinde kullanıcılar, sektörde ilk kez olan konuşma tanıma teknolojisinin gerçek performansını sezgisel olarak hissedebilir ve çeşitli algoritmalardaki farklılıkların seviyesini açık ve şeffaf bir şekilde deneyimleyebilirler.
AISHELL-2, AISHELL Vakfı ve Hill Shell tarafından açıklanan 1.000 saatlik veri ölçeğine sahip açık kaynaklı bir veritabanıdır ve şu anda dünyanın en büyük Çin açık kaynak veritabanıdır. Çin'in farklı aksan bölgelerinden 1991 konuşmacılar tarafından kaydedildi, profesyonel ses düzelticileri tarafından yazıya döküldü ve işaretlendi ve sıkı kalite denetimlerinden geçti. Veritabanı metin doğruluk oranı% 96'nın üzerindedir. Kaydedilen metin uyandırma sözcükleri, sesle kontrol sözcükleri ve zeka içerir. Ev mobilyası, sürücüsüz, endüstriyel üretim vb. Dahil 12 alan
Dikte Konferansı Mini Programı
Konuşma tanıma alanındaki teknolojik atılımlara dayanan YITU ve Microsoft, ortaklıklarını daha da derinleştireceklerini ve YITU Voice Open Platform'u ortaklaşa başlatacaklarını duyurdu. Platform, çok çeşitli üçüncü taraf uygulama geliştiricilerine açık sektör lideri ses tanıma teknolojisi yetenekleri olan Microsoft Azure bulutuna dayalı olacak ve kullanıcılara ve müşterilere daha kapsamlı hizmetler ve daha iyi deneyim sağlamak için birlikte çalışacak. Açık sesli platformun ortak olarak piyasaya sürülmesinden sonra, YITU ve Microsoft, birlikte bir AI ekosistemi oluşturmak için akıllı ses alanında daha fazla işbirliği yapacak.
YITU ve Huawei ayrıca YITU Ses Açık Platformu, Huawei'nin tam yığın, tam senaryo Ascend serisi yongalar ve veri merkezi için Atlas 300 AI hızlandırıcı kartına dayanan "Akıllı Ses Ortak Çözümü" nü ortaklaşa piyasaya sürdü. Güçlü teknik araştırma ve geliştirme yetenekleri, yazılım ve donanımı entegre eden ortak bir çözüm oluşturmak için ekolojik hizmet yetenekleriyle derinlemesine entegre edilmiştir. Bu çözümle, üçüncü taraf uygulama geliştiricileri, geliştirme verimliliğini daha da artırabilir ve endüstri lideri ses teknolojisinden yararlanabilir.
Konuşma tanıma, AI'nın dünya anlayışının en önemli parçası ve aynı zamanda insan-insan etkileşimi ve insan-bilgisayar etkileşimi için en önemli giriş. Yitu Teknolojisinin konuşma tanıma teknolojisindeki atılımı, yalnızca Yitu'nun konuşma tanıma alanına ilk kez girdiği ve Çince konuşma tanımanın ilk kampı haline geldiği anlamına gelmiyor, aynı zamanda konuşma tanımanın teknik düzeyde evrim için yeterli alana sahip olduğunu gösteriyor. "İnsanlığı aşmayı" başaramadı. Yitu, önümüzdeki 6 ila 12 ay içinde, konuşma tanıma teknolojisinin algoritma performansının katlanarak artacağını ve daha fazla senaryonun kilidinin açılarak endüstri uygulamalarına daha fazla değer getireceğini tahmin ediyor.