Sogou Spoken Language Machine Çeviri Ekibi ile Diyalog: Uluslararası Bir Şampiyonun Doğuşu

2017'de en iyi uluslararası makine çevirisi değerlendirme yarışmasını kazandıktan sonra, Sogou bir kez daha uluslararası yarışmayı kazandı ve daha ileri düzeyde sesli makine çevirisi alanında.

Yakın zamanda, Uluslararası Sözlü Çeviri Çalıştayı (bundan böyle IWSLT olarak anılacaktır) sona erdi. Sogou, iFLYTEK, Alibaba, APPTEK (ABD Uygulamalı Teknoloji Şirketi), AFRL (ABD Hava Kuvvetleri Araştırma Laboratuvarı) ve KIT (Karlsruhe Teknoloji Enstitüsü, Almanya) gibi birçok güçlü uluslararası ve yerli rakibi mağlup etti ve 2018 IWSLT yarışmasını tek seferde kazandı. Temel Model (temel model) izleme şampiyonu.

IWSLTnin konuşulan dil makine çevirisi, konuşma sinyallerinin hedef dil metnine çevrilmesini ifade eder. Bu, Sogounun zaten uyguladığı "yapay zeka eşzamanlı çeviri" ve "seyahat çevirisi hazinesi" gibi birçok ürünün temel teknolojisidir. Metnin çevirisi. Sözlü makine çevirisi alanı gelişmekte olan bir alandır ve Sogou her zaman ön planda olmuştur.Bu kez şampiyonluğu kazanmak da gücünün bir kanıtıdır.

5 Kasım öğleden sonra, Sogou'nun konuşma dili makine çevirisi ekibi bir medya röportajını kabul etti ve IWSLT yarışma geçmişini, konuşma dili makine çevirisinin teknik ilerlemesini ve ticari uygulamayı tanıttı.

Sözlü makine çevirisi ayrıntılara dikkat eder

Leifeng.com'a göre, IWSLT, dünyadaki en etkili sözlü makine çevirisi değerlendirme yarışmasıdır.Yılda bir kez düzenlenmektedir ve şu anda 15. kez düzenlenmektedir.Yarışma dünyanın her yerinden en iyi kurumların katılımını sağlamıştır. IWSLT, konuşma çevirisinin pratik uygulamasında karşılaşılan sorunlara yanıt olarak her yıl bazı araştırma görevleri oluşturacak ve dış dünyaya açık veri toplama ve değerlendirme ve iletişim fırsatları sunacaktır.

Bu yılki yarışma, biri İngilizce-Almanca konuşma sahnesindeki konuşma çevirisi görevi, diğeri ise Baskçadan İngilizceye düşük kaynaklı metin çevirisi görevi olmak üzere iki ana görev içeriyor. Bunların arasında, İngilizce-Almanca konuşma sahnesindeki konuşma çevirisi görevi, Temel Model (temel model izi) ve Uçtan Uca (uçtan-uca parça) iki parçaya bölünmüştür.

Raporlara göre, Temel Model izi esas olarak konuşma çevirisinin boru hattı çözümünü değerlendirir.Giriş konuşması, konuşma tanıma sonucunu elde etmek için ilk olarak konuşma tanıma sistemi aracılığıyla elde edilir ve ardından sonuç, çeviriyi elde etmek için makine çeviri sistemine gönderilir.

Sogou, iFLYTEK, Alibaba ve birkaç yabancı şirketin tümü Baseline Model parkuruna katıldı.Bu yolda, Sogou bir BLEU (makine çevirisi kalite değerlendirme endeksi, değer ne kadar büyükse çeviri kalitesi o kadar iyi) puanı elde etti ve birinciliği kazandı. Bir, 1,6 BLEU ikinci sıradaki iFLYTEK'ten daha yüksek.

Sogounun Sesli Etkileşim Merkezinden sorumlu kişi Chen Weiye göre, Sogounun ses ekibi yarışmaya hazırlanmak için ses ve makine çevirisi olmak üzere iki bölümden personel gönderdi. Akustik modeller, ses geliştirme, dil modelleri ve makine çevirisi yapan insanlar var. Doğal dil işleme personeli, konuşma tanıma modülünü makine çevirisi ile birleştirmekten sorumludur.

Yarışma tarafından sağlanan verileri kullanarak konuşma tanıma modelini ve makine çeviri modelini yeniden eğitmek gerektiğinden, Sogou konuşma ekibi de çok zaman ve çaba harcadı. Yarışmanın sağladığı ses verisi yaklaşık 500 saattir.Sogou'nun ses ekibi önce verileri genişletmiş, konuşma hızını, gürültü azaltma ve iyileştirmeyi ayarlamış ve son olarak veri boyutunu 3 kat artırmıştır. Ekip, konuşma tanıma modeli eğitimi için tek bir çoklu kart makinesi kullanıyor ve bir modeli eğitmek iki ila üç gün sürüyor. Çeviri açısından, yarışma yaklaşık 60 ila 70 milyon sekansın iki dilli paralel verilerini sağladı.Sogou, model eğitimi için 10-15 sekiz kalorili makine yatırım yaptı. Bir modeli eğitmek 4-5 gün sürüyor ve toplamda En iyi sonuçları elde etmek için birden fazla yinelemeli model güncellemesi gerekir.

Uluslararası bir "teklif" etkinliğine ilk kez katılmasına rağmen, Sogou ekibi buna uzun zamandır aşinadır, çünkü bu tür personel ve teknik prosedürler iş yaptıkları zamanki ile tamamen aynıdır.

Leifeng.com'a göre, Sogou'nun mevcut yapay zeka eşzamanlı tercümesi, Sogou Translator, kayıt çeviri kalemi ve diğer ürünlerin tümü Temel Model çözümünü kullanıyor. Sogou ayrıca Baseline'ın sektördeki en yaygın ve en etkili sesli çeviri çözümü olduğuna inanmaktadır.Piyasadaki ticari makine simültane çeviri ve çevirmenler gibi hemen hemen tüm sesli çeviri ürünleri benzer yöntemleri benimser.

Bu kez IWSLT yarışmasının sağladığı veriler ve test senaryoları pratik uygulamalar için çok uygundur.TED'de İngilizce altyazılı Almanca konuşma videolarının ve İngilizce altyazılı bazı Almanca filmlerin yer alması bekleniyor.Bu diyalog materyalleri çok gerçekçi ve bir tonu var. Sözcükler, duraklamalar ve mantralar gibi yaygın dil olayları. Bu nedenle, Sogou'nun bu IWSLT'deki başarıları, uygulamada Sogou'nun sesli makine çevirisi teknolojisinin öncü avantajını da doğrulamaktadır.

Chen Weilai'nin görüşüne göre, şu anda yerli şirketlerin konuşma tanıma teknolojisinde çok az farkı var.Sogou'nun konuşma tanıma teknolojisi endüstride en üst seviyedeyken, makine çevirisi teknolojisi daha büyük bir öneme sahip. Sözlü makine çevirisi alanında, konuşma tanıma teknolojisinin veya makine çevirisinin ne kadar güçlü olduğuna değil, şirketin ayrıntıları ele alıp iki bağlantıyı entegre edip edemeyeceğine bağlı. Sogou, sürekli ürün uygulamasında endüstri lideri ayrıntı işleme yeteneklerini biriktirmiştir ve konuşma dilinde makine çevirisi ve yapay zeka eşzamanlı çeviri konusunda gerçekten iyi bir iş çıkarabilir.

Öne ve geleceğe odaklanın

IWSLT yarışması ayrıca sinir ağı tabanlı uçtan-uca konuşma çeviri çözümünü kullanan Uçtan Uca bir parça ekledi Konuşmayı girdikten sonra, derin sinir ağı modeline dayalı olarak doğrudan çeviriyi çıkarır. Şu anda, End-to-End'in daha modern bir keşif, yeni bir fikir ve konuşma çevirisi için yeni bir yönü temsil ettiği yönünde görüşler var.

Bununla birlikte, Uçtan Uca pistte ilk sırada yer alan BLEU'nun 19,4 olduğunu gördük, bu da Sogou'nun Temel Model pistinde elde ettiği 28.09 BLEU'dan uzaktır.

Bu fenomenle ilgili olarak Chen Wei, Leifeng.com'a, mevcut uçtan uca gerekli sesli metin paralelinin büyük ölçekte toplanmasının zor olacağını ve algoritma araştırmasının olgunlaşmadığını söyledi. Mevcut Uçtan Uca teknoloji, konuşma tanıma ve makine çevirisi gibi tek bir bağlantıda iyi sonuçlar elde etmesine rağmen, konuşulan dilde makine çevirisindeki uygulaması henüz olgunlaşmamıştır ve ticarileştirilmesi yaklaşık 5 yıl sürecektir.

Uçtan Uca parça henüz olgunlaşmadı ve herkesin tanıyabileceği teknik bir çözüm yok, bu yüzden bu alanda birinciliği kazanmak onun gücünü gerçekten kanıtlamıyor. Tabii ki Chen Wei, Uçtan Uca'nın gerçekten gelecekteki yönlerden biri olduğunu ve Sogou'nun neredeyse yarım yıldır deneyler yaptığını da kabul etti.

Ticarileştirmeyi teşvik etmeye devam edin

Son iki yılda Sogou, özü dil olan uzun vadeli bir yapay zeka stratejisi oluşturdu ve temel ürünleri girdi yöntemleri, arama, eşzamanlı çeviri ve çeviriye odaklanıyor. 2016 yılında Sogou, konuşma tanıma ve makine çevirisi teknolojisini birleştirdi ve dünyanın ilk ticari yapay zeka eşzamanlı çeviri sistemi olan Sogou Simultaneous Interpretation'ı başlattı ve ses çeviri teknolojisinin popülerleşmesine ve uygulanmasına öncülük etti.

Ses tanıma alanında, bazı yerleşik üreticilerle karşılaştırıldığında, Sogou geç kalmıştır. Ancak şimdiye kadarki başarılardan yola çıkarak, Sogou zamandaki boşluğu düzeltti Sogou bunu nasıl başardı?

Chen Wei şunları söyledi: 1980'lerden 2010'a kadar, konuşma tanıma hattı çok uzundu. Yerleşik konuşma tanıma şirketlerinin parametreleri ayarlama ve model eğitiminde güçlü engelleri vardı. Ancak, derin öğrenme teknolojisinin uygulanmasından sonra Bu devrilme ve yeniden açılmaya eşdeğerdir.Bu koşullar altında, tüm sektöre geç girenlerin iyi bir şansı vardır ve herkes hızla viraj alıp geçebilir. Sogou, veri ve yetenek rezervleri açısından yerleşik bir ses şirketinden daha aşağı değildir.Sogou aynı zamanda teknoloji ve ürünlerin kombinasyonuna odaklanan bir C-end şirketidir ve ayrıntılar çok aşırı olabilir. Veriler, sahneler ve teknolojiyle Sogou'nun konuşma tanıma ve çeviride zayıf olması için hiçbir neden yok.

Yapay zeka eşzamanlı tercümenin başarısından sonra Sogou, çevrimdışı çeviri ve fotoğraf çevirisi ile Sogou seyahat çevirisi hazinesi gibi bir dizi akıllı donanımı da piyasaya sürdü; Sogou kayıt çeviri kalemi, kayıt transkripsiyonu, diyalog çevirisi, eşzamanlı çeviri ve diğer işlevleri sağlar. , Tüketici ürünlerine yapay zeka eşzamanlı çeviriyi uygulayarak sesli çeviri için yeni bir kanal açmıştır. Sogou ayrıca, akıllı telefonlara çevrimiçi ve çevrimdışı çeviri yetenekleri getirerek sesli çevirinin teknik işbirliğinde VIVO, OPPO gibi cep telefonu üreticileri ve diğer cep telefonu üreticileri ile işbirliği yapıyor.

Ek olarak, Sogou Voice ekibi ayrıca çok modlu konuşma semantik teknolojisinin keşfi üzerinde çalışıyor. Geçtiğimiz iki gün içinde Wuzhen Dünya İnternet Konferansı'nda Sogou ve Xinhua Haber Ajansı tarafından ortaklaşa geliştirilen dünyanın ilk "yapay yapay zeka çapası" resmi olarak açıklandı. Yapay yapay zeka çapası, yalnızca haber metni girilerek gerçek bir insanla aynı sesle yayın yapabilir. Yayın sürecinde dudak şekli ve yüz ifadeleri de canlı çapa ile tamamen tutarlı olabilir ve etki canlıdır.

Leifeng.com'a göre, yapay zeka sentez çapalarının teknolojisine "Sogou avatarı" deniyor. Bu teknoloji, yüz anahtar noktası algılama, yüz özelliği çıkarma, yüz yeniden yapılandırma, dudak tanıma ve duygu geçişi gibi birçok en son teknolojiyi geçebilir. Ortak modelleme eğitimi için ses, görüntü ve diğer çok modlu bilgilerle birleştirildiğinde, gerçek bir kişiden farklı olmayan bir AI klon modeli oluşturulur. Bu teknoloji, makinenin ilk kez konuşurken insan sesini, dudak hareketlerini ve ifadelerini gerçekçi bir şekilde simüle etmesini ve üçünü doğal olarak eşleştirmesini, neredeyse gerçek insanlarla aynı olmasını sağlar.

IWSLT yarışmasından "AI simültane tercümesine" ve "Sogou klonuna" kadar, temel teknoloji ve uygulama inişi açısından Sogou ses ekibinin mükemmel sonuçlarını gördük. Bize daha fazla sürpriz getirecek bu kadar istikrarlı ve istikrarlı bir ekibi dört gözle bekliyoruz.

Art arda 261 zafer: el ele balık dövüşü, Sao Bai kralın tarihindeki en yüksek "onur" unvanını aldı
önceki
5 Nisan'da gösterime girdi "Kurbağa Prensinin Maceraları" adlı animasyon filmi, fragmanın sürpriz bir versiyonunu yayınladı.
Sonraki
Hollywood gişe rekortmenleri neden hızlı elleri tercih ediyor?
Farklı! PlayerUnknown's Battlegrounds, tavuk yemek ve Voldemort olmaktır, ancak burada Valkyrie Zhao olarak enkarne olmuştur.
İnternet insanları en çok yapay zeka alanına mı girmek istiyor? Gelecekteki istihdam nerede? Bu kılavuzu kabul edin!
Öğretmenler ve veliler yine sınıf grubunda, bu sefer netizenler aslında çok öğretmendir
İlk gösterilmeyen "Tuner" ne tür bir şüpheli çalışma? 3 nisanda görüşürüz
Artık kare olmayan şekle ek olarak, yeni nesil tarafından hangi değişiklikler keşfedildi?
Xiaobai Sınıfı: LOL gibi MOBA oyunlarında neden beş pozisyon var?
Rafine operasyon patlayıcı modeller yaratır ve PP spor IP'nin gücü ortaya çıkar
YOHOOD gece kuşu rehberi, Bulunan 158 bundan daha fazlası!
Canlı yayına kariyer olarak bakıldığında Zhang Daxian, Çin Canlı Yayın Listesi'nde "En Güçlü Kral Çapa" unvanını kazandı.
Tiaz 1.5T pilot versiyonunu test etmek için hala iyileştirme için çok yer var
Zhou Hongyi, aşçılık becerilerini sergiledi ve ünlü kız kardeşi için şahsen tavuk pişirdi ve orada "tavuk yemeleri" için yüz kişiyi işe aldı.
To Top