Sogou'nun Sesi Bozan Yapay Zeka Etkileşim Teknolojisinin Arkasında, Super T4, Yapay Zeka + Sesin Sektörde Liderliğe Geçmesine Yardımcı Oluyor

Akıllı şeyler (genel hesap: zhidxcom) metin | Wei Shiwei

AI teknolojisinin patlaması ve gelişmesiyle birlikte, akıllı ses teknolojisi yavaş yavaş insanların hayatındaki en yaygın AI etkileşim teknolojilerinden biri haline geldi.

Aslında, insanlar arasındaki duygu ve iletişimi sürdürmek için önemli bir bağlantı olan dil, her zaman insanlar tarafından farklı taşıma şekillerinde kullanılmıştır. Örneğin, Sogounun dil merkezli yapay zeka teknolojisi düzeninde, Çince konuşma tanıma ve yazıya dönüştürme, birden çok lehçe ve yabancı dil, yapay zeka eşzamanlı çeviriden kişiselleştirilmiş konuşma sentezine ve ses değişikliğine kadar ... dilin insanların yaşamlarında uygulanması Her yönüyle Sogou sıkıntısı yok.

Bugün Sogou, geleneksel ses endüstrisini yıkmak için yerli AI + ses alanındaki liderlerden biridir.Alektrikli ses teknolojisi, yüksek tanıma oranı, yüksek doğruluk, düşük gecikme süresi ve çok modlu entegrasyon avantajlarına sahiptir ve eğitim, iş, turizm vb. Alanlarda yaygın olarak kullanılmaktadır. Çoklu uygulama senaryoları ve çevremizdeki binlerce haneye nüfuz ettim.

Bunlar arasında, Sogounun ses tanıma doğruluk oranı% 98'e kadar çıkmaktadır ve ortalama günlük ses talebi bir milyar düzeyine ulaşmıştır. Özellikle ses kayıt endüstrisinde, Sogou giriş yöntemi AI tarafından güçlendirilmiştir ve ayrıca piyasadaki ses kayıt cihazlarının% 90'ından fazlasını sağlamıştır. Hizmetlere erişin.

Akıllı şeyler, Sogounun sektör inovasyonuna defalarca liderlik eden ve geleneksel endüstri ekolojisini altüst eden yapay zeka teknolojisi sisteminin arkasında Sogou AI algoritma platformu ve derin öğrenme platformu Eva tarafından oluşturulan "iskelet". AI platformunun ve derin öğrenme çerçevesinin arkasında, Güçlü bilgi işlem platformu, ses alanında güçlü bir rekabet gücü ve liderlik oluşturmasına da yardımcı oldu.

Peki, Sogou'nun yıllardır yapay zeka iş düzeninde, Sogou kendi dev yapay zeka etkileşimli teknoloji ekosistemini kademeli olarak nasıl oluşturdu? Son zamanlarda Zhixi, Sogou'nun Yapay Zeka Etkileşim Bölümü baş bilimcisi Chen Wei ile Sogou'nun Yapay Zeka Etkileşim Teknolojisinin arkasındaki hikayeyi keşfetmeye ve akıllı ses teknolojisinin özünü ve gelişimini daha da keşfetmeye çalışan derinlemesine bir görüşme yaptı.

1. Günlük bir milyardan fazla ses işleme talebiyle yerel AI ses endüstrisinde öncü

2020'nin başından bu yana, yeni koronavirüs pnömoni virüsü salgını iç pazarın yeniden başlamasını ve gelişimini etkiliyor, ancak Chen Wei liderliğindeki Sogou AI etkileşimli teknoloji ekibinin teknik uygulaması ve araştırması etkilenmedi ve yavaşladı.

"Sogou, yapay zeka alanında her zaman dilin temel olması konusunda ısrar etti." Chen Wei, liderliğindeki Sogou Yapay Zeka Etkileşim Bölümü ekibinin çekirdeğinin, insan-bilgisayar etkileşimini daha doğal hale getirmek için doğal etkileşim alanı etrafında dönmesi olduğunu söyledi. Multimodal etkileşim.

Aslında, Sogou'nun dil merkezli yapay zeka teknolojisi, temel olarak iki ana yol, doğal etkileşim ve bilgi hesaplama düzenler.

Sogou AI, insanlar ve bilgisayarlar arasındaki etkileşimi gerçekleştirmek için temel olarak ses ve görüntü algısı, diyalog, çeviri vb. Kullanır; Öte yandan, bilgi hesaplama, arama ve doğal dil yoluyla daha çok büyük ağ verilerine veya mevcut verilere dayanır. Problemleri çözmek için gerçek bilginin çıkarıldığı işleme (NLP).

2012'den beri, Sogou akıllı ses teknolojisinin araştırma ve geliştirmesine yatırım yaptığından, AI ekibi yaklaşık 1.000 kişiye ulaştı.

Ve Sogounun yapay zeka sisteminin yapısının arkasında bir Eva'nın Sogou derin öğrenme platformu Anahtar bir rol oynadı.

"Derin sinir ağlarının kurulmasından önce, konuşma sentezi ve konuşma tanıma gibi Sogou'nun teknolojilerinin her biri iki bağımsız yöndü." Chen Wei tanıttı, ancak Eva'nın inşasından sonra, temel model mimarisinden algoritma tasarımına vb. Hepsi uçtan uca organik bir bütün oluşturur.

Layman'ın terimleriyle, Ar-Ge personeli için derin öğrenme modellerinin tek tip eğitimini sağlamak için ses, görüntü, NLP ve diğer teknolojileri entegre edebilir.

Orijinal model ve algoritma karmaşık olmadığından, Sogou'nun derin sinir ağı hala çalışmak için CPU'ya güveniyordu. Bununla birlikte, verilerin büyümesi ve algoritma karmaşıklığının artmasıyla, model eğitimi için veri ölçeği çok büyüktür ve CPU uzun süredir derin sinir ağlarının eğitim ihtiyaçlarını karşılayamamaktadır.

Örneğin, konuşma modeli eğitimi sürecinde genellikle yüz binlerce saatlik veriye ihtiyaç vardır. Chen Wei, "CPU hakkında konuşmayın, eğitim için düzinelerce Nvidia GPU kullanıyor olsanız bile, tamamlanması birkaç ay sürecektir." Dedi.

Bu nedenle, derin sinir ağlarının paralel hesaplama talebinin artması ve modellerin artan karmaşıklığı ile Sogou, çevrimiçi AI hizmetlerinin performansını yinelemeye devam etmek için 2013'ten beri modelleri eğitmek için GPU'ların kullanımını kademeli olarak araştırdı. Anlaşılan budur ki NVIDIA'nın güçlü GPU bilgi işlem gücü desteğine dayanan Sogou Voice şu anda bir milyardan fazla ortalama günlük istek hacmine sahiptir.

2. Nvidia GPU + ultra büyük ölçekli çıkarım platformu, Sogou AI'nın iki büyük yenilik yönünü dile getirmesine yardımcı olur

Sogou'nun güçlü AI etkileşimli teknolojisi sürecinde, NVIDIA T4 ve Tensor RT, Sogou'ya bilgi işlem gücünde bir atılım sağladı ve yenilikçi endüstri için güçlü teknik destek sağladı.

Chen Wei'nin görüşüne göre, Nvidia GPU, hem eğitim hem de çıkarım yönlerinde güçlü bilgi işlem gücü desteği sağlar.

Biri karşı karşıya Çevrimdışı model eğitimi, GPU'nun, şu anda kullanılan Tesla V100 ve P40 gibi büyük verilere dayalı modelin eğitimini yürütmek için yeterli bilgi işlem gücüne ve yeterli video belleğine sahip olması gerekir; Çevrimiçi muhakeme ve dağıtım, Bu nispeten küçük GPU belleği ve bilgi işlem gücü gerektirir ve Tesla P4 ve T4 gibi büyük ölçekli ve devasa bilgisayarlarda dağıtım için uygundur.

Bunların arasında, T4 GPU, yapay zeka performansını optimize etmek ve iyileştirmek için özel olarak oluşturulmuştur.Ayrıca, yapay zeka eğitiminin ve sunuculardaki çıkarımın yatay genişlemesini daha da desteklerken verimli bilgi işlem gücü elde edebilen Nvidia TurningTensor çekirdeği ile donatılmıştır.

T4 GPU'nun üç ana performans avantajı vardır. Bir yetenek Ölçeklenebilir sunucuları optimize edin, Enerji verimliliği CPU'nunkinden 50 kat daha fazladır ve bu da işletim maliyetlerini büyük ölçüde azaltır; ikincisi, Çok hassasiyetli hesaplama özellikleri ile, FP32, FP16'dan INT8'e ve INT4 doğruluğunda çığır açan AI performansına ulaşabilir.Eğitim performansı CPU'nun 9,3 katı ve çıkarım performansı 36 katın üzerindedir; üçüncüsü Derin öğrenme ve makine öğrenimi eğitimi, çıkarım, video kod çözme ve sanal masaüstlerini hızlandırabilir, Ve büyük ölçekli dağıtımın kullanımını daha da iyileştirmek için tüm AI çerçevelerini ve ağ modellerini destekleyin.

Ek olarak, Sogou ayrıca GPU çıkarımını kullandı Derin sinir ağı çıkarımını hızlandırmak için Nvidia'nın ultra büyük ölçekli çıkarım platformu Tensor RT.

Tensor RT ultra büyük ölçekli çıkarım platformunun, NVIDIA tarafından dünyanın dört bir yanındaki geliştiriciler ve veri bilimcileri için özel olarak geliştirildiği anlaşılmaktadır.Görüntü, konuşma, çeviri ve öneri sistemleri gibi çok çeşitli alanlarda sinir ağlarını hızlandırabilen NVIDIA T4 GPU ile donatılmıştır. Aynı zamanda, TensorFlow, PyTorch, MXNet, Chainer ve Caffe2 gibi sektördeki büyük derin öğrenme çerçevelerinin hızlandırılmasını da destekler.

"İyi algoritmalar ve büyük veriler, iyi bir bilgi işlem platformu gerektirmelidir." Chen Weinin görüşüne göre, NVIDIAnın GPU ve AI çıkarım platformu, Sogounun yapay zeka teknolojisi sistemine toplu işlem veya paralel hesaplama yetenekleri sağlıyor ve kademeli olarak İyi bir kalkınma ekolojisi oluşturun.

3. Ö4 nimeti, Konuşma tanıma doğruluk oranı% 98'e kadar çıkıyor

Bugün Sogou, doğal etkileşim ve bilgi hesaplamasının iki stratejik AI stratejik yönünde ses, bilgisayarla görme, diyalog, çeviri ve Soru-Cevap gibi birden çok alan ortaya koydu ve Sogou klonu, Sogou eşzamanlı çeviri ve Sogou ses değiştiricisinde birden fazla farklılaştırılmış parça var. Lider olmaya devam edin, bilgi işlem gücü talebini daha da artırın.

"Sogou'nun konuşma tanıma, çok modlu tanıma (ses + dudak dili), OCR, makine çevirisi, konuşma sentezi, görüntü oluşturma ve diğer uygulama senaryoları ve gereksinimleri arttıkça, bilgi işlem kaynaklarına yönelik gereksinimleri farklı görevlere dayanmaktadır. "Chen Wei bir örnek verdi. Sogounun çok modlu tanıma hizmeti, tanımadan önce konuşma ve dudak dilinin iki modunu birleştiriyor. Bu çok modlu algılama yöntemi ayrıca modelin hesaplamalar için gereksinimlerini daha karmaşık hale getiriyor.

Chen Wei'nin görüşüne göre, AI ses alanında bilgi işlem talebi yalnızca artacaktır. Son yıllarda konuşma tanımada daha az ve daha az yıkıcı yenilik ve atılım olmasına rağmen, mevcut teknolojinin hala yinelendiğini ve modelin öğrenme yeteneğinin güçlendirilmeye devam edeceğini söyledi.

Aynı zamanda, 5G ve IoT teknolojilerinin tanıtımıyla birlikte, büyük veriler de hızla artıyor ve büyüyor, bu da şüphesiz AI şirketleri için daha karmaşık modeller ve daha büyük eğitim verileri anlamına geliyor ve bu da GPU hesaplama gücü sorununu gündeme getiriyor. Daha yüksek gereksinimler.

Sogounun ses transkripsiyon uygulamasında, Konuşma tanımanın doğruluğu, kullanıcı deneyimini ve uygulamalarını etkileyen önemli faktörlerden biridir.

Raporlara göre, Sogou'nun ses girişi yöntemi şu anda sektörün önde gelen Çince-İngilizce serbest konuşma yeteneklerine, uzak alan ses tanıma çözümlerine ve sektörün ilk ses değiştirme yeteneklerine sahip. Örneğin, Sogou'nun ses girişi yöntemi, Japonya, Güney Kore, İngilizce ve Fransızca gibi 10'dan fazla yabancı dili ve Guangdong ve Sichuan gibi 10 lehçeyi tanıyabilir. Ses geliştirme ve kişiselleştirilmiş etkileşimi destekler. Aynı zamanda, ses tanıma doğruluk oranı% 98'e kadar çıkar ve günlük ortalama sesli giriş araması sayısı aşıyor Milyarlarca kez.

Aslında, Sogou'nun konuşma tanıma doğruluğunun iyileştirilmesi esas olarak hesaplama gücüne, derin öğrenme teknolojisine ve bütünlük veri eğitimine dayanmaktadır. Bilgi işlem gücü açısından, Sogou, konuşma tanıma modelini hızlandırmak ve optimize etmek için 2017'den beri NVIDIA Tesla P4'ü kullanıyor.

2017'nin başlarında, Sogou, P4'ün paralel hesaplama çıkarım hızı sayesinde konuşma tanıma isteklerinin verimliliğini% 50 artırdı. Takip eden iki yıl içinde, Cuda'nın 9.1'e yükseltilmesi ve bilgi işlem gücünün sürekli optimizasyonu ile Sogou'nun konuşma tanıma talebi verimliliği artmaya devam etti. Kasım 2019'da Sogou, P4'ü T4'e yükselttikten sonra verimlilikte bir kez daha% 20 artışla bir atılım gerçekleştirdi.

T4 GPU'nun piyasaya sürülmesiyle birlikte, günlük en yüksek ses tanıma çağrı hacmi de 2017'de 320 milyon kattan 2019'un üçüncü çeyreğinde 830 milyon katına hızla artarak büyük tanıma taleplerinin işlenmesini etkin bir şekilde gerçekleştirerek kendini daha da güçlendirdi. Konuşma tanıma teknolojisinin potansiyeli, endüstri yeniliği ve değişimi için yeni bir gelişme yönü sağlar.

4. T4, WaveRNN ses kodlayıcısını optimize eder ve kaynak teknolojisinin akademik çevreden sektöre uygulanmasını teşvik eder

Konuşma tanımaya ek olarak, Konuşma sentezi, konuşma teknolojisi şirketlerinin gücünü test etmek için de standartlardan biridir.

Sogou konuşma sentezi, birden çok erkek ve kadın stilinde ve Çince, İngilizce ve Rusça'da birden çok dilde düzinelerce tınıyı destekler.Aynı zamanda, sistemin konuşmacının sesini oluşturmak ve hatta konuşmacının stil aktarımını gerçekleştirmek için yalnızca 5 dakikalık ses yüklemesi gerekir.

Teknoloji açısından, Sogounun konuşma sentez teknolojisi, WaveNet ve WaveRNN ses kodlayıcılarına dayanmaktadır. Bununla birlikte, WaveNetin nispeten yüksek hesaplama karmaşıklığı nedeniyle, Sogouda gerçek zamanlı ses oluşturma hizmetlerine ulaşmak başlangıçta zordu.

WaveRNN ses kodlayıcısını optimize etmek için Sogou, bir yandan WaveRNN kaynak teknik belgeleri temelinde çok sayıda araştırma çalışması yaptı ve pratik kullanım için çok sayıda kod yapısını değiştirdi; Öte yandan, WaveRNN'yi T4'e dayalı olarak optimize eder ve özelleştirir. Gemm operatörü, konuşma sentezinin gerçek zamanlı kod çözme oranını daha da azaltır.

T4'ün optimize edilmiş performansı sayesinde Sogou, akademi ve endüstri arasındaki geçişin önündeki engelleri daha da aşıyor ve yerli ses endüstrisinde ilkini gerçek anlamda gerçekleştirerek WaveRNN ses kodlayıcı teknolojisinin AI ses endüstrisinin yenilik ve gelişimine daha iyi hizmet etmesini sağlıyor.

Sadece bu değil, Sogou AI etkileşim teknolojisi sanal insanlar, OCR, el yazısı tanıma, dudak tanıma, görüntü ve video oluşturma vb. Gibi görüntüyle ilgili daha fazla uygulama içermeye başladığından, derin öğrenme platformu yüksek oranda kullanılabilir ve paralel eğitim hizmeti yetenekleri Talep de daha da arttı.

Örneğin, Sogou AI platformunu dış dünyaya açma sürecinde, platforma bağlı olarak kendi modellerini eğitecek ve özelleştirecek büyük bir kullanıcı akışı olacaktır.Bu süreçte, Sogou AI platformunun görevler arasında sıraya girmesi ve görevleri planlaması gerekir. Ve GPU yük dengeleme gibi sorunları tam olarak düşünün.

Chen Wei, "Dolayısıyla, platform düzeyinde, hizmetlerimiz daha fazla kullanıcının özelleştirilmiş AI olasılığını fark etmesine yardımcı olmak için derin öğrenme yeteneklerini kullanmak için AI açık platformunu kullanacak." Dedi.

Nvidia Tensor RT7'nin piyasaya sürülmesiyle Sogou'nun da platformu bazı görevlerde kullanmaya başladığını belirtmekte fayda var. Gelecekte, Sogou AI teknolojisi ve işinin yinelenmesi ve yeniliği ile Tensor RT7, kademeli olarak daha fazla göreve dahil edilecek.

V. Yüksek hesaplama gücü GPU, ses etkileşimi ve AI bilgi işlem platformlarının gelecekteki gelişimini hızlandırır.

Bugün, Sogou, kayıt kalemi endüstrisindeki dört lider şirketle bir AI inovasyon ittifakı kurdu: AI ses dikte açısından Patriot, Newman, Sony ve Wancheng. Ortak Sogou giriş yöntemi, piyasadaki ses kayıt cihazlarının% 90'ından fazlası için erişim hizmetleri sağlar.

Ayrıca Sogou, ses + dudak dili multi-modal tanıma teknolojisi ile bir dudak dili tanıma sistemi geliştirdi ve gürültülü ortamlarda tanıma doğruluğu oranı% 40'tan fazla arttı.Aynı zamanda Sogou, çapraz dil elde etmek için Sogou çeviri, sentez ve tanıma teknolojilerini de kullanıyor. İletişim, makine simültane tercümesi ve diğer uygulama alanları endüstri lideri sonuçlara ulaşmıştır.

Gelecekte, AI etkileşimli teknolojinin uygulama kapsamı genişlemeye devam ederken, Sogou ayrıca AI açık platformunu ve çok modlu teknoloji entegrasyonunu da yükseltecek.

Sogou, temel AI yeteneklerinin açılmasını hızlandırmak için AI açık platformunu kullanacak; kişiselleştirilmiş konuşma sentezi, ses değişikliği, çok modlu etkileşim, el yazısı tanıma, çok modlu eşzamanlı çeviri ve diğer teknolojiler dahil olmak üzere konuşma tanıma ve konuşma sentezi de getirecek. Daha fazla deneyim yeniliği ve yükseltmeleri.

Dahili bir bakış açısıyla, Sogou ayrıca çeşitli araştırma ekiplerinin GPU kaynakları üzerindeki paylaşım yeteneklerini gerçekten açacak ve şirkete platforma dayalı derin öğrenme için nispeten genel ve birleşik paralel eğitim yetenekleri sağlayacak.

Ve içten dışa bu teknik yükseltmelerin de GPU performansı üzerinde daha büyük talepleri olacak.

"Yalnızca GPU bilgi işlem gücüne olan talep artmakla kalmıyor, aynı zamanda bize daha zengin destek hizmetleri sağlamak için GPU'lara da ihtiyaç var." Chen Wei'nin görüşüne göre, Nvidia yavaş yavaş iyi bir AI ekosistemi oluşturdu ve Sogou ekolojik bileşenlerden biri. Unsurlar ayrıca Sogou'nun kendi işini ekolojik olarak daha fazla destekleyebileceğini ve Sogou'nun yapay zeka teknolojisinin yenilikçi gelişimini desteklemeye devam edebileceğini umuyor.

Sonuç: Yapay zeka etkileşimli teknolojinin uygulaması patladı, GPU endüstri yeniliğini katalize etmeye yardımcı oluyor

Çok modlu dil uygulaması, farkında olmadan insanların hayatta alıştıkları bir teknoloji haline geldi. Basit bir konuşma tanıma ve harf çevirisi, diller arası eşzamanlı çeviri ... Bunların hepsi tam patlama sürecindeki yapay zeka etkileşimli teknoloji uygulamaları İnsanların hayatına getirilen kolaylık.

Ve bu kullanışlı teknolojilerin arkasında üretilen büyük bilgi işlem gücü talebi, Sogou dahil birçok şirket için yeni teknik zorluklar da ortaya çıkarmaktadır. Güçlü bir GPU bilgi işlem platformunun yardımıyla Sogou, yalnızca AI sesine büyük AI bilgi işlem yükünün getirdiği bilgi işlem gücü darboğazını aşmakla kalmaz, aynı zamanda Sogou'nun AI ses alanındaki yenilikçi gelişimi için önemli bilgi işlem gücü desteği sağlar.

Büyük veri analizi ve danışmanlığının yanı sıra her zamankinden daha karmaşık model eğitimiyle karşı karşıya. Bu bağlamda, AI teknolojisi şirketlerinin kendi altyapılarını daha iyi optimize etmek ve yükseltmek için daha iyi teknik desteği nasıl geliştirip bulabilecekleri de her şirketin AI iniş ve uygulama sürecinde göz önünde bulundurması gereken bir şeydir.

Okuduğunuz için teşekkürler. Gemide takip etmek ve sizi teknolojide ön plana çıkarmak için tıklayın ~

Hayat kurtaran ventilatördeki boşluğu doldurmak zordur! Tedarik zinciri hakkındaki gerçek
önceki
Huai'an, Jiangsu: Hubei'den tıbbi ekip üyelerinin hikayelerini paylaşmak için kampüse girmelerine yardım edin
Sonraki
Yelken-Haynan'ı kapsamlı bir şekilde derinleştiren reformu ve iki yıl boyunca açılmayı teşvik etmeyi unutmayın.
Tangshan, Hebei: İyi hava, deniz tuzu "toplayın", iyi bir hasat
Lianyungang, Jiangsu: Fırtına için sarı uyarı, balıkçı tekneleri barınak için limana dönüyor
Bir haftalık spor yeni ürün | Air Jordan'ın tam renkli çizgi roman lansmanı, New Balance üst düzey dokuyu sunmak için ortak markalı
Çin resim ustası Dai Dunbang, "Kırmızı Köşklerin Rüyası" nı yeniden üretmek için kaligrafi ve resim kullanıyor, ne kadar güzel olacak?
Topluluğa girin, parka girin, işletmeye girin, iş çevresine girin, aktiviteler sürekli ve heyecan verici
İş kurtarma sürecinde, yaşam hizmeti sektörü için tercihli vergi politikaları yardımcı olacaktır.
Okulun başlama saati belirlenir ve Jinshan'ın ebeveynlerinin "canavarın dönüşüne" tepkisi ...
Adam topluluğa girdi ve korkuluğu parçaladı ve sonuç bir trajediydi ...
Eser Bildiren Başlık-Uzmanlara Karşılık Gelen Jüri Sorgulama Fonksiyonu Çevrimiçi
Röportaj | Xi Murong: Hafızama isim verdim ve ona aittim ve dört gözle bekledim
Okula dönüşteki en büyük değişiklik: daha şişman
To Top