Sizi üç nesil yapay zekaya götürmek için 10 dakika

Kaynak: Tencent Araştırma Enstitüsü

Eser sahibi: Chen Zhaohan

Bu makale var 12753 kelime, Önerilen Okuma 10 dakika.

Bu makale, yapay zekanın en temel modülleri (bilgisayar görüşü, konuşma tanıma, doğal dil işleme, karar verme ve planlama sistemleri) ile başlar, yol boyunca gelişimini gözden geçirir ve bir ayna olarak tarihle geleceğe bakar.

Chen Zhaohan, Tencent AI Lab İş Analizi Yöneticisi

2016'dan bu yana en popüler kelime dağarcığı olarak, insanlar da bu konuda farklı görüşlere sahipler: Bazı insanlar balonun patlamak üzere olduğundan şüpheleniyor, bazıları bu değişikliğin büyük fırsatlar getireceğine inanıyor ve bazıları tehdit ediyor.

Bu seri, farklı bilgi seviyelerindeki okuyuculara anlaşılması kolay bir şekilde fayda sağlamaya çalışıyor: meslekten olmayan kişilerin yapay zeka konusunda net ve objektif bir anlayışa sahip olmalarını sağlamak ve içerideki kişilerin yapay zeka tarafından getirilen sektöre daha iyi katılmalarına yardımcı olmak. Değişim geliyor.

Bu makale, AI'nın en temel modülleri (bilgisayar görüşü, konuşma tanıma, doğal dil işleme, karar planlama sistemi) ile başlayacak, yol boyunca gelişimini gözden geçirecek ve geleceğe bir ayna olarak bakacaktır.

1. Bilgisayarla görmenin tarihi

"Görmek", insanın doğasında var olan bir yetenektir. Yeni doğan bebekler sadece birkaç gün içinde ebeveynlerinin ifadelerini taklit etmeyi öğrenebilirler.İnsanlar dikkat odağını karmaşık yapıların resimlerinden bulabilir ve loş ortamlarda tanıdıklarını tanıyabilirler. Yapay zekanın gelişmesiyle birlikte makineler de bu kabiliyette insanları eşleştirmeye hatta onları geçmeye çalışıyor.

Bilgisayarla görmenin geçmişi 1966 yılına kadar izlenebilir. Yapay zeka bilimcisi Minsky tarafından öğrencilere verilen ödevlerde, öğrencilerden, bilgisayarın bize gördüklerini kamera aracılığıyla anlatmasına izin verecek bir program yazmaları istendi ve bu aynı zamanda bilgisayarla görmenin ilk görevi olarak kabul edildi. açıklama.

70'lerde ve 80'lerde, Modern elektronik bilgisayarların ortaya çıkmasıyla, bilgisayarla görme teknolojisi de filizlenmeye başladı. İnsanlar bilgisayarın gördüklerine cevap vermesini sağlamaya başladılar, bu yüzden ilk düşündükleri şey insanların olayları görme şeklinden öğrenmek oldu.

  • Bir tane ödünç al O zamanlar insanlar genellikle insanların bir şeyleri görebildiğine ve anlayabileceğine inanıyordu çünkü insanlar şeyleri üç boyutlu olarak iki gözle gözlemleyebiliyorlardı. Bu nedenle bilgisayarın gördüğü görüntüyü anlayabilmesi için öncelikle nesnenin üç boyutlu yapısını iki boyutlu görüntüden kurtarması gerekir ki bu sözde "üç boyutlu yeniden yapılandırma" yöntemidir.
  • Referans 2 İnsanlar elmaları önceden bildikleri için insanların bir elmayı tanıyabileceklerini düşünürler. Örneğin, elmalar kırmızı, yuvarlak ve pürüzsüzdür. Makine için bir bilgi tabanı oluşturuyorsanız, makinenin Görülen görüntüleri kütüphanede depolanan bilgilerle eşleştirerek, makine gördüklerini tanıyabilir ve hatta anlayabilir mi? Bu sözde "önsel bilgi tabanı" yöntemidir.

Bu aşamadaki uygulamalar esas olarak optik karakter tanıma, iş parçası tanıma, mikroskopi / havadan resim tanıma vb .'dir.

Doksanlarda, Bilgisayarla görme teknolojisi daha büyük bir gelişme kaydetmiş ve endüstriyel alanlarda da yaygın olarak kullanılmaya başlamıştır. Bir yandan CPU ve DSP gibi görüntü işleme donanım teknolojilerinin hızlı ilerleme kaydetmesinin nedeni, diğer yandan insanlar istatistiksel yöntemler ve yerel özellik tanımlayıcıların tanıtımı dahil olmak üzere farklı algoritmaları denemeye başlıyor.

"Önsel bilgi tabanı" yönteminde, nesnelerin şekli, rengi, yüzey dokusu ve diğer özellikleri, bakış açısı ve gözlem ortamından etkilenir ve farklı açılar, farklı ışıklar ve farklı tıkanmalar altında değişecektir.

Bu nedenle insanlar, yerel özelliklerin tanınmasıyla olayları yargılamanın bir yolunu buldular ve nesneler için yerel bir özellik indeksi oluşturarak, perspektif veya gözlem ortamı değişse bile, bunlar daha doğru bir şekilde eşleştirilebilir.

21. yüzyıla doğru, İnternetin yükselişinin ve dijital kameraların ortaya çıkmasının getirdiği devasa veriler sayesinde, makine öğrenimi yöntemlerinin yaygın uygulamasıyla birlikte bilgisayar görüşü hızla gelişti. Geçmişte, kural tabanlı işleme yöntemlerinin çoğu, büyük verilerden nesnelerin özelliklerini otomatik olarak özetleyen ve ardından tanıyıp yargılayan makine öğrenimi ile değiştirildi.

Bu aşamada, tipik kamera yüz tanıma, güvenlik yüz tanıma, plaka tanıma ve benzeri pek çok uygulama ortaya çıktı.

Veri birikimi aynı zamanda yetkili yüz tanıma ve yüz karşılaştırma tanıma platformları-FDDB ve LFW gibi birçok değerlendirme veri seti üretmiştir; bunlardan en etkili olanı 14 milyon etiketli resim içeren ImageNet'tir. On binlerce kategoriye ayrılmıştır.

2010'dan sonra Derin öğrenmenin yardımıyla, bilgisayarla görme teknolojisi patlayıcı bir büyüme ve sanayileşme yaşadı. Derin sinir ağları sayesinde, vizyonla ilgili çeşitli görevlerin tanıma doğruluğu büyük ölçüde iyileştirildi.

Dünyanın en yetkili bilgisayarla görme yarışmasında ILSVR

(ImageNet Büyük Ölçekli Görsel Tanıma Yarışması) 'nda, 1.000 nesne tanıma türünün İlk 5 hata oranı 2010 ve 2011 yıllarında sırasıyla% 28.2 ve% 25.8'dir. 2012'de derin öğrenmenin başlamasından sonra, takip eden 4 yıl% 16.4 ve 11.7 olmuştur. %,% 6.7 ve% 3.7, önemli gelişmeler yaşandı.

Etkinin gelişmesi nedeniyle bilgisayarla görme teknolojisinin uygulama senaryoları da hızla genişlemektedir.Daha olgun güvenlik alanındaki uygulamaya ek olarak, finans alanında yüz tanıma ve kimlik doğrulama, e-ticaret alanında ürün fotoğrafı arama ve tıbbi alanda akıllı görüntüleme de bulunmaktadır. Robotlar / insansız araçlar vb. Üzerinde görsel bir girdi sistemi olarak tanı, birçok ilginç senaryo dahil: otomatik fotoğraf sınıflandırma (görüntü tanıma + sınıflandırma), görüntü tanımlama oluşturma (görüntü tanıma + anlama), vb.

2. Konuşma teknolojisinin gelişim tarihi

Dil iletişimi, insanlar için en doğrudan ve özlü iletişim yöntemidir. Uzun zamandır, makinelerin "dinlemeyi" ve "konuşmayı" öğrenmesine ve insanlarla engelsiz iletişim kurmasına izin vermek, yapay zeka ve insan-bilgisayar etkileşimi alanında her zaman büyük bir hayal olmuştur.

Elektronik bilgisayarların ortaya çıkmasından çok önce, insanlar makinelerin konuşmayı tanımasına izin verme hayalini kurdular. 1920'de üretilen "Radio Rex" oyuncak köpek, dünyanın en eski konuşma tanıyıcısı olabilir. Birisi "Rex" diye bağırdığında, köpek tabandan fırlayabilir.

Ama aslında kullandığı teknoloji gerçek konuşma tanıma değildir, ancak bir yay sayesinde bu yay 500 Hz'lik bir ses aldığında otomatik olarak serbest kalır ve 500 Hz, insanların "Rex" dediği sesli harf olur. İlk formant.

İlk gerçek elektronik bilgisayar tabanlı konuşma tanıma sistemi, 1952 ATT Bell Labs, Audrey adında bir ses tanıma sistemi geliştirdi ve 10 İngilizce rakamı% 98'lik doğru bir oranda tanıyabilir.

70'ler Büyük ölçekli konuşma tanıma araştırmaları ortaya çıkmaya başladı, ancak o zamanki teknoloji hala emekleme aşamasındaydı ve küçük kelime dağarcığı ile izole edilmiş kelimelerin ve cümlelerin tanınmasında kalıyordu.

geçen yüzyıl 80'ler Bu, teknolojik atılımların çağıdır. Bunun önemli bir nedeni, küresel teleks işinin çok sayıda metin biriktirmiş olmasıdır.Bu metinler, model eğitimi ve istatistikler için makine tarafından okunabilir bir külliyat olarak kullanılabilir. Araştırmanın odak noktası yavaş yavaş geniş kelime dağarcığına, spesifik olmayan sürekli konuşma tanımaya kaymıştır.

O zamanki en önemli değişiklik, geleneksel eşleştirme temelli düşünceyi istatistiksel temelli düşünceyle değiştirmekten geldi: Temel gelişmelerden biri, Gizli Markov Modeli'nin (HMM) teorisi ve uygulamasının gelişme eğiliminde olmasıydı.

Endüstride de yaygın uygulamalar ortaya çıktı.Texas Instruments, Speak Spell adlı bir ses öğrenme makinesi geliştirdi, konuşma tanıma hizmeti sağlayıcısı Speech Works kuruldu ve ABD Savunma Bakanlığı İleri Araştırma Projeleri Ajansı (DARPA) ayrıca bir dizi sesle ilgili projeye sponsor oldu.

90'lar Bu, konuşma tanımanın temelde olgunlaştığı dönemdir. Ana akım Gauss karışım modeli GMM-HMM çerçevesi kademeli olarak stabilize olmuştur, ancak tanıma etkisi ile gerçek pratiklik arasında hala belirli bir mesafe vardır ve konuşma tanıma araştırmasının ilerlemesi yavaş yavaş yavaşlamıştır.

1980'lerin sonlarında ve 1990'ların başlarında sinir ağı teknolojisindeki yükseliş nedeniyle, sinir ağı teknolojisi konuşma tanıma için de kullanıldı ve çok katmanlı algılayıcı gizli Markov modelinin (MLP-HMM) hibrit bir modeli önerildi. Ancak performans GMM-HMM çerçevesini geçemez.

Atılım, derin öğrenmenin ortaya çıkmasıyla başladı. Derin sinir ağlarının (DNN) konuşmanın akustik modellemesine uygulanmasıyla, insanlar fonem tanıma görevlerinde ve geniş kelime haznesi sürekli konuşma tanıma görevlerinde art arda atılımlar yaptılar.

GMM-HMM tabanlı konuşma tanıma çerçevesi yerini DNN-HMM'ye dayalı bir konuşma tanıma sistemi ile değiştirildi.Sistemin sürekli iyileştirilmesiyle birlikte, uzun ve kısa süreli bellek modüllerinin (LSTM) tanıtılmasıyla birlikte derin evrişimli sinir ağları ve tekrarlayan sinir ağları ortaya çıktı ( RNN), tanıma etkisi daha da geliştirildi ve birçok (özellikle yakın alan) konuşma tanıma görevinde insanların günlük yaşamına girebilecek standarda ulaştı.

Bu yüzden Apple Siri liderliğindeki akıllı ses asistanlarını, Echo liderliğindeki akıllı donanım girişlerini vb. Görüyoruz.

Bu uygulamaların popülaritesi, külliyat kaynaklarının toplama kanallarını daha da genişletmiş, dil ve akustik modellerin eğitimi için bol miktarda yakıt ayırmış ve büyük ölçekli genel amaçlı dil modelleri ve akustik modeller oluşturmayı mümkün kılmıştır.

3. Doğal dil işleme tarihi

İnsan günlük sosyal aktivitelerinde, dil iletişimi, farklı bireyler arasında bilgi alışverişi ve iletişim için önemli bir yoldur. Bu nedenle, makineler için, insanlarla doğal olarak iletişim kurup kuramadıkları, insanların ne ifade ettiklerini anlayıp anlamadıkları ve uygun yanıtlar verip vermedikleri, zekalarını ölçmek için önemli bir referans olarak görülüyor ve doğal dil işleme bu nedenle kaçınılmaz hale geldi. konu.

Geçen yüzyılda 50'ler Elektronik bilgisayarların ortaya çıkmasıyla, en tipik olanı makine çevirisi olan birçok doğal dil işleme görevi ortaya çıktı.

O zamanlar, iki farklı doğal dil işleme yöntemi okulu vardı: kural yöntemine dayalı sembol okulu ve olasılık yöntemine dayalı rastgele okul. O zamanki veriler ve hesaplama gücü ile sınırlı olan Random Faction tam gücünü uygulayamadı ve bu da düzenlilik araştırmasını biraz daha üstün kıldı.

Çeviriye yansıyan insanlar, makine çevirisi işleminin şifreyi yorumlamak ve sözlüğü sorgulayarak kelime kelime çeviriye ulaşmaya çalışmak olduğunu düşünürler.Bu yöntemin ürettiği çeviri etkisi iyi değildir ve pratik olması zordur.

O zamanki başarılardan bazıları, 1959'da Pennsylvania Üniversitesi tarafından başarıyla geliştirilen TDAP sistemini (Dönüşüm ve Söylem Analizi Projesi, en eski ve eksiksiz İngilizce otomatik analiz sistemi) ve Brown American English Corpus'un kurulmasını içeriyordu.

IBM-701 bilgisayarı, dünyanın ilk makine çevirisi deneyini gerçekleştirdi ve birkaç basit Rusça cümleyi İngilizceye çevirdi. Bundan sonra Sovyetler Birliği, İngiltere, Japonya ve diğer ülkeler de makine çevirisi deneyleri gerçekleştirdi.

1966'da, Amerikan Bilimler Akademisi Dil Otomatik İşleme Danışma Komitesi (ALPAC), "Dil ve Makineler" başlıklı bir araştırma raporu yayınladı.Rapor, makine çevirisinin uygulanabilirliğini tamamen reddetti ve makine çevirisinin mevcut zorlukların üstesinden gelmek için yeterli olmadığına inanıyordu. Uygulamaya koymak.

Bu rapor, makine çevirisinin önceki yükselişini söndürdü.Birçok ülke bu alandaki fonları kesmeye başladı, birçok ilgili araştırma askıya alındı ve doğal dil araştırmaları dibe vurdu.

Birçok araştırmacı acıdan öğrendi ve iki dil arasındaki farklılıkların sadece kelime dağarcığına değil, aynı zamanda sözdizimsel yapıdaki farklılıklara da yansıdığını fark etti.Tercümenin okunabilirliğini artırmak için, dil modelleri ve anlambilimsel analiz çalışmaları güçlendirilmelidir.

Dönüm noktaları görünür 1976 , Kanada, Montreal Üniversitesi ve Kanada Federal Hükümeti Çeviri Bürosu tarafından ortaklaşa geliştirilmiştir.

Hava tahmini hizmetleri sağlamak için TAUM-METEO adlı bir makine çevirisi sistemi kuruldu. Bu sistem saatte 60.000 ila 300.000 kelimeyi, günde 1-2 bin meteorolojik veriyi tercüme edebilmekte, TV ve gazetelerde anında duyurulabilmektedir.

Bundan sonra, Avrupa Birliği ve Japonya da çok dilli makine çeviri sistemlerini incelemeye başladılar, ancak beklenen sonuçları elde edemediler.

Geldi 90'lar O zaman, doğal dil işleme bir refah dönemine girdi. Bilgisayar hesaplama hızının ve depolama kapasitesinin hızlı bir şekilde artması, büyük ölçekli gerçek metinlerin birikmesi ve internetin gelişmesiyle teşvik edilen ve web aramasıyla temsil edilen doğal dile dayalı bilgi alma ve çıkarma gereksinimlerinin ortaya çıkmasıyla, insanlar doğal dil işlemeye daha fazla ilgi duymaya başladı. Coşkusu görülmemiş derecede yüksek.

Geleneksel kural tabanlı işleme teknolojisinde, insanlar daha fazla veriye dayalı istatistiksel yöntemler sunarak doğal dil işleme araştırmalarını yeni bir boyuta taşıyor. Makine çevirisine ek olarak, doğal dil işleme, web araması, sesli etkileşim ve diyalog robotları gibi alanlarla ilişkilendirilir.

giriş 2010 yılı Gelecekte, büyük verilere ve sığ ve derin öğrenme teknolojilerine dayalı olarak, doğal dil işlemenin etkisi daha da optimize edildi. Makine çevirisinin etkisi daha da iyileştirildi ve özel akıllı çeviri ürünleri ortaya çıktı. Müşteri hizmetleri robotları ve akıllı asistanlar gibi ürünlerde diyalog etkileşim yetenekleri kullanılır.

Bu dönemdeki önemli bir dönüm noktası IBM tarafından geliştirilen Watson sistemi, Jeopardy varyete şovuna katıldı. Yarışmada Watson internete bağlı değildi, ancak 4 TB'lık bir diskte 2 milyon sayfalık yapılandırılmış ve yapılandırılmamış bilgiye güvenerek, Watson insan oyuncuları başarıyla mağlup ederek şampiyonluğu kazandı ve dünyaya doğal dil işleme teknolojisinin elde edebileceği gücü gösterdi.

Makine çevirisi açısından, geleneksel kelime öbeğine dayalı makine çevirisi (PBMT) ile karşılaştırıldığında, Google'ın sinir ağı makine çevirisi (GNMT), İngilizce'den İspanyolca'ya hata oranını% 87 ve İngilizce'den Çince'ye hata oranını% 58 azaltmıştır. Çok güçlü bir gelişme sağlandı.

4. Planlama karar sisteminin gelişim geçmişi

Yapay zeka planlama ve karar verme sistemlerinin gelişimi bir zamanlar tahta oyunlarına dayanıyordu. 18. yüzyılın başlarında, satranç oynayabilen ve o dönemde Napolyon ve Franklin dahil olmak üzere neredeyse tüm insan satranç oyuncularını yenebilen bir makine vardı. Ama sonunda makinede gizli bir insan ustası olduğu keşfedildi ve bu karmaşık makine yapısıyla izleyiciyi şaşırtmak sadece bir aldatmacaydı.

Yapay zekaya dayalı planlama ve karar verme sistemi, elektronik bilgisayarların doğuşundan sonra ortaya çıktı. 1962 Tekrarlanan iyileştirmelerden sonra, Arthur Samuel tarafından yapılan dama programı dama nihayet eyalet şampiyonunu yendi.

O zamanki programlar akıllı olmamasına rağmen, başlangıçtaki kendi kendine öğrenme yeteneğine zaten sahiptiler.Bu zafer, o sırada hala büyük bir sansasyon yarattı. Sonuçta, bir makine, istihbarat yarışmasında ilk kez insanları yendi. Bu aynı zamanda insanlara iyimser tahminler verdi: "Makine on yıl içinde insan satranç şampiyonunu yenecek."

Ancak yapay zekanın karşılaştığı zorluklar, insanların sandığından çok daha büyük ... Bundan sonra dama programı da ulusal şampiyona kaybedildi ve bir sonraki aşamaya geçilemedi. Satranç, damadan çok daha karmaşıktır Zamanın hesaplama gücüyle, bir makine bir insan satranç oyuncusunu şiddetli hesaplamalarla yenmek istiyorsa, hamle başına ortalama hesaplama süresi yıl cinsindendir. İnsanlar ayrıca, yalnızca hesaplama karmaşıklığını mümkün olduğu kadar azaltarak insanlarla rekabet edebileceklerinin farkındadır.

Bu nedenle, "budama yöntemi" değerlendirme işlevine uygulanır ve son değerlendirme işlevi hesaplaması, düşük olasılıklı hareketler ortadan kaldırılarak optimize edilir. "Budama yönteminin" etkisi altında, Northwestern Üniversitesi tarafından geliştirilen bir satranç programı olan Satranç 4.5, 1976'da ilk kez en iyi insan satranç oyuncularını yendi.

giriş 80'ler Algoritmanın sürekli optimizasyonu ile robotik satranç programının anahtar kazançlar ve kayıplar üzerindeki yargılama yeteneği ve hesaplama hızı büyük ölçüde iyileştirildi ve neredeyse tüm en iyi satranç oyuncularını yenmeyi başardı.

Geldi 90'lar Donanım performansı, algoritma yetenekleri vb. Büyük ölçüde geliştirildi. 1997'deki ünlü insan-makine savaşında, IBM tarafından geliştirilen Deep Blue, satranç ustası Kasparov'u yendi , İnsanlar satranç oyunlarında makineyi yenmenin zor olduğunun farkındadır.

Geldi 2016 Donanım düzeyinde, GPU ve TPU'ya dayalı paralel hesaplama ortaya çıktı ve Monte Carlo karar ağacı ile derin sinir ağının kombinasyonu algoritma düzeyinde ortaya çıktı.

Li Shishi'yi 4: 1 yendi, Wild Fox Go'da en iyi oyunculara karşı art arda 60 galibiyet oynadı ve dünyanın 1 numaralı Go oyuncusu 3: 0 Ke Jie'yi yendi. Masa oyunlarının son kalesi olan Go da Alpha Go tarafından fethedildi. Kusursuz bilgi oyunu oyununda, tamamen makineye kapandı ve sadece Texas Hold'em ve Mahjong'un kusurlu bilgilerinde hayatta kalabilir.

İnsanların tahta oyunlarından elde ettiği bilgi ve deneyim, robot kontrolü, insansız araçlar vb. Dahil olmak üzere karar verme ve planlama gerektiren çok çeşitli alanlarda da kullanılmaktadır. Masa oyunu tarihi misyonunu tamamlayarak yapay zekayı yeni bir tarihsel başlangıç noktasına götürdü.

5. Yapay zekanın bugünü

Günümüzde yapay zekanın gelişimi belirli bir "eşiği" aştı. Önceki çılgınlıklarla karşılaştırıldığında, bu kez yapay zeka daha "gerçek" ve bu "gerçeklik", farklı dikey alanların performans iyileştirme ve verimlilik optimizasyonuna yansıyor. Bilgisayar görüşü, konuşma tanıma ve doğal dil işlemenin doğruluğu artık "oyun evi" düzeyinde değildir ve uygulama senaryosu artık sadece yeni bir "oyuncak" değil, yavaş yavaş gerçek iş dünyasında oynamaktadır. Önemli destek rolü.

6. Konuşma işlemenin bugünü

Ön uç sinyal işleme, ara konuşma anlamsal tanıma ve diyalog yönetimi (doğal dil işleme hakkında daha fazla bilgi) ve konuşma sonrası sentez dahil olmak üzere eksiksiz bir konuşma işleme sistemi.

Genel olarak konuşursak, konuşma teknolojisinin hızla gelişmesiyle, önceki nitelikler sürekli olarak azalmaktadır: küçük kelime dağarcığından büyük kelime dağarcığına, sınırlı bağlamdan esnek bağlama, keyfi bağlama, sessizden Çevreden yakın alan ortamına, uzak alan gürültülü ortama, okuma ortamından sözlü ortama, keyfi diyalog ortamına, tek dilli, çok dilli ve çok dilli karıştırmaya kadar, ancak bu, konuşma işleme için daha yüksek gereksinimleri ortaya koymaktadır.

Ön uç konuşmanın işlenmesinde birkaç modül vardır.

  • Konuşma algılama: Konuşmacının sesinin başlangıç ve bitiş anlarını etkili bir şekilde algılayın, konuşmacının sesini arka plan sesinden ayırın;
  • Yankı giderme: Hoparlör müzik çalarken, müziği duraklatmadan etkili ses tanıma gerçekleştirmek için, hoparlörden gelen müzik parazitini ortadan kaldırmak gerekir;
  • Kelime tanımayı uyandırma: İnsanlar ve makineler arasındaki iletişimi tetikleyen yol, günlük yaşamda başka insanlarla konuşmanız gerektiğinde, önce o kişinin adını söyleyeceksiniz;
  • Mikrofon dizisi işleme: Ses kaynağını bulun, sinyali konuşmacının yönünde geliştirin ve diğer yönlerdeki gürültü sinyallerini bastırın;
  • Konuşma geliştirme: Konuşmacının konuşma alanı daha da geliştirilir ve çevresel gürültü alanı daha da bastırılarak uzak alan konuşmasının zayıflaması etkili bir şekilde azaltılır.

Yakın alan etkileşimi olan avuç içi cihazlar dışında, diğer birçok senaryo - araçlar, akıllı evler, vb. - uzak alan ortamlarıdır.

Uzak alan ortamında, mikrofona iletildiğinde ses çok şiddetli bir şekilde azaltılır ve yakın alan ortamında bahsedilmeye değer olmayan bazı sorunların önemli ölçüde güçlendirilmesine neden olur. Bu, gürültü, yankılanma ve yankı gibi sorunların üstesinden gelmek ve daha iyi uzak alan algılaması elde etmek için ön uç işleme teknolojisi gerektirir.

Aynı zamanda, etkiyi iyileştirmek için modeli sürekli olarak optimize etmek için uzak alan ortamında daha fazla eğitim verisine de ihtiyaç vardır.

Konuşma tanıma süreci, özellik çıkarma, model uyarlama, akustik model, dil modeli ve dinamik kod çözme gibi çoklu süreçlerden geçmelidir. Yukarıda bahsedilen uzak alan tanımlama problemine ek olarak, "kokteyl partisi problemini" çözmeye odaklanan birçok modern çalışma vardır.

"Kokteyl Partisi Sorunu" Çok kişili sahnelerin ses / gürültü karışımında en az bir sesi izleyip tanıyan bir tür insan işitme yeteneği gösterir ve gürültülü bir ortamda normal iletişimi etkilemez.

Bu yetenek iki senaryoya yansıtılır:

  • Biri İnsanlar, bir kokteyl partisinde bir arkadaşla konuşurken olduğu gibi belirli bir sese odaklandıklarında, ortam çok gürültülü olsa ve ses seviyesi arkadaşının sesini bile aşsa bile, arkadaşın ne dediğini net bir şekilde duyabiliriz;
  • iki İnsanların işitme organları aniden uyarıldığında, örneğin birisi uzaktan ismini söylediğinde veya anadilini ana dili olmayan bir ortamda duyduğunda, ses çok uzakta ve ses seviyesi küçük olsa bile, kulaklarımız Ayrıca hemen yakalanabilir.

Makine bu beceriden yoksundur Mevcut ses teknolojisi, bir kişinin söylediklerini anlarken yüksek doğruluk gösterebilmesine rağmen, konuşmacı sayısı iki veya daha fazla olduğunda, tanıma doğruluğu büyük ölçüde azalacaktır.

Teknik bir dilde tanımlanmışsa, sorunun özü, belirli bir konuşmacının sinyalini ve diğer gürültüleri belirli bir çok kişili karışık konuşma sinyalinden nasıl ayıracağınızdır, karmaşık bir görev ise eşzamanlı konuşmayı ayırmaktır. Her kişi için bağımsız ses sinyali.

Bu görevler için, araştırmacılar bazı planlar önerdiler, ancak aşamalı olarak atılımlar yapmak ve nihayet kokteyl partisi problemini çözmek için daha fazla eğitim verisi biriktirme ve eğitim süreci iyileştirmeye ihtiyaç var.

Anlamsal tanıma ve diyalog yönetiminin daha çok doğal dil işleme olduğu düşünüldüğünde, gerisi konuşma sentezidir.

Konuşma sentezinin birkaç adımı şunları içerir: metin analizi, dil analizi, perde tahmini, telaffuz parametresi tahmini, vb.

Mevcut teknolojiye dayalı olarak sentezlenen konuşma, iyi bir netlik ve anlaşılırlık düzeyine ulaşmıştır, ancak makine aksanı hala nispeten açıktır.

Birkaç güncel araştırma yönü şunları içerir: sentezlenmiş konuşmanın nasıl daha doğal hale getirileceği, sentezlenmiş konuşmanın nasıl daha anlamlı hale getirileceği ve doğal ve pürüzsüz çok dilli hibrit sentezin nasıl elde edileceği. Yalnızca bu yönlerde atılımlar yaparak sentezlenmiş konuşma gerçekten insan sesinden ayırt edilemez.

Bazı kısıtlı koşullar altında, makinenin gerçekten de belirli bir "dinleme ve dinleme" yeteneğine sahip olabileceği görülebilir. Bu nedenle, sesli arama, sesli çeviri, makine okuması vb. Gibi bazı özel senaryolarda gerçekten yararlı olabilir.

Ancak normal insanlar gibi diğer insanlarla gerçekten sorunsuz ve özgür bir şekilde iletişim kurmak zaman alacaktır.

7. Bilgisayar vizyonunun bugünü

Kolaydan zora teknik zorluğa, yüksekten alçağa ticarileştirmeye göre bilgisayar vizyonunun araştırma yönü, sırasıyla işleme, tanımlama ve tespit, analiz ve anlamadır.

Görüntü işleme, üst düzey anlambilim içermeyen, ancak yalnızca düşük düzeyli pikseller için işlemeyi ifade eder; görüntü tanıma algılama, ses bilgilerinin basit keşfini içerir; görüntü anlama, daha zengin, daha geniş ve daha derin anlamsal keşif dahil olmak üzere daha yüksek bir düzey alır .

Şu anda, makinenin performansı, işleme ve tanımlama düzeyinde tatmin edicidir. Ancak anlayış düzeyinde, incelemeye değer birçok şey var.

Görüntü işleme, büyük miktarda eğitim verisine dayanır (örneğin, gürültülü ve gürültüsüz görüntü eşleştirme yoluyla) ve uçtan uca bir çözüm, derin sinir ağları aracılığıyla eğitilir. Birkaç tipik görev vardır: gürültü giderme, bulanıklık giderme, süper çözünürlüklü işleme, filtre işleme vb.

Videoya uygulandığında, esas olarak videoyu filtrelemektir. Bu teknolojiler şu anda nispeten olgunlaşmış ve çeşitli P-resim yazılımlarında ve video işleme yazılımlarında her yerde görülebilir.

Görüntü tanıma ve algılama süreci, görüntü ön işleme, görüntü bölümleme, özellik çıkarma ve değerlendirme eşleştirmeyi içerir.Ayrıca derin öğrenmeye dayalı uçtan uca bir çözümdür. Sınıflandırma problemleri (resmin içeriğinin kedi olup olmadığını belirlemek gibi), konumlandırma problemleriyle (resimdeki kedinin nerede olduğunu belirlemek gibi) ve tespit problemleriyle (resimdeki hangi hayvanların ve nerede olduklarını belirlemek gibi) başa çıkmak için kullanılabilir.

), segmentasyon sorunları (resimdeki hangi piksel alanlarının kedi olduğu gibi), vb.

Bu teknolojiler de nispeten olgunlaşmıştır. Görüntüler üzerindeki uygulamalar arasında yüz algılama ve tanıma, OCR (Optik Karakter Tanıma, Optik Karakter Tanıma) vb. Yer alır ve videolar filmlerdeki yıldızları tanımlamak için kullanılabilir.

Tabii ki, derin öğrenme bu görevlerde önemli bir rol oynar.

Geleneksel yüz tanıma algoritmaları, renk, şekil, doku ve diğer özellikleri göz önünde bulundursalar bile yalnızca yaklaşık% 95 doğruluk elde edebilir. Derin öğrenmenin lütfu ile doğruluk oranı% 99,5'e ulaşabilir ve hata oranı 10 kat azaltılarak finans ve güvenlik alanlarında çok çeşitli ticari uygulamalara olanak sağlanmıştır.

OCR alanında, geleneksel tanıma yöntemlerinin net ve doğru karakter görüntüleri elde etmek için keskinlik değerlendirmesi, histogram eşitleme, gri tonlama, eğim düzeltme ve karakter kesme gibi birden çok ön işleme görevinden geçmesi ve ardından karakterleri tanıması ve çıktısını alması gerekir.

Derin öğrenmenin ortaya çıkışı, yalnızca karmaşık ve zaman alan ön işleme ve son işleme çalışmalarını ortadan kaldırmakla kalmaz, aynı zamanda kelime doğruluğunu% 60'tan% 90'ın üzerine çıkarır.

Görüntüyü anlama, esasen görüntü ve metin arasındaki etkileşimdir. Metin tabanlı resim araması, resim açıklaması oluşturma, resim soru ve cevabı (verilen resim ve soru, çıktı yanıtı) vb. Gerçekleştirmek için kullanılabilir.

Geleneksel yönteme göre: metin tabanlı görüntü arama, metindeki en benzer metni aramak ve karşılık gelen metin görüntü çiftini döndürmektir; görüntü açıklama oluşturma, görüntüden tanınan nesnelere dayalı kural şablonuna dayalı açıklama metni oluşturmaktır; görüntü sorusu ve cevabı Görüntünün ve metnin dijital temsilini ayrı ayrı elde etmek ve ardından cevabı almak için sınıflandırmaktır.

Derin öğrenmeyle, efekti iyileştirmek için doğrudan görüntüler ve metin arasında uçtan uca bir model oluşturabilirsiniz. Görüntüyü anlama görevi henüz çok olgun sonuçlar elde etmedi ve ticari senaryolar da araştırılıyor.

Bilgisayarla görmenin eğlence ve alet kullanımının ilk aşamasına geldiği görülmektedir.

Otomatik fotoğraf sınıflandırma, görüntü arama, görüntü tanımlama oluşturma vb. Gibi işlevlerin tümü insan görüşü için yardımcı araçlar olarak kullanılabilir. İnsanların artık bilgiyi yakalamak, beynin bilgiyi işlemek ve sonra analiz etmek ve anlamak için çıplak göze güvenmesine gerek yok, ancak sonuçları yakalamak, işlemek ve analiz etmek ve ardından sonuçları insanlara iade etmek için makineye teslim edilebilir.

Geleceğe bakıldığında, bilgisayar vizyonu, otonom anlayış ve hatta analiz ve karar vermenin ileri aşamasına girme potansiyeline sahiptir, makinelere gerçekten "görme" yeteneği kazandırır, böylece akıllı evler ve insansız araçlar gibi uygulama senaryolarına daha fazla değer katar.

8. Doğal dil işlemenin bugünü

Doğal dil işlemedeki birçok temel bağlantı, bilgi edinme ve ifade etme, doğal dil anlama, doğal dil üretimi, vb. İçerir. Buna bağlı olarak, bilgi grafikleri, diyalog yönetimi ve makine çevirisi gibi araştırma yönleri, yukarıda bahsedilen işleme bağlantılarının birden çok çiftini oluşturarak ortaya çıkmıştır. Birçok haritalama ilişkisi.

Doğal dil işleme, makinelerin "algılama" dan daha zor olan "anlama" yeteneğine sahip olmasını gerektirdiğinden, bu sorunların çoğu bugüne kadar iyi çözülmemiştir.

Bilgi Grafiği Bilginin anlamsal düzeye göre düzenlenmesi ile elde edilen, gerçeklere benzer basit soruları yanıtlamak için kullanılabilecek yapılandırılmış bir sonuçtur.

Dil bilgisi haritası (üst ve alt anlamına gelen kelime, eşanlamlılar, vb.), Sağduyu bilgi haritası ("kuşlar uçabilir ama tavşanlar uçamaz"), varlık ilişkisi haritası ("Andy Lau'nun karısı Zhu Liqian") dahil.

Bilgi grafiği oluşturma süreci aslında bilgi edinme, bilgiyi temsil etme ve bilgiyi uygulama sürecidir.

Örneğin, "Andy Lau, karısı Zhu Liqian ile film festivaline katıldı" İnternette bir metin için "Andy Lau", "karısı" ve "Zhu Liqian" anahtar kelimelerini çıkarabilir ve ardından "Andy Lau-Karı-Zhu Liqian" alabiliriz. "Böyle üçlü bir temsil.

Benzer şekilde, "Andy Lau-Yükseklik-174cm" nin üçlü temsilini de alabiliriz. Farklı alanlardaki farklı varlıkların bu üçlü temsilleri, bir bilgi grafik sistemi oluşturmak için birlikte düzenlenir.

Anlamsal anlama, doğal dil işlemedeki en büyük problemdir.Bu problemin temel sorunu, mevcut bağlama göre çoktan çoğa biçim ve anlam eşlemesinden en uygun eşlemenin nasıl bulunacağıdır.

Çince'yi örnek alırsak, çözülmesi gereken 4 zorluk vardır:

  • Birincisi belirsizlik giderme, Kelime belirsizliği dahil (örneğin, "dalış" bir su altı sporuna atıfta bulunabilir veya bir forumda konuşmama), kelime öbeği belirsizliği (örneğin, "içe aktarılmış renkli TV" içe aktarılmış renkli bir TV'yi veya bir aksiyon eylemini ifade edebilir), Cümlelerin belirsizliği (örneğin, "Ameliyatı babası yapmıştır", babasının ameliyata girdiği veya babasının cerrah olduğu anlamına gelebilir);
  • İkincisi, bağlamsal alaka düzeyidir, Referans çözümü dahil (örneğin, "Xiao Ming, Xiao Li'ye zorbalık etti, bu yüzden onu eleştirdim.", Yaramaz Xiao Ming'i eleştirdiğimi bilmek için bağlama güvenmeniz gerekir), ihmalden kurtulma (örneğin, "Lao Wang'ın oğlu, Lao Zhang'ın oğlundan daha iyi öğrenir Güzel. "Aslında," Lao Zhangın oğlunun çalışmasından daha iyi "anlamına geliyor);
  • Üçüncüsü, niyet tanımadır, İsimlerin ve içeriğin kasıtlı olarak tanınması ("güneşli", hava durumu veya Jay Chou'nun şarkısı anlamına gelebilir), kısa konuşmaların ve Soru-Cevapların ("bugün yağmur yağıyor" küçük bir sohbettir ve "bugün yağmur yağıyor mu" hava durumu ile ilgilidir) ), Açık ve örtük niyet tanıma ("Cep telefonu satın almak istiyorum" ve "Bu telefon çok uzun süredir kullanılıyor" sorgusu, kullanıcının yeni bir cep telefonu satın alma niyetidir);
  • Son parça duygu tanımadır, Açık ve örtük duygu tanıma dahil olmak üzere ("Mutlu değilim" ve "Sınava iyi girmedim", kullanıcının ruh halinin düşük olmasıdır) ve önceki sağduyuya dayalı duygu tanıma ("Uzun pil ömrü" övgüye değerdir ve "Uzun bekleme süresi" aşağılayıcıdır).

Yukarıdaki zorluklar göz önüne alındığında, anlamsal anlama için olası bir çözüm, bilgiyi çoktan çoğa haritalama ikilemini çözmek için sınırlamak ve bilgi grafikleri aracılığıyla makine bilgisini desteklemek için kullanmaktır.

Bununla birlikte, anlamsal anlamadaki zorlukların üstesinden gelinse bile, makinenin daha az zihinsel engelli görünmesi için mesafe yeterli değildir ve diyalog yönetiminde bir atılım gereklidir.

Şu anda, diyalog yönetimi, profesyonellerle ilgili genel bilgilere göre temel olarak üç durumu içerir, ardından küçük sohbet, soru-cevap ve görev odaklı diyalog izler.

Küçük konuşma, duygusal bağlantılar ve sohbet kişiliği ile açık alanlı bir diyalogdur, örneğin "Bugün hava gerçekten çok iyi" "Evet, yürüyüşe çıkmak ister misin?" Küçük konuşmanın zorluğu, akıllıca cevaplarla ilgiyi nasıl canlandıracağı / tatminsizliği nasıl azaltacağıdır. Konuşma süresini uzatın ve yapışkanlığı artırın;

Sorular ve cevaplar, genellikle tek bir turda, "Andy Lau'nun karısı kimdir?" "6 Nisan 1966'da Penang, Malezya'da doğan Andy Lau'nun karısı Zhu Liqian ..." gibi bir soru-cevap modeline ve bilgi erişim diyaloğuna dayanmaktadır. Sorular ve cevaplar sadece nispeten eksiksiz bir bilgi haritası gerektirmekle kalmaz, aynı zamanda doğrudan bir cevap olmadığında cevaplar almak için muhakeme kullanmalıdır;

Görev odaklı diyalog, genellikle birden çok turda, "koşarken dinlediğiniz bir şarkıyı çalın", "Yuquan'ın" Koşusunu "önerin", "İngilizce şarkıları dinlemek istiyorum" ve "sizin için" gibi, alan doldurma ve akıllı karar vermeyi içerir. Eminem'in "Notafraid" ini tavsiye ederim. Göreve dayalı basit diyalog nispeten olgunlaşır. Saldırının gelecekteki yönü, manuel yuva tanımlarına güvenmeden genel alanlarda diyalog yönetiminin nasıl kurulacağıdır.

Tarihsel olarak, doğal dil üretiminin tipik uygulaması makine çevirisi olmuştur. Geleneksel yöntem, Öbek Tabanlı Makine Çevirisi (PBMT) adı verilen bir yöntemdir: önce tam bir cümleyi birkaç cümleye ayırın, bu cümleleri ayrı ayrı çevirin ve ardından sırayı bir cümleyi geri yüklemek için gramer kurallarına göre ayarlayın. Tongshun çevirisi.

Tüm süreç karmaşık görünmüyor, ancak bir dizi doğal dil işleme algoritması içeriyor, bunlar birbirine kenetlenmiş Çince kelime bölümleme, konuşma parçası etiketleme, sözdizimsel yapı vb. Dahil ve herhangi bir bağlantıdaki hatalar ileri taşınacak ve nihai sonucu etkileyecektir. .

Derin öğrenme, uçtan uca bir öğrenme yöntemi aracılığıyla büyük miktarda eğitim verisine dayanır, doğrudan kaynak dil ile hedef dil arasındaki eşleştirme ilişkisini kurar, karmaşık özellik seçimi ve manuel parametre ayarlama adımlarını atlar.

Bu tür bir düşünceyle, insanlar 1990'ların başlarında önerilen "kodlayıcı-kod çözücü" nöral makine çeviri yapısını sürekli olarak geliştirdiler ve sistem performansını önemli ölçüde artıran bir dikkat mekanizması getirdiler.

Bundan sonra, Google ekibi, önceki sistemden daha akıcı ve sorunsuz olan güçlü mühendislik yetenekleri sayesinde önceki SMT'yi (İstatistiksel Makine Çevirisi) yepyeni bir makine çevirisi sistemi olan GNMT (Google Neural Machine Translation) ile değiştirdi ve hata oranı da büyük ölçüde azaldı.

Nadir kelimelerin tercümesi, cevapsız kelimeler, tekrarlanan tercümeler vb. Gibi çözülmesi gereken birçok sorun olmasına rağmen, nöral makine tercümesinin performansta gerçekten büyük atılımlar yaptığı inkar edilemez. Başvuru beklentisi de çok etkileyici.

İnternetin yaygınlaşmasıyla birlikte elektronik bilginin derecesi de artmaktadır. Devasa veriler, eğitim sürecinde yalnızca doğal dil işleme için yakıt değildir, aynı zamanda bunun için geniş bir geliştirme aşaması sağlar. Arama motorları, diyalog robotları, makine çevirisi, hatta üniversiteye giriş sınav robotları ve akıllı ofis sekreterleri, insanların günlük yaşamlarında giderek daha önemli bir rol oynamaya başladı.

9. Makine öğreniminin bugünü

Yapay zeka düzeyine göre makine öğrenimi, bilgisayarla görme, doğal dil işleme ve konuşma işlemeden daha düşük düzeyde bir kavramdır. Son yıllarda, teknoloji katmanının gelişimi gelişti ve algoritma katmanındaki makine öğrenimi de birkaç önemli araştırma yönü üretti.

Birincisi, dikey alanlarda geniş uygulama.

Makine öğreniminin hala birçok sınırlaması olduğu ve evrensel olmadığı göz önüne alındığında, nispeten dar bir dikey alandaki uygulama daha iyi bir giriş noktası haline geldi.

Çünkü sınırlı alanda öncelikle problem alanı yeterince küçülür, modelin etkisi daha iyi olabilir; ikincisi, belirli senaryolarda eğitim verilerinin biriktirilmesi daha kolaydır ve model eğitimi daha verimli ve hedefe yöneliktir; üçüncü olarak insanlar Makinenin beklentileri özel ve özeldir ve beklentiler yüksek değildir.

Bu üç nokta, makinenin bu sınırlı alanda yeterli zeka göstermesine neden olur, böylece son kullanıcı deneyimi nispeten daha iyi olur.

Bu nedenle, finans, hukuk ve tıbbi bakım gibi dikey alanlarda bazı olgun uygulamalar gördük ve belirli bir ticarileştirmeyi zaten başardık. Dikey alanlarda tekrarlanan çalışmaların büyük bir kısmının gelecekte yapay zeka ile yer değiştireceği öngörülebilir.

İkincisi, basit dışbükey optimizasyon problemlerini çözmekten, konveks olmayan optimizasyon problemlerini çözmeye kadar.

Optimizasyon problemi, tüm değerlendirme faktörlerini bir dizi işlev olarak ifade etmeyi ve ardından bunlardan en uygun çözümü seçmeyi ifade eder. Dışbükey optimizasyon probleminin iyi bir özelliği, yerel optimalin global optimal olmasıdır.

Şu anda, makine öğrenimindeki sorunların çoğu, belirli kısıtlamalar eklenerek dönüştürülebilir veya dışbükey bir optimizasyon problemine yaklaştırılabilir.

Herhangi bir optimizasyon problemi, fonksiyon üzerindeki tüm noktaların üzerinden geçerek optimal değeri bulabilmelidir, ancak bu tür hesaplamaların miktarı çok büyüktür.

AI

Facebook AI Yann LeCun

Bits1010000BitsBits

GANsGeneratorDiscriminator

2014Ian GoodfellowGANsYann LeCun 20

environmentagentexplorationexploitation

positive rewardnegative rewardoptimal policy

10.

  • Her şeyden önce,
  • İkincisi, AIAI
  • Sonunda,

Artificial General Intelligence, AGI

AI

AGI

GANs

MBGBGB

PCAPP

- Bitiş -

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

AI araştırması birçok alanda durgunlaşıyor
önceki
Python tek tıklama ile Java mı? "Google Çeviri" sorun çıkarmaz (bağlantı eklidir)
Sonraki
Yandu'nun hikayesini anlatan Zigong, bir tur rehberi ve açıklayıcı becerileri yarışması düzenliyor
anlaşmazlık! Ceza sahasında iki elle oynama yapılmadı + Salah pedal çevirdi ve kırmızı karttan kurtuldu, rakip 1'in sözleri çok baskıcı.
Başkent kış, böyle bir AI çip şirketi 2019'da tehlikede
Sarı yelekliler hareketi muhteşem, İtalya Avrupa Schengen'den çekilme niyetinde
Arabanın sahibi, arkadaşının sigortayı dolandırmak için kötü bir fikir olduğuna inandıktan sonra tutuklandı.
Zhang Jin ve Tony Jia, "Ip Man Side Story: Zhang Tianzhi" Ay Yeni Yılı Dosyası "Bire Bir" üzerinde ustalaşıyor
Şampiyonlar Ligi tartışmalarından bir sahne! Manchester City generalinin dirseği + misilleme eylemi, 60.000 taraftar tarafından yuhalıyor
Çılgın! Sun Xingyun'un Şampiyonlar Ligi rekorunu kırması bekleniyor, Asya'da 1 numaradan sadece bir gol uzakta.
136 yıllık dönüm noktası hedefleri! Sun Xingmin bir kez daha 60.000 hayranı üzdü ve kameraya çılgınca bağırdı
Butan yapışık kız bebek Avustralya hastanesinde başarıyla ayrıldı ve ameliyattan sonra iyileşti
Kod yazmak için geç kalıyorsunuz, neden GitHub'dan binlerce Yıldız almıyorsunuz?
ABD'li bilim adamları, dış kuvvet olmaksızın özerk olarak sıvı akışının yeni formu, akışkanlar mekaniği anlayışını altüst ediyor
To Top