NLP 60 Yıllık Meditasyon: Bir Sesi Bulmak

1 Xinzhiyuan derlemesi

Dil: ses çıkar

Greene, bilgisayarların çeviri, konuşma tanıma ve konuşma analizinde eskisinden çok daha iyi performans gösterdiğini, ancak yine de dilin anlamını anlayamadıklarını söyledi.

"2001: A Space Odyssey" filminde HAL 9000 bilgisayarı soğuk bir sesle "Üzgünüm Dave. Korkarım bunu yapamam," dedi. Gezmek için uzay gemisinden ayrılan astronot Dave Bowman'ı engelledi. HAL'ın arkadaşını (David) reddetmesi, insanların makine zekası konusunda endişelenmesine neden oldu.

Film 1968'de yayınlandığında, bilgisayarların insanlarla sorunsuz bir diyalog kurmasına izin vermek, insan yapımı bir uzay aracının Jüpiter'e binmesi kadar uzaktı. O zamandan beri insanlar, entegre doğal dille konuşabilen ve soruları cevaplayabilen makineler inşa etmede büyük adımlar attı. Öyle olsa bile, insan ve makine arasındaki iletişim hala çok zor. Bugün mevcut dil teknolojisini yansıtmak için buna benzer başka bir film yaparsanız, diyalog şöyle olmalıdır: "Kapağı aç, Hal", "Üzgünüm Dave, sorunu anlamıyorum." "Kapağı aç, Hal", "Sana eBay'deki kapakla ilgili öğelerin bir listesini buldum, Dave."

Yaratıcı, gerçek diyalog kurabilen ve beklenmedik olayların üstesinden gelebilen bilgisayarlar hala bizden çok uzak. Ne zaman akıllı bir HAL, Terminator veya Roise oluşturabilecekleri sorulduğunda (filmdeki üçü de robot karakterlerdir), yapay zeka araştırmacıları yalnızca gülebilir. Az sayıda sabit görevden ayrı olarak, makine dili teknolojileri hala insanların yerini almaktan uzaktır, ancak en azından şimdi dikkat çekecek kadar iyidirler. İnsanların yalnızca insanların tamamlayabileceği görevlere daha fazla zaman harcamasına yardımcı olabilirler. Yapay zeka 60 yıllık araştırmalardan geçti. Çoğu zaman hayal kırıklığı yaratsa da, gerçekten de son birkaç yılda bazı önemli sonuçlar verdi.Öncü bilim adamlarının beklediği sonuçlara daha da yaklaştı. .

Konuşma tanıma, dikkate değer bir ilerleme kaydetti. Aynısı makine çevirisi için de geçerli. Bir karmaşadan kullanılabilir bir aşamaya geçti. Bir metnin en azından ana noktası anlaşılabilir. Yakında, makine çevirisi yalnızca küçük bir miktar insan revizyonu gerektirebilir. Apple Siri, Amazon Alexa ve Google'ın Now ve Microsoft Cortana gibi kişisel bilgisayar asistanları artık çok sayıda soruyu ele alabilir, bunları birden çok şekilde düzenleyebilir ve doğal sesle doğru ve yararlı yanıtlar verebilir. Alexa, "bana bir şaka söyle" gibi istekleri bile tamamlayabilir, ancak sadece şaka veritabanından yanıtlar arar. Bilgisayarın kendisinin mizah anlayışı yok.

Apple, Siri'yi 2011'de piyasaya sürdüğünde, deneyim çok zayıftı, pek çok kişi pes etti. Danışmanlık ajansı Creative Strategies'in verilerine göre, akıllı telefon kullanıcılarının yalnızca üçte biri kişisel asistan kullanacak ve% 95'i bunu yalnızca deneme olarak kullanacak. Kullanım sürecinde hayal kırıklığına uğrayan bu kullanıcılar, bu programların şu anda ne kadar ilerleme kaydettiğinin farkında olmayabilir.

1966'da John Pierce, Bell Labs'ta araştırma yaptı. Ekibe ilk transistörü ve ilk iletişim uydusunu inşa etmesine öncülük etti ve bu iki şey ona prestij kazandırdı ve bu nedenle Ulusal Bilimler Akademisi, otomatik dil işleme teknolojisi araştırması hakkında bir rapor hazırlamak için ona bir görev verdi. Bu süre zarfında, akademisyenler otomatik dil çevirisinin birkaç yıl içinde aşılacağına söz verdiler.

Ancak bu raporun sonuçları şok ediciydi. Son 10 yılda makine çevirisi ve otomatik konuşma tanımanın gelişimini inceledikten sonra rapor, paranın bazı önemli, pratik ve nispeten kısa vadeli projelere harcanması gerektiği sonucuna vardı. Başka bir deyişle, dil teknolojisi araştırması olasılığı abartılı ve üretilmesi zor.

Pennsylvania Üniversitesi'nde dilbilim profesörü ve Language Data Alliance'ın lideri Mark Liberman, dil teknolojisinin soğuk kıştan nasıl kurtulduğunun hikayesinin hem pratikliği hem de evrenselliği içerdiğini söyledi. O "karanlık" günlerde, araştırmacılar genellikle kendi araştırma yöntemlerine işaret etmezler ve araştırma sonuçlarını değerlendirilmesi zor bir şekilde açıklarlar. Bununla birlikte, 1980'lerden beri, Amerika Birleşik Devletleri'nde DARPA'nın bir üyesi olan Charles Wayne, onları başka bir genel yöntem misyonu denemeye teşvik etti.

adım adım

Araştırmacılar, ister bilgisayarda konuşma tanıma, konuşmacı tanıma, metin duyarlılık analizi, dilbilgisi analizi, dil tanıma, el yazısı tanıma veya başka herhangi bir görev öğretiyor olsun, ortak bir uygulama kümesi üzerinde anlaşacaklardır. Geliştirmeyi amaçladıkları ölçümleri listeleyecekler, yazılımlarını eğitmek için kullandıkları veri setlerini paylaşacaklar ve sonuçlarının tarafsız yabancılar tarafından test edilmesine izin verecekler. Bu, süreci daha şeffaf hale getirir. Sonuç olarak, araştırma fonları yeniden akmaya başladı ve dil becerileri yavaş da olsa gelişmeye başladı.

Şekil: 1954'ten 2016'ya kadar dil teknolojisi gelişiminin tarihi, kaynak, The Economist

Dil teknolojisinin birçok erken yöntemi, özellikle çeviri, kavramsal bir çıkmaza girmiştir: kurala dayalı bir yaklaşım. Çeviride bu, cümle metnini orijinal dilde analiz etmek, onu soyut bir "dile" ayırmak ve onu hedef dilin kurallarına göre yeniden yapılandırmak için kurallar yazmaya çalışmak anlamına gelir. Bu yöntemler erken dönemde bazı potansiyeller gösterdi.

Ancak dil belirsizlikler ve anormalliklerle doludur, bu nedenle bu tür sistemler çok karmaşıktır ve tasarımlarının basit setini aşan cümleleri test ederken çökmeye eğilimlidir. Yaygın olarak "şiddet içeren" yöntemler olarak adlandırılan istatistiksel yöntemleri benimsedikten sonra, neredeyse tüm dil teknikleri daha iyi hale gelmeye başladı; bu, büyük miktarda veriyi araştıran yazılıma, kalıpları bulmaya ve emsallerden öğrenmeye dayanıyor. Örneğin, bir dili ayrıştırırken (dilbilgisi bileşenlerine ayırırken), yazılım, insanlar tarafından ayrıştırılmış büyük miktarda metinden öğrenir. Daha önce görmediği bir metin hakkında en iyi tahminde bulunmak için öğrendiklerini kullanır.

Makine çevirisinde yazılım, insanlar tarafından çevrilmiş milyonlarca kelimeyi tarayarak kalıpları yeniden arar. Konuşma tanımada, yazılım kayıtlı konulardan ve insan transkripsiyonlarından öğrenir. İşlemci yetenekleri büyümeye devam ettikçe, veri depolamanın fiyatı düştükçe ve en önemlisi, mevcut verilerin aşırı büyümesi, bu yaklaşım sonunda verimli sonuçlar elde etti.

On yıllardır bilinen matematiksel teknikler yeteneklerini göstermeye başladı ve büyük miktarda veriye sahip büyük şirketlerin bundan faydalanması bekleniyor. BabelFish gibi çevrimiçi araçların sağladığı yanlış çevirilerden etkilenenler, Google Çeviri'ye daha fazla güven duymaya başladı.

Apple, milyonlarca iPhone kullanıcısını yalnızca telefonlarıyla konuşmaya değil, onlarla konuşmaya da ikna etti. Yaklaşık 5 yıl önce, derin sinir ağlarının (DNN) ve derin öğrenmenin ortaya çıkmasıyla birlikte atılımlar yapmaya başladılar. Bu tür ağlar genellikle insan beynininkine benzer özelliklere sahip oldukları söylenir: Yazılımdaki "nöronlar" birbirine bağlıdır ve öğrenme sürecinde bu bağlantı daha güçlü veya zayıf hale gelebilir.

Ancak Nuance'ın araştırma başkanı Nils Lenke, aslında temeli onlarca yıl önce atılan "DNN'nin sadece başka bir matematiksel model" olduğunu söyledi. Gerçekte değişen, donanım koşullarıdır.

Neredeyse kazara, DNN araştırmacıları, video oyunları gibi uygulamalarda grafikleri sorunsuz bir şekilde oluşturmak için kullanılan grafik işlem biriminin (GPU) sinir ağlarını işlemede de çok etkili olduğunu keşfettiler. Bilgisayar grafiklerinde, temel küçük şekiller oldukça basit kurallara göre hareket eder, ancak birçok şekil ve çok sayıda basit hesaplama gerektiren birçok kural vardır. Aynı GPU, öğrenmek için veri ararken DNN'deki "nöronlara" atanan ağırlıkların ince ayarını yapmak için kullanılır.

Bu teknoloji, el yazısı tanıma, yüz tanıma ve görüntü sınıflandırması dahil olmak üzere çeşitli derin öğrenmenin kalitesini büyük ölçüde geliştirdi. Şimdi, genellikle% 30'a varan iyileşme sağlayabilen çeşitli dil teknolojilerinin geliştirilmesine yardımcı oluyorlar. Bu, dil teknolojisini düzensiz kullanımdan gerçekten iyi teknolojiye değiştirdi. Ancak şimdiye kadar hiç kimse iyiden "güvenilir en iyiye" geçişi tamamlamadı.

Konuşma tanıma: Seni anlayabiliyorum

Bilgisayarlar, insan konuşmasını anlamada büyük adımlar attı

Bir kişi konuştuğunda, hava ciğerlerden geçerek ses tellerinin titreşmesine neden olur ve bu da havadan karakteristik dalga formları yayar. Sesin özellikleri, ses organlarının konumuna, özellikle dil ve dudakların konumuna bağlıdır ve sesin karakteristik özellikleri, belirli frekansların enerji zirvelerinden gelir. Ünlülerin "formants" adı verilen frekansları vardır ve bunlardan ikisi genellikle bir sesliyi diğerinden ayırmak için yeterlidir. Örneğin, İngilizce "fleece" kelimesindeki sesli harfin ilk iki formatı 300 Hz ve 3000 Hz'dir. Ünsüzlerin kendine has özellikleri vardır.

Teorik olarak, bu ses akışını yazılı konuşmaya dönüştürmek basittir. Diğer dil teknolojileri gibi, konuşmayı tanıyan makineler önceden toplanan verilere göre eğitilir. Bu durumda, eğitim verileri, insan tarafından yazılmış metnin bir ses kaydıdır, böylece yazılımın hem ses hem de metin girişi vardır, tek yapması gereken ikisini eşleştirmek.

Makineler, eğitim verilerinde insanların yaptığı gibi, belirli bir ses bloğunun nasıl yazılacağıyla daha iyi başa çıkıyor. Geleneksel eşleştirme yöntemi, temel olarak makine tarafından tahminler yapmak için yapılan önceki çalışmaya dayanan Gizli Markov Modeli (HMM) adı verilen istatistiksel bir tekniktir. Son zamanlarda, konuşma tanıma da derin öğrenmeden çok yararlandı.

İngilizce, dilin ses sistemini oluşturan birimler olan yaklaşık 44 "ses birimine" sahiptir. P ve b farklı fonemlerdir çünkü pat ve bat gibi kelimeleri ayırt etmek için kullanılırlar. "P" nin telaffuzu bazen bir "partide" olduğu gibi aspire edilir ve p bazen "spin" gibi, aspire edilmez. Bilgisayar s, p, i ve n seslerinin birbiri ardına göründüğünü duyarsa, "spin" kelimesini tanıyabilmelidir.

Ancak yerinde konuşmak makine için çok zor. Sesler ayrı ayrı telaffuz edilmediğinden, bir fonemin ardından bir başkası gelir, çoğunlukla sabit bir akış halindedir ve sınırı bulmak kolay değildir. Ses birimleri de bağlama göre farklılık gösterir. Ayrıca, hoparlörler tını, perde ve aksan açısından farklılık gösterir. Konuşma, dikkatlice dikte etmekten çok daha az nettir. İnsanlar konuşma sürecinde sandıklarından daha sık dururlar.

Tüm bunlar, teknoloji yavaş yavaş bu sorunların çoğunun üstesinden geldi, bu nedenle konuşma tanıma yazılımının hata oranı yıllar içinde istikrarlı bir şekilde azaldı ve ardından derin öğrenmenin başlamasıyla keskin bir şekilde düştü. Mikrofonlar zaten daha iyi ve daha ucuz. Her yerde bulunan kablosuz İnternet ile ses kayıtları, analiz için buluttaki bilgisayarlara kolayca aktarılabilir ve akıllı telefonlar bile artık bu görevi gerçekleştirmek için yeterli bilgi işlem gücüne sahiptir.

Eşanlamlı tanıma: Silah mı yoksa çıplak kol mu?

Bir konuşma tanıma sisteminin belki de en önemli özelliği, birinin ne söyleyebileceğine veya "dil modeline" ilişkin beklentileridir. Diğer eğitim verileri gibi, dil modeli de büyük miktarda gerçek insan konuşmasına dayanır ve metne dönüştürülür. Konuşma tanıma sistemi ses akışını "duyduğunda", söylediği şey hakkında birçok tahmin yapar ve ardından sahip olduğu kelime, kelime öbeği ve cümlelerin türlerine göre doğru eğitim metnini nasıl bulduğunu hesaplar. olasılık.

Fonem düzeyinde, her dil dizelere izin verdi veya yasakladı. Aynı sözler. Bazı dizeler diğerlerinden daha yaygındır. Bilgisayar, sesteş sözcükler hakkında bir tahminde bulunurken, eğitim verilerinde "silah taşıma hakkı" (silah taşıma hakkı) ifadesinin "çıplak silah hakkı" ndan (silahsız olma hakkı) daha sık göründüğünü hatırlayacaktır. Pek çok, bu yüzden doğru tahmin yapılacaktır.

Belirli konuşmacılara göre eğitim, yazılımın tahminini büyük ölçüde azaltır. Yazılımı daha uzun bir süre eğitmek isteyenler için% 99'a yakın bir doğruluk elde edilebilir (yani, her yüz sözcük metin için birden fazla metin eklenmez, atlanmaz veya yanlışlıkla değiştirilmez). İyi bir mikrofon ve sessiz bir oda daha etkili olacaktır.

Konuşmacının ne hakkında konuştuğunu önceden bilmek de doğruluğu artıracaktır. Genel söylemde "flebit" ve "gastrointestinal sistem" gibi kelimeler yaygın değildir. Ancak bu kelimeler tıpta yaygındır, bu nedenle bu kelimeleri bulmak için eğitilmiş yazılımlar oluşturmak sonuçları önemli ölçüde iyileştirecektir.

Dil teknolojisinin diğer tüm alanları gibi, derin öğrenme de hata oranını büyük ölçüde azaltır. Ekim 2016'da Microsoft, en son konuşma tanıma sisteminin Switchboard Corpus'ta konuşmayı tanımada insan stenograflarla aynı seviyeye ulaştığını duyurdu.

Santral Corpus'un hata oranı, yaygın olarak kullanılan bir karşılaştırma ölçütüdür ve bu nedenle diğer kalite iyileştirme iddialarıyla karşılaştırılabilir. On beş yıl önce, konuşma tanıma kalitesi% 20-30'luk bir hata oranıyla durdu. Microsoft'un en son sisteminde paralel olarak çalışan altı sinir ağı var ve hata oranı, insan transkripsiyonuyla aynı olan% 5,9'a düştü. Microsoft'un baş konuşma bilimcisi Huang Xuedong, ilk beklentisinin insan seviyesine ulaşmanın iki veya üç yıl alacağı olduğunu söyledi.

Laboratuvardaki gelişmeler artık gerçek dünya ürünlerine uygulanmaktadır. Giderek daha fazla araba çeşitli sesle etkinleştirilen kontrollerle donatılmıştır, ancak söz konusu kelime dağarcığı sınırlıdır ve bu da yüksek doğruluk sağlar. Tipik olarak dar alış alanlarına sahip mikrofonlar veya mikrofon dizileri, bir gruptaki ilgili hoparlörleri tanımlamada gittikçe daha iyi hale geliyor.

Hala bazı sorunlar var. Çocuklar ve yaşlı konuşmacıların yanı sıra odada hareket eden insanların tanınması zordur. Arka plan gürültüsü hala büyük bir sorundur ve eğitim verilerinden farklıysa, yazılımın bunu tanıması zordur. Örneğin, Microsoft, şirketlere, kullanıcıların arka plan gürültüsünü, özel kelimeleri ve belirli ortamlarda karşılaşılan diğer özel konuşma tanıma sistemlerini tanımasına olanak tanıyan CRIS adlı bir ürün sağlar. Bu yararlı olabilir.

Ancak bir bilgisayar için, bir kişinin ne dediğini bilmek sadece başlangıçtır. Hemen hemen her bilim kurgu öyküsünde görülen türden ikisi arasındaki sorunsuz etkileşim, konuşabilen bir makine gerektirir.

Makine Çevirisi: Babil Kulesinin Ötesinde

Bilgisayar çevirisi şaşırtıcı derecede iyi hale geldi, ancak yine de insan girdisi gerektiriyor.

"Yıldızlararası Yolculuk" ta "kozmik tercüman", "Otostopçunun Galaksi Rehberi" de kulaklara kolayca girebilen bir "Babil Balığı" (Babil Balığı) vardır. Bilim kurgu hikayelerinde, uzak medeniyetlerden gelen insanlar, karşılaştıklarında konuşabilmeleri için doğal olarak bir tür ekipmana ihtiyaç duyarlar. Yüksek kaliteli otomatik çeviri teknolojisi, diğer dil teknolojilerinden daha büyülü görünüyor, çünkü birçok insan için, bir dili diğerine çevirmek bir yana, birden fazla dili öğrenmek yeterince zordur.

Bu fikir 1950'lerden beri var ve bilgisayar çevirisi her zaman bir roman "makine çevirisi" (MT) olarak biliniyordu. Bu kavram, Amerikalı bilim adamlarının bilgisayarları Rusçayı İngilizceye çevirmeye çalıştıkları Soğuk Savaş'a kadar izlenebilir. Bilgisayar teknolojisinin gelişmesini sağlayan II.Dünya Savaşı'nın başarılı kod kırmasından ilham aldılar. Onlar için, Rusça metindeki Kiril alfabesi sadece İngilizcenin kodlanmış bir versiyonudur ve onu İngilizceye dönüştürmek sadece bir kod çözme meselesidir.

IBM ve Georgetown Üniversitesi'ndeki bilim adamları, bu sorunun yakında çözüleceğine inanıyor. Bilgisayarda altı kural ve 250 kelimelik bir kelime dağarcığı yazdılar, 7 Ocak 1954'te New York'ta bir gösteri yaptılar ve gururla 60 Rusça cümlenin otomatik çevirisini başarıyla tamamladıklarını iddia ettiler. pyeryedayem mislyi posryedstvom ryechyi ", bu cümle" düşüncelerimizi konuşma yoluyla iletiyoruz "şeklinde doğru bir şekilde çevrilmiştir. Georgetown Üniversitesi'nden Leon Dostert bu projenin baş bilim adamıdır. Makine çevirisinin üç ila beş yıl içinde tam olarak gerçekleşeceğini cesaretle tahmin etti. Ve bu "mükemmel bir gerçek" olacak.

Bununla birlikte, on yıldan fazla araştırmanın ardından, John Pierce başkanlığındaki bir komite toplantısı 1966'da bir rapor yayınladı. Raporun girişinde, makine çevirisinin sonuçlarının hayal kırıklığı yarattığından bahsedildi ve araştırmacıları dar anlamda odaklanmaya teşvik etti. Otomatik sözlükler gibi ulaşılabilir hedefler. Devlet destekli MT araştırması kış uykusuna yatmaya başladı ve yaklaşık yirmi yıl sürdü. Bu dönemdeki tüm araştırma çalışmaları özel şirketler tarafından desteklenmiştir. En dikkate değer olanlardan biri, esas olarak ABD ordusu için kaba çeviri sağlayan Systran sistem çeviri yazılımıdır.

Bilim adamları, kural tabanlı makine çevirisi yönteminin zor durumda olduğunu fark ediyor. Bu altı kurallı sistemi geliştirmeye devam ettikten sonra, bilgisayara daha fazla kural programlarlarsa, çeviri sisteminin daha karmaşık ve doğru olacağına inanıyorlar. Ancak sistem tarafından çevrilen içerikte beklentilerin aksine daha anlamsız cümleler ortaya çıktı. Ek kurallar ekleyin, mevcut yazılım geliştiricilerinin sözleriyle, "uzantı" yoktur.

Çok sayıda gramer kuralının neden olduğu zorluklara ve programlamadaki istisnalara ek olarak, bazı ilk gözlemciler kavramsal bir problem fark ettiler. Yani, bir kelimenin anlamı genellikle sadece sözlük tanımına ve bağlam dilbilgisine değil, aynı zamanda cümlenin geri kalanının anlamına da bağlıdır. İsrail'de MT alanında bir lider olan Yehoshua Bar-Hillel, "kalem kutunun içinde" ve "kutu kalemde" iki cümlede "kalem" in çevirisinin farklı olması gerektiğini fark etti: "kutuyu" tutabilir "Kalem", "kalem" değil, "çit" olmalıdır.

Makineye bu ayrımı yapacak kadar kural nasıl öğretilir? Bu, makinenin gerçek dünya hakkında biraz bilgi sahibi olmasını gerektirir, ancak bu, o sırada makinenin veya programcının yeteneklerinin çok ötesindedir. Yirmi yıl sonra, IBM bilim adamları, MT'ye yönelik iyimserliği yeniden kurmanın bir yolunu buldular. IBM'in Candide sistemi, yapay kurallar yerine istatistiksel olasılık kullanan ilk makine çevirisi denemesidir. İstatistik, "kelime öbeğine dayalı" makine çevirisidir. Konuşma tanıma gibi, öğrenme için eğitim verileri gerektirir. Candide, eğitim verisi olarak, ülkenin parlamento tartışmaları için Fransızca ve İngilizce olarak yayınlanan ve o sırada istatistiksel çeviri için büyük miktarda veri sağlayan Kanada'nın "Ulusal Meclis Kayıtlarını" kullandı. İfadeye dayalı yaklaşım, kelimelerin çevirisinin etrafındaki kelimeleri uygun şekilde dikkate almasını sağlayabilir.

Ancak, çevirinin kalitesi bir sıçrama yapmadı. Google, çeviri sistemini eğitmek için arama motorundaki tüm verileri kullanmaya karar verene kadar. 2007 yılında, Google Translate kural tabanlı bir sistemden (Systran tarafından sağlanan) kendi istatistik tabanlı sistemine geçmiştir. Bu sistemi oluşturmak için Google, başka bir dilde görünen herhangi bir metin için bir trilyon web sayfasında arama yaptı. Örneğin, iki sayfa aynı tasarıma sahiptir, ancak farklı sözcüklere sahiptir veya bazı ipuçlarına sahiptir; örneğin, bir sayfanın adresi / en ve diğerinin / fr ile biter. Google Translate'in baş mühendisi Macduff Hughes'a göre, büyük miktarda veri kullanan basit yöntemler, daha az veri kullanan karmaşık yöntemlerden daha umut verici görünüyor.

Paralel metinlerin eğitimi (dilbilimcilerin korpus dedikleri), hedef dilin çevirisini değil, bir dizi olası çeviriyi üreten bir "çeviri modeli" yaratır. Bir sonraki adım, olasılıklarını kontrol etmek için bu hedef dillerin çevirisini tek dilli dil modeline yerleştirmektir. Bu aslında hedef dilde bir cümlenin nasıl görünebileceğine dair bir dizi beklentidir. Tek dil modelini oluşturmak çok zor değil. (Manuel çevirinin paralel külliyatını elde etmek zordur; ancak büyük miktarda tek dilli eğitim verisi elde etmek zor değildir.) Çeviri modeli gibi, dil modeli de eğitim verilerinden öğrenmek için istatistiksel yöntemler kullanır ve daha sonra çıktı çeviri modeli olasılığa göre sıralanır.

İstatistiksel makine çevirisi, MT alanında iyimserliği yeniden alevlendirdi. İnternet kullanıcıları, Google Translate'in Yahoo'nun BabelFish gibi daha önce kullanılan kural tabanlı çevrimiçi çeviri araçlarından çok daha üstün olduğunu çabucak keşfettiler. İstatistiksel çeviri sisteminde hala hatalar olsa da - bazen küçük hatalar, bazen komik çeviri sonuçları, bazen ciddi hatalar veya anlamsız sonuçlar çıktı. Bu, dil çiftleriyle ilgilidir.Örneğin, "Çince-İngilizce" oldukça farklı yapılara sahip iki dildir ve ikisi arasındaki çeviri sonuçları tatmin edici değildir. Ancak İngilizce ve Almanca gibi ilgili dil çiftleri arasındaki çeviri oldukça doğrudur. Ancak normal şartlar altında, Google Translate ve diğer rakiplerin Microsoft'un Bing Translator gibi ücretsiz çevrimiçi çevirileri, insanlara bazı yaklaşık çeviriler sunar.

Böyle bir sistem, yine dijital sinir ağındaki derin öğrenme sayesinde daha iyi hale geliyor. Hesaplamalı Dilbilim Derneği, 2006'dan beri her yıl MT üzerine seminerler düzenlemektedir. Faaliyetlerden biri, MT sistemleri arasındaki bir yarışmadır, bir dizi haber metni içeren bir çeviri yarışmasıdır. Ağustos 2016'da Berlin'de düzenlenen seminerde, sinir ağı tabanlı MT sistemi 102 MT sistemleri arasında en iyi performans olan birinciliği kazandı.

Google, sekiz dil çifti için bir sinirsel çeviri sistemi çıkardı ve eski çeviri sistemi ile manuel çeviri arasındaki kalite farkını büyük ölçüde azalttı. Bu, özellikle çok sayıda eğitim verisi bulunan ve yakından ilişkili diller için geçerlidir (Avrupa'daki çoğu dil gibi). Sonuç hala açık bir şekilde kusurlu olsa da, önceki çevirilere göre daha pürüzsüz ve daha doğru oldu. İngilizce ve Çince ile İngilizce ve Korece arasındaki çeviri çok iyi değil, ancak sinirsel çeviri sistemi de bu dil çiftlerinde önemli gelişmeler sağladı.

Coca-Cola benzetmesi

Sinir ağı tabanlı bir çeviri sistemi aslında iki ağ kullanır. Biri kodlayıcıdır Giriş cümlesinin her bir kelimesi çok boyutlu bir vektöre (bir dizi değer) dönüştürülür ve her yeni kelimenin kodlaması cümlenin önceki bölümünün anlamını dikkate alır. İtalya'daki Bruno Kessle özel bir araştırma enstitüsüdür Bu enstitüden araştırmacı Marcello Federico, sinir ağı çevirisini ifade tabanlı istatistiksel çeviri ile karşılaştırmak için ilginç bir benzetme yaptı. İkincisinin Coca-Cola'yı şeker, su, kafein ve diğer maddeler olarak tanımlamaya benzediğini söyledi. İlki, Coca-Cola'nın akışkanlık, siyah renk, tatlılık ve köpüklenme gibi özelliklerini açıklar.

Kaynak cümle kodlandıktan sonra, kod çözücü ağ bir kelimeden kelimeye çeviri üretecek ve ayrıca her kelimeden önceki kelimeleri dikkate alacaktır. Ancak zamirin anlamının uzun cümlenin başında geçen kelimeye bağlı olması gerekiyorsa sorunlara neden olabilir. Bu sorun, cümledeki diğer kelimelere, bağlamın hemen dışında dikkatin sürdürülmesine yardımcı olan "dikkat modeli" ile hafifletilir.

Sinir ağı çevirisi, hem sistemin orijinal eğitimi hem de sistemin kullanımı için çok fazla bilgi işlem gücü gerektirir. Bu sistemin çekirdeği, derin öğrenme devrimini mümkün kılan GPU veya Google'ın tensör işleme birimi (TPU) gibi özel donanımdır. Daha küçük çeviri şirketlerinin veya araştırmacıların genellikle bu işlem gücünü bulutta kiralaması gerekir. dayalı Nöral çeviri sisteminin eğitiminde kullanılan veri seti, cümle tabanlı sistem kadar büyük değil, bu da daha küçük şirketlere Google gibi devlerle rekabet etme fırsatı vermelidir.

Tam otomatik, yüksek kaliteli makine çevirisi için hala uzun bir yol var. Şimdi, hala birkaç soru var. Tüm mevcut makine çevirileri cümle cümle olarak yapılır. Bir cümlenin anlamı önceki cümlenin anlamına bağlıysa, otomatik sistem hatalar yapacaktır. Dikkat modelinin küçük becerilerine rağmen uzun cümleleri tercüme etmek yine de zor olabilir. Sinir ağı tabanlı sistemlerin de yaygın olmayan sözcüklerle uğraşması özellikle zordur.

Birçok dil çifti için çok az eğitim verisi vardır. Avrupa dilleri arasındaki eğitim verileri bol, çünkü Avrupa Birliği, Avrupa Birliği'nin 24 resmi dili arasında çok sayıda manuel çeviri materyali üreten kurumlara sahip. Ancak daha küçük diller için bu tür kaynaklar çok azdır. Örneğin, makine çevirisi sistemlerini eğitmek için Yunanca Urduca'daki birkaç paralel metin kullanılabilir. Bu nedenle, bu tür çevirileri sağladığını iddia eden sistemler, aslında genellikle bir köprü dili aracılığıyla yapılır ve köprü dili temelde her zaman İngilizcedir. Bu, bir yerine iki çeviri içerir ve hata olasılığı iki katına çıkar.

Makine çevirisi mükemmel olmasa bile, teknoloji insanların daha hızlı ve daha doğru çeviri yapmasına yardımcı olabilir. Çevrilen sözcükleri ve paragrafları saklayan yazılım olan "çeviri belleği" 1980'lerden beri kullanılmaktadır. Sıklıkla aynı materyalleri çeviren kişiler için (kullanım kılavuzları gibi), çevrilmiş bilgileri sağlayarak çok fazla tekrar ve zaman tasarrufu sağlarlar.

Tıp veya hukuk gibi dar gerçek dünya alanlarındaki metinler üzerinde MT motorlarını eğitmek için benzer bir yöntem kullanılır. Yazılım teknolojisinin iyileştirilmesi ve daha hızlı bilgisayarlarla eğitim daha kolay ve daha hızlı hale gelir. Avrupa Birliği'nin desteğiyle geliştirilen ve Moses gibi bazı dahili çevirmenler tarafından kullanılan özgür yazılım, paralel bir külliyat kullanan herkes tarafından eğitilebilir. Örneğin, tıbbi çeviri uzmanları yalnızca tıbbi çeviri sistemlerini eğitebilir, bu da onları daha doğru hale getirir.

Dil karmaşıklığının diğer tarafında, MT motoru, kaba ancak gerçek zamanlı konuşmadan konuşmaya çeviri elde etmek için insanların konuşmada kullandıkları daha kısa ve daha basit diller için optimize edilebilir. Microsoft'un Skype çevirmeninin yaptığı tam olarak budur. Kalitesi, Avrupa Parlamentosu tarafından üretilen paralel metinler yerine eğitim konuşmalarıyla (film altyazıları ve yaygın olarak kullanılan sözlü ifadeler gibi) artırılır.

Çeviri yönetimi aynı zamanda yenilikten de yararlanır.Akıllı yazılım, şirketlerin en iyi MT'yi, çeviri belleğini, kişisel çeviri özelleştirmesini vb. Hızlı bir şekilde birleştirmesine olanak tanır. Çeviri yönetimi yazılımı, müşteriler ve ücretsiz çeviri ekipleri arasındaki aracıları kesmeyi amaçlamaktadır. Sektörün favorisi Smartling'in kurucusu Jack Welde, gelecekte çeviri müşterilerinin çeviri için ne kadar insan müdahalesi gerektiğini seçeceklerini söyledi. Hızlı ve otomatik bir yöntem, kısa süreli içerik için kısa vadeli içerik olabilir, ancak en önemli içerik yine de tamamen el yapımı ve düzenlenmiş bir sürüm gerektirir. Welde, MT'nin hem kolaylaştırıcıları hem de eleştirmenleri olduğunu fark ettiğini ve ikisine de katılmadığını söyledi: "Dogmatizmi benimserseniz, müşteri ihtiyaçlarına göre optimize etmiyorsunuz.

Çeviri yazılımı gittikçe daha iyi hale gelecek. Mühendisler yalnızca istatistiksel modellerini ve sinir ağlarını sürekli olarak ayarlamakla kalmayacak, aynı zamanda kullanıcıların da sistemlerini iyileştirecek. Örneğin, küçük ve beğenilen bir başlangıç olan Lilt, çeviri için temel olarak ifade tabanlı MT kullanır, ancak kullanımı kolay bir arayüz, çevirmenlerin MT sisteminin çıktısını düzeltmesine ve iyileştirmesine olanak tanır. Bunu her yaptığınızda, düzeltme, gerçek zamanlı olarak öğrenen ve gelişen çeviri motoruna geri beslenir. Kullanıcılar, bu profesyonel alanda gelecekte tercümeye yardımcı olacak birkaç farklı anılar (tıbbi, finansal vb.) Oluşturabilirler.

TAUS, geçtiğimiz günlerde çeviri endüstrisinin durumu hakkında bir rapor yayınlayan bir endüstri grubudur ve "son birkaç yılda çeviri endüstrisinin yeni araçlar, platformlar ve çözümlerle ortaya çıktığını" belirtmiştir. Geçen yıl, TAUS'un kurucusu ve yöneticisi JaUS van der Meer, MT kalitesinin artmaya devam edeceğini düşünerek "Gelecekte çevirmenlere gerek yok" başlıklı kışkırtıcı bir blog yazısı yazdı. Birçok uygulama için kusurlu çeviriler yapıldı Yeterince iyi.

Geleceğin "çevirmeni" daha çok bir kalite kontrol uzmanı gibi olabilir, hangi metinlerin en fazla dikkat gerektirdiğine karar verir ve MT yazılımının çıktılarını düzenler. Bu gerekli olabilir çünkü bilgisayarlar ne kadar karmaşık hale gelirlerse gelsinler metnin ne anlama geldiğini gerçekten anlayamazlar.

Anlam ve makine öğrenimi: neden bahsediyorsun?

Makineler, dünyayı anlamadıkları için insanlarla normal şekilde konuşamazlar.

Yakın gelecekte distopik bir toplumda geçen İngiliz bilim kurgu hicivinde genç bir kadın, bir araba kazasında erkek arkadaşını kaybetti. Bir arkadaşı, acısını dindirmesine yardım etmek istedi. Ölü adam bir sosyal ağ meraklısıydı ve hesabı kişiliği olan bir chatbot'a kopyalamak için kullanıldı. Kadınlar chatbot'larla yazışabilir ve daha sonra konuşabilirler. Sistem onu daha iyi simüle etmeyi öğrendikçe, o da giderek daha gerçek hale geliyor.

Bu çok garip değil. Günümüzde, bilgisayar uygun materyalleri öğrendiği sürece, insan dilini tamamen gerçek anlamda öğrenebilir. Henüz gerçek sohbetler yapamadılar. Gerçek insan-bilgisayar etkileşimi, dünyanın daha geniş bir anlayışını gerektirir. Bu olmadan, makine çok çeşitli konular hakkında konuşamaz, uzun süre konuşamaz veya kazalarla başa çıkamaz.

Ancak sınırlı görevler için eğitilmiş makineler iyi performans gösterebilir. Bunun en bariz örneği, bir teknoloji devinin yarattığı dijital asistan. Kullanıcılar onlara çeşitli doğal yollarla sorabilir: "Londra'da sıcaklık nedir?" "Dışarıdaki hava nasıl?" "Bugün soğur mu?" Asistan, kullanıcı hakkında nerede yaşadıkları ve Onlar aile üyeleridir, bu yüzden çok kişiselleştirilebilirler: "İşe gidip gelme rotam nasıl görünüyor?" "Karıma bir mesaj gönderin ve 15 dakika içinde evde olacağımı söyleyin."

Şimdi, Appleın Siri'si her hafta 2 milyar istek alıyor ve bunlar daha ileri eğitim için kullanılıyor. Örneğin, Apple'ın Siri'si, kullanıcıların spor sonuçları hakkında soru sorması için mümkün olan her yolu biliyor. Noel Baba'ya soran çocuklar için de hoş bir cevabı var. Microsoft, daha önceki bazı doğal dil platformlarından, kişiler arası iletişimin yaklaşık% 10'unun "küçük sohbet" olduğunu, "bana bir şaka söyle" den "baban kim?" E kadar "küçük sohbet" olduğunu öğrendi ve bu sohbeti dijital asistanlarını eğitmek için kullandı. Cortana.

Cortana'nın yazı ekibinde iki oyun yazarı, bir şair, bir senarist ve bir romancı var. Google, yeni Google Asistanını kolaylaştırmak için Pixar'dan (bir animasyon film stüdyosu) ve The Onion'dan (bir hiciv gazetesi) yazarları işe aldı. İnsanların dijital asistanlarına iyi çalışmaları için teşekkür etmelerine şaşmamalı. Asistanın cevabı "Onurum, her zamanki gibi" yerine "Bana teşekkür etmenize gerek yok" olarak değiştirildi.

Dilbilgisinde iyi

Doğal bir dil platformu insanların ne istediğini nasıl bilir? Sadece bir kişinin kullandığı kelimeleri tanımakla kalmaz, aynı zamanda kelimeleri gramer ve anlama göre de parçalara ayırırlar. Dilbilgisel analiz nispeten gelişmiştir ve olgun bir "doğal dil işleme" alanıdır. Ancak anlam analizi, daha zor olan "doğal dil anlayışı" kapsamındadır.

İlk önce çöz. Çoğu insan cümle sözdizimini analiz etmede pek iyi değildir, ancak çoğu cümle, insanların nadiren farkına vardıkları şekillerde belirsiz olmasına rağmen, bilgisayarlar bunda çok iyi hale gelmiştir. Sebil üzerindeki tabela: "Bu içme suyu değil". İnsanlar bunu suyun ("bu") bir tür su ("içme suyu") olmadığı anlamına geldiğini anlar. Ancak bilgisayar bunu kolayca ayrıştırabilir ve "bu" (çeşme) şu anda bir şey yapmıyor ("içme suyu") diyebilir.

Cümle uzadığında dilbilgisi açısından geçerli olabilir, ancak anlamsız seçeneklerin sayısı katlanarak çoğalır. Makine çözücü hangisinin doğru olduğunu nasıl anlar? Bazı kelime kombinasyonlarının diğerlerinden daha yaygın olduğunu bilirse, yardımcı olabilir: "içme suyu" ifadesi yaygın olarak kullanılmaktadır, bu nedenle İngilizce eğitimi almış bir ayrıştırıcı, bu iki kelimenin bir isim ifadesine eklenebileceğini değerlendirecektir. Bazı yapılar diğerlerinden daha yaygındır: "isim fiil isim", "isim fiil isim" nden daha yaygın olabilir. Makine ayrıştırıcısı, tüm kombinasyonların toplam olasılığını hesaplayabilir ve en olası olanı seçebilir.

"Sözcükselleştirilmiş" ayrıştırıcı daha iyi yapabilir. Örneğin, Groucho Marx'ın şakası, "Bir sabah pijamalarımla bir filin fotoğrafını çektim. Pijamalarıma nasıl girdiğini asla bilemeyeceğim." İlk cümlesi belirsizdi (bu da şaka yapıyor ), gramer olarak, "ben" ve "bir fil", "pijamalarımdaki" edat ifadesine eklenebilir. Ancak sözcük ayrıştırıcı, "pijamalarımın içindeyim" in "pijamalarımdaki fil" den daha yaygın olduğunu fark edecek ve bu nedenle dilbilgisi analizine daha yüksek bir olasılık verecektir.

Ancak anlamın belirlenmesi dilbilgisinden daha zordur. "Oğlan topa tekme attı" ve "top çocuk tarafından vuruldu" aynı anlama gelir ancak farklı yapılara sahiptir. "Zaman bir ok gibidir", zamanın bir ok gibi uçtuğu veya okları seven "zaman uçar" denen bir böcek olduğu anlamına gelebilir.

Thor'da "Thor" u kim oynuyor? "Cevabınız, Marvel süper kahraman filminde aynı isimli İskandinav Tanrısını oynayan Avustralya kovboyunu hatırlamayabilir. Ama iPhone'unu sorduğunda Siri, beklenmedik bir cevapla geldi: "Bugün Iowa, Thor'da 'Tor' ile eşleşen bir film görmedim." Thor, Iowa, 184 kişinin nüfusu binlerce mesafedir ve bu film olan "Thor" uzun yıllardır sinema dışında. Siri bu soruyu doğru bir şekilde ayrıştırdı, ancak cevap saçmaydı ve dilbilimciler tarafından pragmatik adı verilen bir kuralı ihlal etti: İnsanlar duydukları insan dilini anlamak için ortak bilgi ve anlayışı kullanıyorlar ki bu genellikle karmaşıktır. "Tuz alabilir misin?" Bilgi için bir istek değil, tuz. Doğal dil sistemleri, insanların kendilerinden bekledikleri talepleri tam anlamıyla yerine getirmek için manuel olarak programlanmalıdır.

Çoktan seçmeli

Sohbet sırasında paylaşılan bilgiler de kurulur, bu nedenle dijital asistan konuşmada esnek hale gelebilir. Asistana "Eşimle bir İtalyan restoranına gitmek istiyorum" deyin ve bir restoran önerebilir. Ama sonra şunu sorun: "Ofisin yakınında mı?" Asistan "o" (restoran) ve "onun" (karısı) anlamını kavramalıdır. Nuance, bu tür zorlukların üstesinden gelebilecek bir "kapıcı" üzerinde çalışıyor, ancak yine de bir prototip.

Bu tür "kapıcılar" da iş için restoran sağlamalıdır. İstekleri sağduyuya bağlamak (kimsenin kapalı restoranlara yönlendirilmek istemediğini bilmek) ve gerçek dünyayı anlamak (hangi restoranların kapalı olduğunu bilmek) dil teknolojisinin en zor zorluklarından biridir.

Google Fernando Pereira .

Terry Winograd

Winograd

Terry Winograd

Winograd 206070AI SHRDLU AI Winograd Larry PagePage GoogleWinograd Gmail

2011 Hector Levesque Winograd Winograd Winograd Nuance 25,00090 58

Winograd

Gelecekte nereye gidecek?

WALL-E ; ; Auto

WALL-E

AI

Xinzhiyuan İşe Alım

Operasyon Direktörü

Yıllık maaş pozisyonu: 360.000-500.000 (maaş + ikramiye)

İş yeri: Pekin-Haidian Bölgesi

Departman: Operasyon Departmanı

Raporlama nesnesi: COO

Astların sayısı: 2

Yaş gereksinimi: 25 ila 35 yaş arası

Cinsiyet gereksinimleri: sınırsız

Çalışma yılları: 3 yıldan fazla

Dil: İngilizce seviye 6 (denizaşırı geçmiş tercih edilir)

iş tanımı

  • Büyük ölçekli fuar sponsorlarından ve katılımcılardan, potansiyel müşterilere, vb. Genişleme, dokunma, yapay zeka ve robotik endüstri yönü sorumlusu

  • Pazarları açmada ve potansiyel müşterilerle iyi kişiler arası ilişkiler kurmada iyidir

  • Yapay zeka ve robotik endüstrisi ile ilgili piyasa koşullarının derinlemesine anlaşılması ve pazar trendlerini yakından takip edin

  • Departmanlar arasında proje işbirliğini aktif olarak koordine edin, departmanlar arası işbirliği organize edin ve iyi bir etkiye sahip olun

  • Ekibe satış hedefini tamamlamak ve proje durumunu izlemek ve yönetmek için liderlik edin

  • Şirketin platform operasyonları için stratejik planların ve işbirliği planlarının formülasyonundan ve uygulanmasından sorumlu

  • iş gereksinimleri

  • Lisans derecesi veya üstü, yüksek lisans derecesi tercih edilir, yüksek İngilizce iletişim becerileri gereklidir

  • 3 yıldan fazla iş geliştirme deneyimi, ekip yönetimi deneyimi, işletme departmanının genel yönetimine aşina

  • Geleneksel halkla ilişkiler, geleneksel entegre iletişim genel planları ve stratejik genel planlar hakkında derinlemesine bilgiler

  • Keskin pazar bilgisi ve doğru müşteri analizi yetenekleri, güçlü ekip yönetimi yetenekleri ile

  • Mükemmel zaman yönetimi, stres direnci ve çoklu görev planlama ve yürütme yeteneklerine sahip olun

  • TMT alanında geniş ağ kaynakları, Parti A'nın pazarlama departmanında çalışma deneyimi tercih edilir

  • Medya reklamcılığı departmanı, pazarlama departmanı, ilk20 halkla ilişkiler şirketi pazar geliştirme departmanı tercih edilir

  • Xinzhiyuan, yüksek ideallere sahip kişilerin görüşmeye gelmesini memnuniyetle karşılıyor. Daha fazla işe alım pozisyonu için lütfen Xinzhiyuan'ın resmi hesabını ziyaret edin.

    İsviçre'de sadece çikolata olduğunu kim söylüyor? Dubai'den daha dünyevi ve Japonya'dan daha temiz!
    önceki
    Kısa sürede nasıl sektörde 1 numara olunur (eksiksiz vaka analizi ile)
    Sonraki
    En Çinli kim | Birinin maneviyatını uyandırmak için algıyı kullanın
    Çin, derecelendirilmemiş ABD doları tahvilleri ihraç etti ve beklenmedik bir şekilde RRR indirimi açıkladı, bunun arkasında hangi sinyal çıktı?
    Benz yine geri çağırdı! Yerli ve ithal modellerde sık sık sorunlar yaşanıyor, şişirilmiş mi?
    Chen Chunhua: Neden Xuanzang'a tapıyorum? Pekin Üniversitesi Ulusal Kalkınma Enstitüsü
    Büyük haber şimdi geldi, gerçekten geldi!
    Çin'in sonbahar seyahati takvimi, güzellik dünyayı ağladı, bir yıl daha beklemeyi özledi
    Gösterge panelindeki bu 6 tür ışığın yandığını görünce, arabadan inip kontrol edin, sürüşe devam etmek tehlikeli olabilir!
    Ali'nin ortağı Tong Wenhong: Girişimciliğin belirsiz geleceği nedeniyle kültürel yapı ne kadar önemli?
    ABD borcu aniden tekrar düştü ve Moğol ekonomisi nihayet tekrar umut görebilir
    Oynamada çok iyi! Bu bizim çocukluğumuz!
    "Blockbuster" Wu Enda, Baidu'nun beynini yapay zeka teknolojisi şifre çözme olan "en güçlü beyin" Wang Feng'i kazanmaya yönlendiriyor
    Algoritmanın ticarileştirilmesi, AI endüstrisinin iniş hızı hayal gücünüzü aşıyor
    To Top