g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Derinlemesine makale: 2018 NLP uygulaması ve ticarileştirme anket raporu

Son yıllarda, doğal dil işleme teknolojisi büyük ilerleme kaydetti ve en yaygın kullanılan ve olgun AI teknolojilerinden biri haline geldi. Ama aslında, doğal dil işleme teknolojisinin ticari uygulamasında çok az ilerleme var ve gerçekten başarılı olan veya insanların günlük ihtiyaçlarını mükemmel bir şekilde karşılayabilecek pek çok ürün yok.

2018'e dönüp baktığımızda, doğal dil işleme alanında ilerleme ve sürpriz sıkıntısı yok.Örneğin, Google'ın önerdiği BERT modeli 11 dünya rekoru kırdı. Ancak yıl başında bazı uzmanların yaptığı tahminlere benzer şekilde bu alandaki yavaş ilerleme büyük ölçüde iyileşmedi.

Peki, doğal dil işleme teknolojisinin ticari uygulamasındaki sorunlar nelerdir? Neden büyük bir ilerleme yok? Sorunu çözmenin anahtarı nerede?

Bu makale, yıl sonunda doğal dil işleme teknolojisi ile ilgili bir dizi makalenin ticarileştirilmesidir.Çeşitli endüstrilerde doğal dil işleme teknolojisinin ön saflarını temsil eden birkaç şirketi kullanacaktır: iFLYTEK, JD.com, Tencent, Xiaomi ve Krypton. Mevcut darboğazı aşmak için ilham almayı umarak, ticari uygulamalar düzeyinde doğal dil işlemenin statükosunu keşfetmek.

Ticari uygulamaların mevcut durumu

1. Geliştirme seviyesi: Temelde kullanılabilir ve orta derecede gelişmiş

Endüstri uygulamalarında doğal dil işleme teknolojisinin mevcut durumu nedir? Bu soru için uzmanların verdiği cevaplar biraz farklıdır.

Her şeyden önce, beş uzmanın hepsi doğal dil işleme teknolojisinin endüstride yaygın olarak kullanıldığını kabul etti. HKUST iFLYTEK, aksine, algılama yeteneğinin bir temsilcisi olarak ses teknolojisinin nispeten daha yüksek bir uygulama seviyesine sahip olduğuna ve kullanımı kolay olduğuna inanmaktadır; NLP belirli görevlere bağlıdır ve birçok görevin gerçek uygulama performansı da iyidir. Genel olarak, NLP Endüstri uygulamaları temel kullanılabilir duruma aittir ve gerçek kullanışlılığa hala çok uzaktır.

Xiaomi, doğal dil işleme teknolojisinin anlamının çok geniş olduğuna inanmaktadır.Genel olarak konuşursak, NLP ve dil teknolojisi mevcut endüstri uygulamalarında orta ve üst seviyededir.

Buna karşın HKBTÜ'nün iFLYTEK ile işbirliği yapan Krypton, konuşma tanıma, konuşma sentezi, ses izi tanıma ve diğer teknolojileri yapan derin öğrenmenin gelişmesi nedeniyle konuşma teknolojisinin son yıllarda büyük atılımlar yaptığını açık bir şekilde belirtti. Endüstriyel alanlarda geniş ölçekte uygulanabilir. Ancak, kulaklar ve ağızlar tek başına yeterli değildir.Bu akıllı sistem için en önemli şey bir beyne sahip olmaktır, eğer onu duyuyorsanız, onu anlamanız (NLU) ve sonra kendi bilgi birikiminiz ve iş talepleriniz (NLG) ile nasıl yanıt vermeniz gerekir. Bu beynin temel teknolojisi NLP ile ilgili teknolojidir. Bununla birlikte, açıkçası, endüstriyel alanda NLP'nin uygulanması hala erken aşamadadır.Görsel alandan farklı olarak, Questyle ve Shangtang gibi sektörde belirli kıyaslama etkilerine sahip tek boynuzlu at şirketleri zaten var. Pek çok akıllı interaktif sistem, çok dar bir alanda sadece basit görevleri yerine getirebilir veya sıklıkla eleştirilen yapay zeka problemine sahip olabilir.NLP teknolojisi zor olsa da, gidecek çok yolu var.

2. Ana uygulama alanları ve uygulama senaryoları

Uzmanların dediği gibi, e-ticaret, çeviri, finans, akıllı donanım, tıbbi bakım, seyahat, konaklama ve diğer endüstriler dahil olmak üzere endüstride doğal dil işleme teknolojisinin uygulanması çok kapsamlı olmuştur.Uygulama senaryoları arasında ses analizi, metin analizi ve duygu yer almaktadır. Genel bulutlara, özel bulutlara ve hibrit bulutlara analiz, amaç analizi, grafikler ve görüntü tanıma, etkileşimli ses yanıtı, optik karakter tanıma vb. Uygulanmıştır.BT ve telekom şirketleri, tıp, perakende, bankalar vb. Hepsi doğal dil işleme teknolojileridir. Son kullanıcılar.

Bu alanlarda ve senaryolarda, doğal dil işleme teknolojisinin daha olgun bir şekilde ticarileştirilmesi, alt bölüm alanlarında arama motorlarını, kişiselleştirilmiş önerileri, reklamları ve bilgi soru-cevap / akıllı soru-cevapları içerir. Yaygın doğal dil işleme yöntemleri arasında kelime bölümleme ve metin sınıflandırması bulunur. , Anahtar kelime analizi, hassas terim tanıma, kelime sıklığı istatistikleri, görüş özeti, duyarlılık analizi vb. Bununla birlikte, birçok şirket bu teknolojileri ürünlerinde uyguladığını iddia etse de, gerçekte pratik değer üreten ve işletmeye görünür faydalar sağlayan yalnızca birkaç şirket vardır.

AI Frontline, işletmelerde doğal dil işleme teknolojisinin mevcut uygulamasını ve ticarileştirilmesini daha iyi anlamak için doğal dil işleme teknolojisinin ön saflarında yer alan beş şirketle iletişim kurdu: iFLYTEK, JD.com, Tencent, Xiaomi ve Krypton. Beş şirketin ilgili endüstri uygulama senaryoları çeviri, akıllı diyalog ve müşteri hizmetleri, akıllı soru ve cevap, akıllı donanım ve finans.

Beş şirketten doğal dil işleme teknolojisinin tipik uygulamalarının bir listesi:

3. Ticarileşmenin mevcut durumu

Şimdiye kadar, yalnızca NLP veya ses teknolojisine güvenmek nispeten zordu. Röportajda, beş şirketin tümü, dahili finansal raporlarında bu iki teknolojinin faydaları için özel olarak bir hesaplama yöntemi bulunmadığını ve faydaların bu iki teknolojiye atfedilip atfedilmediğine dair bir tartışma bile olduğunu belirterek, bu sesin çok düşük maliyetli bir şey olduğundan yakınıyor. , Paradan çok uzak.

Bu nedenle, AI ön hattı bu iki teknolojinin belirli faydalarını görsel olarak gösterebilecek veriler elde edemedi.

Ancak bu iki teknolojiyle yakından ilgili bazı akıllı donanımların satışından ticarileşmenin statükosunu öğrenebiliriz.

Örneğin, dünyanın yetkili pazar araştırma kuruluşu Canalys tarafından yayınlanan 2018'in üçüncü çeyreği için Çin Akıllı Konuşmacılar Raporu'na göre, Alibaba'nın Tmall Genie'si 2,2 milyon birim sattı ve Xiaomi'nin Xiaoai hoparlörleri 1,9 milyon birim sattı. İkinci sırada, Baidu 1 milyon adet satarak üçüncü sırada yer aldı. Bunlar arasında, Ekim ayı sonu itibariyle, Xiaomi Xiaoai öğrencileri, günlük 34 milyon etkinlik ile toplam 8 milyar uyandırma yaptı ve bu da dolaylı olarak şirkete fayda sağladı.

Basında çıkan haberlere göre, iFlytek tarafından piyasaya sürülen akıllı transkripsiyon robotu "Xunfei Hearing M1" resmi olarak önceden satıldı Daha önce piyasaya sürülen akıllı donanımlar arasında Xunfei Translator 2.0 beş ayda 200.000'den fazla sattı. İFLYTEK'in başkanı Liu Qingfeng'e göre, şirketin 2C işi büyümesini iki katına çıkardı ve nakit akışı da çok iyi. Halihazırda şirketin satış gelirinin% 30'undan fazlasını oluşturuyor ve brüt kârı% 40'a yakın. "Her ne kadar şiddetli pazar rekabeti çeviri yapacak olsa da Karşılık gelen donanım ürünlerinin fiyatında bazı küçük dalgalanmalar var, ancak genel çeviri fırsatı% 50 brüt kar marjında tutuluyor ve fiyat indirimi aralığı% 5 ~% 10 arasında. "

Ek olarak, veri analizi web sitesi statista'dan alınan bir dizi veri, küresel doğal dil işleme pazarının genel durumunu da yansıtabilir. Veriler, 2018'de küresel doğal dil işleme pazarının 583,19 milyon ABD dolarına ulaştığını ve 2024'te yaklaşık 2,1 milyar ABD dolarına ulaşacağını gösteriyor.

Öyleyse, sektörün içinden gelenlerin gözünde, ticarileştirme veya uygulama açısından NLP ve ses teknolojilerinin ilerlemesi bir başarı mı yoksa başarısızlık mı?

Bu bağlamda, beş uzman kendi farklı cevaplarını vermiş, ancak genel olarak NLP ve konuşma alanında son yıllarda kaydedilen ilerlemeyi teyit ederek, doğal dil işleme teknolojisinin temelde mükemmel olmaktan uzak olmasına rağmen temelde kullanılabilir durumda olduğunu belirtmiştir. Ancak gelecekteki ticari uygulama beklentileri konusunda iyimser.

Krypton, sesteki ilk atılımın AI'nın yükselişine yol açtığını söyledi. Bu yılın başından bu yana, ELMo modeli, Google'ın son 2 ayda önerdiği BERT modelinin çılgın kasap listesinin yanı sıra birçok senaryoda iyi etkilere sahipti.NLP model göçünün makul bir model yapısına dayalı olarak gerçekleştirilmesinin büyük gelişme beklentileri olduğunu defalarca göstermiştir. , Teknolojiye sürekli yatırım da verimli sonuçlar doğuracaktır.

HKUST iFlytek, teknolojik ilerleme ve atılımların bir gecede başarılamayacağını, dünyadaki yapay zeka araştırmacılarının çoğunun herkese sürprizler getirebileceğine inanmak gerektiğini belirtti. Ticarileştirme düzeyi ile ilgili olarak, Google ve Facebook gibi yabancı şirketler ve BATI gibi yerli şirketler de dahil olmak üzere pazar ile arz ve talebin tutarlı olup olmadığı gibi bir dizi konuyu da içerir.Çeşitli dikey alanlarda birçok keşif yapmışlar ve çok ilerleme kaydetmişlerdir. Genel olarak iFLYTEK, AI teknolojisinin uygulanması konusunda çok iyimserdir.Hala bazı teknik zorluklarla veya ticari kaynak darboğazlarıyla karşı karşıya olmasına rağmen, AI pazar mekanizmasının iyileştirilmesi ve sürekli katı talep ile birlikte olduğuna inanılmaktadır. Büyüme ile, yakında daha geniş bir AI uygulamaları yelpazesi gelecek.

Xiaomi, doğal dil işleme teknolojisine daha güçlü bir güven duyuyor ve genel olarak bu iki teknolojinin ticarileştirmede nispeten başarılı olduğuna inanıyor, ancak NLP teknolojisi birçok ticari alanda destekleyici bir teknoloji olduğu için birçok ticari başarı başarılı değil. NLP'ye kredi verin. Aslında, son yıllarda makine çevirisi ve metin oluşturma alanında önemli ilerlemeler kaydedildi. Tabii ki, diğer alanlarla karşılaştırıldığında, NLP alanındaki gelişme o kadar büyük değil.Bir yandan NLP alanının göreceli seviyesi zaten nispeten yüksek (görüntüye ve diğer alanlara göre) Diğer yandan, mevcut veriye dayalı yöntemler doğal olmalıdır. Dilin anlamsal olarak anlaşılması hala oldukça zordur. Xiaomi, gerçekten bir atılım yapmak için doğal dili anlamamız gerektiğine inanıyor.

Tencent, yine de sahneyi bulması gerektiğine inanıyor. Vizyonu örnek alırsak, herkes yüz teknolojisinin çok olgun olduğunu ve her şirketin% 99 doğruluk elde ettiğini görüyor gibi görünüyor, ancak ilk ticarileşme hala güvenlik alanında.Ürünler daha olgun ve kademeli olarak diğer alanlara giriyor. endüstri. Doğal dil işleme teknolojisinin de böyle bir pazar tanınırlığı ve kabulü sürecini gerektirdiğine inanıyorum. Geçtiğimiz iki yılda, akıllı müşteri hizmetleri, bilgi grafiği, bilgi çıkarma vb. Dahil olmak üzere birçok ticarileştirilmiş ürün gördük. Pazar popülerliği giderek artıyor ve Tencent güvenini ifade ediyor. Elbette, bir yandan NLP teknolojisi, endüstri, üniversite ve araştırmanın birlikte keşfetmesini ve ilerlemesini gerektiren vizyona göre özellikle olgun değil, diğer yandan ticarileştirme açısından, bazı temel senaryolar bulmak ve nokta nokta atılımlar yapmak için kavrayıcılar bulmak da gerekiyor.

JD.com ayrıca derin öğrenmeye dayalı mevcut doğal dil anlama teknolojisinin önemli ilerleme kaydettiğine inanıyor.İster yapay zeka alanında lider bir şirket olsun, ister yapay zeka ileri teknoloji teknolojisine dayalı olarak ortaya çıkan yenilikçi bir şirket olsun, doğayı keşfediyorlar. Dil anlama teknolojisinin yeni uygulama senaryolarında yenilik. Örneğin, JD şu anda, JD perakende, lojistik, finans ve diğer tam değer zinciri senaryoları ve sektör lideri bir problem çözme akıllı diyalog sistemi oluşturmak için kesin verilerle birleştirilen, önde gelen doğal dil anlama teknolojisine dayanmaktadır. JDnin duygusal yapay zekasının, bilgi grafiğinin ve diğer teknolojilerinin gelişimini birleştirerek, satış öncesi, satış içi ve satış sonrası akıllı müşteri hizmetlerini sıcaklık, yüksek hassasiyetli AIoT diyalog hizmetleri, büyük ölçekli kişiselleştirilmiş içerik oluşturma ve değerli diğer pratik uygulamalarla kuluçkaya yatırmıştır. İniş keşfi, JDnin kendi ana işine büyük değer katar.

Bununla birlikte, doğal dil işleme teknolojisi hala büyük bir güçlükle karşı karşıyadır, yani belirli senaryolar belirli modeller gerektirir. Evrensel dil anlama modeli bu sorunun anahtarı haline gelir.

NLP ve ses uygulamalarındaki zorluklar nelerdir? Oyun nasıl bozulur?

Bu yılın ortasında, yazar, Reddit'te doğal dil işleme teknolojisindeki ilerlemeyle ilgili şiddetli tartışmalardan derinden etkilendi. Bu tartışmada, bazı insanlar NLP ve konuşma alanındaki atılımların biraz hayal kırıklığı yarattığını ve insanların araştırma odağının GAN'a ve pekiştirmeli öğrenmeye yöneldiğini düşünürken, diğerleri NLP ve konuşmanın şimdiye kadar en yaygın kullanılan ve olgunlaştığını düşünüyor. En gelişmiş AI teknolojilerinden biri olan ilerleme herkes için açıktır.

Ancak yorumlarda herkesin hemfikir olduğu şey, son yıllarda doğal dil alanındaki atılımların gerçekten yetersiz olduğu. Doğal dil işlemede ilerleme sağlamak neden zordur?

1. En gelişmiş anlayış, muhakeme modeli ve ilgili kusurları

Okuduğunu anlama: Okuduğunu anlama, makinenin belirli bir bölümde karşılık gelen soruya verdiği kesin yanıtı araştırmayı amaçlar. Stanford'un SQuAD ve diğer veri kümeleri bu alandaki araştırmaları teşvik etmektedir. Dikkat mekanizmasına dayalı en son derin öğrenme yöntemleri sayesinde, bu tür okuduğunu anlama probleminin doğruluğu zaten çok yüksek yapılabilir.

kusur: Mevcut okuduğunu anlama, belirli bir soru bağlamında bir sonraki bölümden cevapları almaya devam etmektedir ve eğitim verilerine bağımlılık nispeten yüksektir. Makinelerin, her türlü bilgiyi kullanarak metnin gerçek anlayışını gerçekleştirmesi için hala uzun bir yolu var.

muhakeme: Geleneksel sembolik mantık muhakeme endüstrisi çalışmaktadır, ancak ilerleme nispeten yavaştır. Bir yandan, akıl yürütme alanı çok geniş olduğu için, makinenin nasıl bilgi sahibi olduğu sorunu iyi çözülmemiş, bu nedenle, pratik akıl yürütme problemlerini çözerken, genellikle yapay uzman bilgisine güveniyorlar ve iyi bir genellemeden yoksunlar. Seks.

Son yıllarda derin öğrenmenin gelişmesiyle birlikte bazı yaklaşık muhakeme çalışmaları da dikkatleri üzerine çekmiştir. Örneğin, bilgi grafiği gösterimi ile temsil edilen iş, bilgi grafiğini düşük boyutlu sürekli bir vektör uzayında ve vektör uzayının anlamsal bağlantısı yoluyla temsil etmek, kavramlar veya varlıklar arasındaki ilişkiyi öğrenmek ve buna dayalı sığ ilişkisel akıl yürütme yapmaktır.

Şu anda halka açık olan en gelişmiş model, ICLR 2018 makalesinde bahsedilen DIIN olmalıdır. NLI (Doğal Dil Çıkarımı) görevi esas olarak iki cümle arasındaki mantıksal ilişkiyi yargılamaktır; örtük, karşılıklı olarak dışlayıcı veya alakasız, genellikle bir cümle çifti sınıflandırma problemine dönüştürülür. DIIN model çerçevesi, genel temsil öğrenme + etkileşimli eşleştirme çerçevesini takip eder ve ayrıntılardaki aşırı uç noktalara çok başlı dikkati kullanır.

kusur: Yaklaşık akıl yürütme şu anda popülerdir, ancak genel mantık nispeten sığdır. DIIN, zaman, sıralama ve koşullu yargıyı içerdiğinde, doğruluk oranı yaklaşık% 50'ye düşer. NLI görevi söz konusu olduğunda, mevcut model çoğu durumda% 80-90 doğruluk elde edebilmiştir, ancak uzun kuyruk durumunun etkisi kurallar ve normal kurallarla daha iyi ele alınmaktadır.

2. Tipik teknik sorunlar ve çözümleri

Soru 1: CNN ve LSTM modellerine dayalı soru cevaplama modelleri, sorunun yalnızca yarısını "okuduklarında" genellikle tahmin edilen bir cevaba yakınsar. Bu, modelin büyük ölçüde eğitim verilerinin görünür korelasyonuna dayandığı ve kombinasyonellikten yoksun olduğu ve sonuçlarda yanlılığa yol açtığı anlamına gelir.

1.Çözüm: Model, temelde dizi modelleme sürecindeki mevcut derin öğrenme teknolojisinin ortak bir sorunu olan ve temelde modelin genelleme problemine ait olan eğitim verilerinin görünür korelasyonuna dayanır.

Bu tür problemlerin üstesinden gelmek için, güçlü genelleme yeteneğine sahip, görece genel ve evrensel bir anlamsal modelin incelenmesi gerekir, böylece anlamsal model, çeşitli alanlardaki benzersiz modellere anlamsal destek sağlamak için temel temel olarak kullanılabilir. Bu tür bir modeli tasarlamak ve uygulamak için, denetimsiz anlambilimsel öğrenme sorununu çözmek gerekir.Bu tür çalışmalar şu anda ELMo ve BERT gibi akademik çevrede dikkat çekmektedir. (HKUST iFlytek Uzmanı)

2.Çözüm: Büyük ölçekli ön eğitime genel anlamsal yerleştirme, aşırı eğitimi önlemenin bir yolu olabilir. Ayrıca yeni sentetik modellere ihtiyaç vardır. Diğer bir yöntem, satış diyaloğu ve müşteri hizmetleri diyaloğu gibi karmaşık yapısal görevlerle ilgili açık diyalog veya hedefe yönelik diyalog gibi daha karmaşık, büyük ölçekli, gerçek dünya görevleri oluşturmaktır. Bu görevler, daha evrensel ve kapsamlı modellerin ortaya çıkmasını teşvik edecektir, çünkü bu karmaşık görevlerde yüzeyle ilgili modellerin etkisi iyi değildir ve sentetik bilgi modellerine acil bir ihtiyaç vardır. (JD uzmanı)

3. Çözüm: İlk olarak, eğitim seti ve test setindeki performans değişiklikleri aracılığıyla modelin uygun mu yoksa yetersiz mi olduğuna karar verin. Uydurulmamışsa, modelin özellikleri iyi yakalayamadığı anlamına gelir.Bu durumda modeli derinleştirmek için özellik düzeyinde güçlendirilmesi gerekir; aşırı uyuyorsa, bu, parametrelerin karmaşıklığının verilerin karmaşıklığını aştığı anlamına gelir. Yaygın uygulamalar arasında veri geliştirme, düzenleme, model basitleştirme, bırakma ve erken durdurma bulunur. (Tencent uzmanı)

4.Çözüm: Spesifik olarak, CNN ve LSTM modelleri soruları modellerken, "tip" ve "konu" tipi kelimeler gibi sorulardaki en iyi kelimeleri, giriş sırasının uzunluğuna bakılmaksızın, mevcut olanı yakalamak kolaydır. CNN'nin dikkat modeli veya CNN filtrelemesi, bu kelimelere tekrar tekrar dikkat etmek kolaydır ve "okunan" sorunun yalnızca yarısının tahmin edilen bir cevaba yakınsamasına neden olur.

Olası çözümler şunları içerir:

Kapsamın dikkatini çekmeye çalışın, ana fikir belirli kelimelerin (soru cümlesindeki ilk kelimeler gibi) tekrar tekrar dikkate alınmasına izin vermemek;

CNN veya LSTM'yi transformatörle değiştirin Transformatörün öz dikkati cümle içindeki bağımlılık bilgisini modelleyebilir ve ayrıca çoğu NLP görevinde CNN ve LSTM'den daha iyi olan uzun mesafeli bağımlılığı yakalayabilir. (Xiaomi uzmanı)

5. Çözüm: Metin işlemede CNN ağı, kısa metinde öznitelik çıkarımı için daha uygundur.LSTM ağı, uzun cümle eğitiminde gradyan patlaması ve kaybolma problemini çözmek için doğmuş olmasına rağmen, nispeten uzun cümlelerde çok şey gösterir. İyi sonuçlar, ancak soru-cevap verileri için metin çok uzundur, bu da LSTM'nin eğitim sırasında cümleden önce bilgileri unutmasına ve eğitim sırasında sorun özelliklerini ağa ekleyememesine neden olarak kötü sonuçlara neden olur.

Şu anda, soru cevaplama modeli, dikkat mekanizmasına dayalı ağı kullanmaya daha meyillidir.En tipik olanı, tamamen dikkat mekanizmasına dayanan BERT ağıdır.Diğeri, tüm cümleyi bellek ağı döngüsü üzerinden hesaplayan Derin Bellek Ağı gibi bellek ağının yapısına dayanmaktadır. Dikkat ağırlığı. (Kripton Uzmanı)

Soru 2: Modern NLP teknolojisi, kıyaslama veri setlerinde iyi performans gösteriyor, ancak bilinmeyen doğal dil metinlerinin dil anlayışı ve mantığı insan seviyesinin çok altındadır.

1.Çözüm: Bu ilk soruya benzemekle birlikte modelin genelleme yeteneğidir. Genel bir denetimsiz anlamsal model tasarlamaya çalışmanın yanı sıra, her türden insan bilgisinin makinenin modelleme öğrenme sürecine nasıl dahil edileceğine de odaklanabilirsiniz. İnsan bilgisi nispeten seyrek ve soyuttur, ancak çeşitli kavramları ve varlıkları ilişkilendirme işlevine sahiptir.Bu nedenle, bir makine insan bilgisini öğrenme yeteneğine sahipse, bilinmeyen sinyallerle uğraşırken daha akıllı olacaktır. (HKUST iFlytek Uzmanı)

2.Çözüm: Büyük ölçekli, yapılandırılmış bir dikkat mekanizmasına ve evrensel bir dil anlama modeline ihtiyacımız var Bu, insan benzeri NLP zekasına giden yoldur. HAN, BERT, Transformer ve Elmo gibi bazı yeni gelişmelerin de bu sorunu çözme yönü olduğunu düşünüyorum. (JD uzmanı)

3. Çözüm: Bir yandan, makine dili anlayışı gerçekten de insanlardan daha aşağıdır. İnsanlar dili anladığında, deniz, kara ve hava ortak operasyonlarına eşdeğer olan sağduyu gibi dil dışında birçok bilgiyi çağıracaklar.Model şu anda sadece belirli bir tabancayı kullanmayı öğreniyor. Bunun için de doğru beklentilerimiz olmalı. . Öte yandan, benzer görevler ve verilerde, hızlı bir şekilde başlamak için geçiş öğrenimi veya ön eğitim modellerini düşünebilirsiniz. (Tencent uzmanı)

4.Çözüm: Karşılaştırma veri setinde iyi performans, bilinmeyen veriler üzerinde iyi performans anlamına gelmez. Bu, makine öğrenimi alanının yönüdür. Mevcut NLP teknolojilerinin çoğu, makine öğrenme yöntemlerine dayanmaktadır, bu nedenle bu aynı zamanda NLP teknolojisinin yönlerinden biridir. Bu problem gerçekten çok zordur NLP için, belki bilginin entegrasyonu (dil bilgisi, insan sağduyusu, alan bilgisi vb. Dahil) yukarıdaki problemleri hafifletmek için bir yöndür. (Xiaomi uzmanı)

5. Çözüm: Bu sorun NLP alanı ile sınırlı değildir.Herhangi bir senaryoda eğitilmiş bir model yeni bir bilinmeyen alana taşınırsa, modelin performansı önemli ölçüde düşecektir. Bilinmeyen alanlardaki sorunları çözmek için hızla yinelenebilen bir sistem veya çerçeve oluşturmamız gerekiyor. Önceden eğitilmiş model hızlı bir şekilde başlatılır, numuneler toplanır ve modelin performansı sürekli olarak izlenir ve ardından model hızla yinelenir. (Kripton Uzmanı)

Soru 3: Modelin performansı yeni ve hiç görülmemiş girdi verileri üzerinde tam olarak nasıl ölçülür? Başka bir deyişle, sistemin genelleme yeteneği nasıl ölçülür? Ve görünmeyen veri dağıtımı ve görevlerle nasıl başa çıkılır?

1.Çözüm: Modelin birden fazla farklı görevdeki performansından, yani değerlendirme setini genişletmekten ölçülebilir; diğer yandan model değerlendirme için farklı sistemlere de uygulanabilir.

Açıkçası, doğal dil anlama alanındaki bilinmeyen veriler son derece büyüktür ve modellemesi veya önceden ayarlanması zordur.Bu nedenle, ister model değerlendirme ister model eğitimi, bilinmeyen veri veya bilgilerin öğrenilmesini modelleme açısından olsun, Her ikisi de hala büyük bir sorun. (HKUST iFlytek Uzmanı)

2.Çözüm: Sinir ağları için henüz daha iyi bir teorik rehberlik yok. ICLR'17'nin en iyi makalesi "Derin Öğrenmeyi Anlamak Yeniden Düşünmeyi Gerektirir" başlıklı makaleye verildi ve aynı zamanda akademik camianın derin öğrenmenin genelleme yeteneği konusundaki dikkatini ve tartışmasını açıkladı. Bu makale, derin sinir ağlarının bir dereceye kadar olduğunu göstermek için birçok deney yaptı " Giriş örneğini ezberleyin. Bu makale aynı zamanda klasik istatistiksel makine öğrenimi teorilerinin ve düzenli stratejilerin derin ağların genelleme yeteneğini açıklamanın zor olduğuna inanmaktadır.Şu anda, hala kabul edilmiş bir cevap yoktur. (Tencent uzmanı)

3. Çözüm: Şu anda çok zor.Görünmeyen veri dağıtımı ve görevler için aktarım öğrenme ve diğer yöntemlerle diğer verilerden elde edilen yasaları yeni verilere veya yeni görevlere aktarmayı deneyebilirsiniz. (Xiaomi uzmanı)

4.Çözüm: Birincisi, çok makul ve sezgisel bir değerlendirme indeksi olmalı ve ikincisi, aşırı uyumu önlemek için zaman aralıklarında veya senaryolar boyunca çoklu veri yığınları üzerinde tam olarak test edilmesi gerekir. (Kripton Uzmanı)

Soru 4: Makine çeviri modelini eğitmek için modeli çapraz entropi veya beklenen cümle düzeyi BLEU gibi kayıp işlevlerini kullanarak eğitiyoruz. Bu işlevlerin tercihleri olduğu ve insan yargısıyla yeterince ilişkili olmadığı gösterilmiştir. Pekiştirmeli öğrenme, NLP için mükemmel bir seçim gibi görünüyor çünkü modelin simülasyon ortamında deneme yanılma yoluyla insan benzeri denetim sinyallerini ("ödüller") öğrenmesine izin veriyor. Ancak, pekiştirmeli öğrenme NLP'nin tüm sorunlarını tam olarak çözemez .. NLP'de pekiştirmeli öğrenmenin temel sorunları nelerdir? Nasıl başa çıkılır bununla?

1.Çözüm: NLP alanında pekiştirmeli öğrenme uygulamasında asıl sorun ödül sinyalinin belirlenmesidir. Doğal dil çok seyrek olduğundan ve kesintili sinyallere ait olduğundan, ödül işlevinin nasıl tanımlanacağı, doğal dil işleme alanında her zaman ortak bir sorun olmuştur. Makine çevirisinin BLEU puanı ve belge özetlerinin ROUGE puanı dahil olmak üzere, nispeten nesnel göstergeler olmalarına rağmen, yine de insan anlamsal değerlendirmesini doğrudan temsil edemezler. Dolayısıyla bu soru esasen anlambilimin nesnel olarak nasıl değerlendirileceği veya tanımlanacağıyla ilgili bir sorudur. Kişisel olarak pekiştirmeli öğrenmenin NLP alanında henüz iyi uygulanmadığını düşünüyorum. (HKUST iFlytek Uzmanı)

2.Çözüm: Takviye öğrenme, NLP alanında çok güçlü ve potansiyel bir araçtır, ancak tüm NLP problemlerini çözemez. Örneğin, pekiştirmeli öğrenme size en iyi kayıp işlevinin ne olduğunu söyleyemez, çünkü dil / görevle ilgili olması gerekir. Dahası, klasik RL algoritmasının, neredeyse sonsuz bir eylem alanıyla nasıl başa çıkılacağı (dil alanı gibi), ortamı basitçe taklit edemeyen açık bir sistemle nasıl başa çıkılacağı, farklı diyalog görevlerinde ödüllerin nasıl tanımlanacağı gibi dil problemlerini çözmek için genişletilmesi gerekiyor. Az sayıda örnekle RL'yi etkili bir şekilde eğitme, eğitimin hızlı bir şekilde yakınlaşması için dilin nasıl modelleneceği vb. (JD uzmanı)

3. Çözüm: Pekiştirmeli öğrenmenin sıralı karar verme özellikleri, diyalog oluşturma, özetleme, çeviri vb. Gibi NLP'nin bazı görevleriyle iyi uyum sağlar. NLP'de pekiştirmeli öğrenmeyi kullanmak için, önce pekiştirici bir öğrenme problemine dönüştürülmeye uygun olup olmadığına ve aracı, çevre, eylem, ödül gibi temel unsurların iyi tanımlanıp tanımlanamayacağına bakmalıyız. Buna ek olarak, eğitim sırasında, pekiştirmeli öğrenme görece istikrarsızdır ve makul bir durumda olup olmadığını görmek için algoritma öğrenme sürecine her zaman dikkat etmek gerekir. Emin olmadığınızda, etkileşimli ortamı ve ödül işlevini uygun şekilde basitleştirebilir ve hatta rastgele stratejinin belirli bir ortamda nasıl çalışacağını gözlemleyebilirsiniz. Geri kalanı, birden çok rastgele sayı tohumunu denemek, veri standardı işleme yapmak gibi bazı özel tekniklerdir. (Tencent uzmanı)

4.Çözüm: Pekiştirmeli öğrenmedeki temel zorluklardan biri, NLP için de geçerli olan ödül işlevinin tanımında yatmaktadır. İnsanlar niteliksel yargılarda iyidir, ancak makinelerin öğrenirken niceliksel olması gerekir ve nitelden niceliğe geçiş çok zordur. Bu sorunu çözmek için, değerlendirme işlevi üzerinde hala daha çok çalışmamız gerekiyor. (Xiaomi uzmanı)

5. Çözüm: Takviye öğrenme paradigması, NLP'de makine çevirisi, sıra oluşturma, diyalog sistemleri, sohbet robotları vb. Gibi geleneksel kayıp işlevlerinde kusurlara sahiptir, ancak ödül işlevlerini tanımlaması daha kolay olan dinamik sistemlerin daha iyi uygulama etkileri vardır. Bununla birlikte, düşük örnek kullanım verimliliği, ortama aşırı uyum ve dengesiz eğitim etkileri gibi pekiştirme öğreniminin kendisinin bazı sorunları, NLP'de pekiştirmeli öğrenmenin uygulanmasında da acı noktalardır. (Kripton Uzmanı)

Soru 5: NLP modelinin basit sağduyulu günlük senaryolarla başa çıkmak neden bu kadar zor? Nasıl geliştirilmeli?

1.Çözüm: Bu aslında NLP modeline özgü bir sorun değil, ses, görüntü vb. İçin bile, bazı günlük sahnelerde hala iyi bir örüntü tanıma sağlayamıyor. Günlük sahnelerin basitliğinin temel olarak çocukluğumuzdan beri biriktirdiğimiz çeşitli yaşam deneyimleri, sağduyu ve mesleki bilgilerden kaynaklandığına inanıyoruz, ancak makine veya tek bir model veya sistem eğitim için çok az bilgi "gördü" veya çok az kullandı ve bu da günlük işleme yol açar. Sahne daha zor. Makinelere sağduyu ile akıl yürütme becerisinin nasıl kazandırılacağı yapay zeka alanında ortak bir hedeftir ve sağduyu bilgisinin nasıl tanımlanacağı veya inşa edileceği, makinelerin sağduyuyu nasıl anlamasını sağlayacağı ve esnek bir şekilde akıl yürütmeyi nasıl öğreneceği gibi bir dizi sorunu çözmesi gerekir. (HKUST IFLYTEK)

2.Çözüm: Bunun nedeni, sağduyu veritabanlarından, iyi sağduyu temsillerinden ve belirli alanlarda sağduyu anlamsal anlayıştan yoksun olmamızdır ve bu da karar vermeyi etkileyecektir. Ek olarak, mevcut NLP kıyaslama değerlendirme kriterlerinin çoğu sağduyu içermemektedir. Bu nedenle, sağduyuyu öğrenmenin en iyi yolu, araştırmayı ve teknolojik ilerlemeyi teşvik etmek için daha karmaşık, büyük ölçekli, gerçek dünya görevlerini kullanmak ve araştırmacıları sağduyu modellerinden yararlanabilecek algoritmalar icat etmeye teşvik etmektir. (JD uzmanı)

3. Çözüm: Duygu sınıflandırması, açık alanlarda bilgiye dayalı soru cevaplama gibi bazı günlük sahneler iyi yapıldı. Elbette, genel bilginin evrensel NLP modeli henüz mevcut değildir ve orada olması olası değildir.Kişisel görüşlerin yine de göreve göre yapılması gerekir. (Tencent uzmanı)

4.Çözüm: Günlük sahneler çeşitli karmaşık bağlam özellikleri (hava durumu, konum, zaman dilimi, insan duyguları vb.) İçerir ve makinelerin bunları resmi olarak iyi tanımlaması zordur. İnsan muhakeme mekanizmaları çok karmaşık ve makinelerin simüle edilmesi şu anda zor. Olası iyileştirme yöntemlerinden biri, eğitim verilerini büyük miktarda artırmak ve anlama ve muhakeme için bilgi ve verileri birleştirmeyi düşünmektir. (Xiaomi uzmanı)

5. Çözüm: Günlük sahnelerin konuşma dili ve açıklığı, doğal dil işlemede çok zordur. Birincisi, sözlü cümlelerin genel gramatik yapısı düzensizdir ve analiz ve modellemeyi zorlaştıran daha fazla modal yardımcı kelime vardır.İkincisi, günlük sahneler açıktır ve günlük sahnelerin modellenmesini destekleyecek yeterince büyük bir bilgi tabanı yoktur. İlgili ürün veya sistemlerin açılışında iki noktada çaba gösterilmesi gerekiyor: sözlü cümlelerin metin normalleşmesinin güçlendirilmesi ve süreç rehberliği ve ürün tasarımı yoluyla sahnenin açıklığının azaltılması.

Buna ek olarak, doğal dil işleme alanındaki diğer acil sorunlar arasında göreve dayalı diyalog sistemleri, yetersiz dil kaynakları ve önyargı, en kötü durum performansı, alan uyarlaması, anlamlı metin ve diyalog oluşturma, aktarım öğrenimi ve uzun vadeli hedefler yer alır. / Görev odaklı insan-bilgisayar diyalogu, veri toplama yöntemleri, referans çözümleme, kelime anlamında belirsizlik giderme, metin özetleme, demokratikleştirme vb. Bunların hepsi endüstrinin daha çok ilgilendiği konulardır.Bu teknik sorunlar çözüldükten sonra ticari uygulamalar daha fazla olabilir Sorunsuz geliştirin.

3. Tipik uygulama sorunları ve çözümleri

Soru 1: Makine çevirisi alanında, mevcut makine çevirisi çözümlerinin çoğu, günlük veya önemli durumların çeviri ihtiyaçlarını mükemmel şekilde karşılayamamaktadır. Bu yıl Boao Forum'da Tencent Translator'da meydana gelen "araba kazasını" örnek alarak, mevcut çeviri ürünlerinin gerçekten kullanılabilir olmaktan hala çok uzak olduğunu görelim.

Çözümler: Bu bağlamda, bazı uzmanlar "insan-makine bağlantısı" kavramının gelecekte AI uygulamasının anahtarı olarak kabul edileceğine inanıyor. Sözde "insan-makine bağlantısı" nın özü, verimli iş bölümü ve insanlar ve makineler arasındaki işbirliğine atıfta bulunur. Meslekten olmayanın terimleriyle, insanlar insanların iyi olduğu entelektüel işi yaparlar ve makine, makinenin iyi olduğu bilgi işlem işini yapar. Bu normal yapay zekadan farklıdır.Normal yapay zeka, makinelerin bir görevdeki tüm sorunları çözebileceğini umar, ancak çoğu alanda makineler tüm sorunları verimli bir şekilde çözemez. Şu anda, büyük bir görevi tamamlamak için makine ile işbirliği yapmak için insan müdahalesi gerekiyor.

İnsan-makine bağlantısının yapay zeka uygulamasının anahtarı haline gelmesinin nedeni, mevcut yapay zeka sisteminin anlama ve muhakeme gibi bazı yönlerden yetersiz yeteneklere sahip olması ve belirlemek için insan uzmanların yardımına ihtiyaç duymasıdır.Bu yön, rehberlik ve adaptasyon gerektirir. süreci.

Doğal dil işleme teknolojisinin uygulama senaryoları, kısmen mevcut AI teknolojisinin darboğazı nedeniyle sınırlıdır.Ancak, birkaç yıl öncesine kıyasla, doğal dil işleme teknolojisi ile ilgili ürünler sonsuz bir şekilde ortaya çıkmaktadır. Bu ürünlerin bazı özellikleri vardır: kullanıcı ihtiyaçlarını araştırmak, kullanıcıların sıkıntılarını gidermek ve teknik seviyelere ulaşmak. Çeşitli AI yeteneklerinin gelişme eğilimini anlamak ve farklı senaryoları birleştirmek için anahtar, önlemleri yerel koşullara uyarlamaktır.

Soru 2: Gerçek kullanıcı deneyiminde, NLP teknolojisinin akıllı diyalog robot sistemindeki uzun cümlelerin anlamını ve insan niyetlerini anlamada hala daha büyük zorluklarla karşı karşıya olduğunu ve kullanıcıların iyi bir deneyim yaşamasının zor olduğunu göreceksiniz.

Çince'nin anamorfik özelliklerinden dolayı, uzun cümle anlama NLP'de her zaman zor bir problem olmuştur.Akademide çok fazla çaba sarf edilmiş olmasına rağmen hala pratik olmaktan uzaktır. Bu sorunu teknik olarak kısa vadede çözmek gerçekçi değildir.Kullanıcı deneyimini iyileştirmek için bazı diyalog tekniklerini kullanmayı düşünebilirsiniz. Çok yönlü niyetleri anlamak da zordur, ancak bazı önemli alanlar alan bilgi tabanları oluşturularak ve kullanılarak iyileştirilebilir. Kryptonian'ın dediği gibi, önce 80 noktayı tamamlayabilir ve ardından kalan 20 deneyim puanını yavaşça optimize edebilirsiniz.

Bazı insanlar, bu tür bir sorunun çözümünün mutlaka teknik bir bakış açısıyla başlamadığını düşünür.Gereksiz bazı sorunları önlemek için ürün düzeyinde ilgili ürün etkileşim mantığını tasarlamayı düşünebilirsiniz. Mevcut sistemin doğal dil anlama yeteneklerinin gerçek anlamda insan seviyesine ulaşamayacağını bilmek gerekir.Aşırı açık bir interaktif mod ayarlanırsa, genellikle teknik olarak çözülemeyen birçok sorunu beraberinde getirecektir. Bu nedenle, bu sorunu çözmek için teknoloji ve ürünlerin el ele gitmesi ve birlikte çalışması gerekir.

Soru 3: Bir diğer popüler uygulama ses etkileşimidir.Ancak piyasada akıllı hoparlörler gibi birçok ses tanıma yazılımı ve sesli etkileşim ürünü bulunmasına rağmen, akıllı hoparlörler gibi akıllı ses ürünlerinin şu anda çözebildiği sorunlar nispeten ilkeldir. Basit, karmaşık senaryolarda ve sorunların ele alınmasındaki performans iyimser değil. Şimdiye kadar, gerçek bir "sesli etkileşimli" ürün olmadığı görülüyor.

Sesli etkileşim kavramı ilk olarak cep telefonu asistanlarında hayata geçirildi ve temel asistan operasyonları da erken aşamada tamamlanabildi. Ancak bu gerçek bir sesli etkileşimli ürün değildir. İdeal ses etkileşimi, insanlar arasındaki sesli iletişimi tatmin etmelidir. Mevcut perspektiften bakıldığında, hala alınacak uzun bir yol var. Geliştirme modelinden, sesli etkileşimli ürünlerin iniş çalışması, tıpkı ses tanıma gibi adım adım gerçekleştirilecek.Teknolojideki sürekli atılımlar ve verilerin sürekli yinelemesiyle, niceliksel değişimden nitel değişime bir atılım oluşacaktır.

Xiaomi ayrıca başka bir perspektiften de ek yaptı: Xiaominin baş mimarı ve Xiaominin yapay zeka ve bulut platformunun başkan yardımcısı Cui Baoqiuya göre, gerçek AI ürünleri (ses ürünleri dahil) her yerde bulunmalı, her şeye gücü yeten ve her geçen gün artmalıdır. Bir gölge gibi. Bunu başarmak için büyük veri, büyük bilgi ve büyük bilgi işlem vazgeçilmezdir. Ek olarak, kişiselleştirme ve kendi kendine öğrenme de bu tür ürünlerin gerekli özellikleridir.

Krypton ayrıca gerçek ses etkileşiminin düşündüğünüz şey olduğuna inanır, ancak bu gereksizdir ve dil anlama teknolojisine dayalı olarak yapılamaz. Academia modelleme için her zaman görüntü, metin, davranış ve diğer verilerin birleştirilmesi üzerine araştırmalar yapmıştır ve bazı çalışmaların demoları da çok dikkat çekicidir. Bu nedenle Krypton, finans alanında bir bilgi grafiği oluşturmak için küresel verileri kullanır ve ses, vizyon ve diğer alanlar dahil olmak üzere birçok teknik alanda ortaklarla tam anlamıyla akıllı ve kolay anlaşılır bir interaktif deneyim oluşturmak için işbirliği yapmaya devam eder. ürün.

Gelecek eğilim

1. NLP ve ses teknolojisi bağımsızlıktan entegrasyon ve işbirliğine doğru ilerliyor

Doğal dil işleme teknolojisinin sürekli gelişimi ve kullanıcı ihtiyaçlarındaki değişikliklerle birlikte, bazı insanlar doğal dil işleme teknolojisinin bağımsız bir teknolojiden entegrasyon ve işbirliği eğilimine dönüştüğüne inanmaktadır. Bu konuda beş uzman oybirliğiyle kabul etti.

Yapay zekanın yetenekleri birbirinden bağımsız olmamalı, doğal dil işleme teknolojisinin, tıpkı insan beyninin birden çok işlevsel alanının birlikte çalışması gibi entegrasyon ve işbirliğine doğru ilerlemesi kaçınılmazdır. Xunfei, bu konuda her zaman bir düzene sahip olmuştur. 2015 sonunda piyasaya sürülen, ses teknolojisi ve anlamsal anlama teknolojisini bir dereceye kadar entegre eden ve etkileşimin etkisini artıran, sektörün ilk tam çift yönlü sesli etkileşim sistemi AIUI. Otomobil, ev aletleri ve müşteri hizmetleri alanlarında başarılı örnekler var. Başka bir örnek de konuşma çevirisi teknolojisidir. Bir araştırma trendi, geleneksel çok modüllü boru hattı süreci (önce konuşma tanıma ve makine çevirisi) olmadan, kaynak dil konuşmasından hedef dil metnine uçtan uca çeviri teknolojisidir. Konuşma çevirisinin doğrudan faydası, orijinal sürecin hata kademesinin kusurlarını hafifletmektir.

2. Diğer eğilimler

Krypton: Akıllı soru cevaplama ve sesli arama gelecekteki gelişme trendi olacak.

NLP