"Röportaj" MSRA Zhou Ming ekibi, NLP Tiejun'un "insanın ötesinde" teknolojisi ortaya çıktı

Xin Zhiyuan Rehberi 3 Ocak 2018'de, Microsoft Research Asia'nın r-ağı, SQuAD EM'de 82.650'ye ulaşmada liderliği ele geçirdi; bu, ExactMatch göstergesinde ilk kez 2016'da insanlar tarafından belirlenen 82.304'ü aştığı anlamına geliyor. Xinzhiyuan, MSRA Zhou Ming ekibiyle ilk kez röportaj yaptı ve EM, F1, insanları aşmanın özel anlamı, NLP'nin en zor temel sorunu ve Çin'deki doğal dil işleme teknolojisinin gelişme durumu ve gelecekteki beklentilerini ayrıntılı olarak analiz etti. .

3 Ocak 2018'de, Microsoft Research Asia'nın r-net'i, SQuAD makinede okuduğunu anlama yarışmasında 82.650'ye ilk ulaşan oldu. Bu, ExactMatch göstergesinde ilk kez 2016'da insanlar tarafından belirlenen 82.304'ü aştığı anlamına geliyor.

Alibaba Veri Bilimi ve Teknolojisi IDST Enstitüsü tarafından 5 Ocak'ta sunulan EM puanının 82.44 olduğunu belirtmekte fayda var, bu Microsoft Research Asia'nın r-netinden biraz daha düşük, ancak aynı zamanda insan puanını da aşıyor. Daha önce Tencent'in NLP ekibi tarafından sunulan model yakından takip edildi ve bu memnuniyet verici.

Not: Resmi web sitesinin ekran görüntüsü 16 Ocak 2018'dir.

İlk 10 listesinde Çin takımının "hakimiyetini" görüyoruz:

  • 1 numara ile berabere kaldı: Alibaba iDST NLP, Microsoft Research Asia

  • 2 numara: Microsoft Research Asia, Tencent DPDAC NLP

  • No. 5: Microsoft Research Asia

  • Beraberlik 6: Alibaba iDST NLP

  • No.7: iFlytek ve Harbin Teknoloji Enstitüsü Ortak Laboratuvarı

Microsoft Research Asia, Alibaba, Tencent, iFlytek, Harbin Institute of Technology vb. Dahil. Çin'de doğal dil işleme alanındaki araştırma kurumları zirveye tırmanıyor , SQuAD makine okuduğunu anlama yarışmasının ilk 10 listesinde.

Çin'in AI gücünün yükselişi, doğal dil anlayışının ilerlemesini aktif olarak teşvik ediyor.

Microsoft Research Asia'nın dekan yardımcısı Zhou Ming, Moments'ta şu yorumda bulundu: Çin'in doğal dil anlama araştırması dünyanın ön saflarında yer aldı! Mutlu olsam da, doğal dili anlamanın daha uzun bir yol olduğunun ve daha fazla çaba gösterilmesi gerektiğinin daha çok farkındayım.

Xinzhiyuan, Bay Zhou Ming ekibiyle ilk kez röportaj yaptı. Bay Zhou ve MSRA kıdemli araştırmacısı Wei Furu sabırla birçok soruyu yanıtladı ve birçok teknik kuru ürünü tartıştı. Aşağıdaki harika bir içerik sunumu. Not: Zhou, öğretmen Zhou Ming'in cevabı ve Wei, Wei Furu'nun analizidir.

EM ve F1 değerleri nelerdir? Topluluk nedir? Tek model ile farkı nedir?

Wei: SQuAD yarışmasında iki değerlendirme göstergesi EM ve F1 var.

EM (Tam Eşleşme) Sistem tarafından verilen cevapları ve kişilerin işaretli cevaplarını isteyin Tam eşleşme Puan almak için (noktalama işaretlerini ve maddeleri kaldırır: a, an, the), tam bir maç için 1 puan, aksi takdirde puan yok.

F1, sistem tarafından verilen cevap ile kişinin işaretlediği cevap arasındaki örtüşme derecesine göre 0 ile 1 arasında bir puan hesaplar. Yani, kelime seviyesi doğru oranı ve geri çağırma oranının harmonik ortalamasıdır.

Örneğin, bir sorunun etiketli cevabının "Denver Broncos" olduğunu ve sistemin yalnızca etiketli cevapla tam olarak eşleşen bir çıktı verdiğini (yani "Denver Broncos"), EM'nin 1 puan alacağını, aksi takdirde puan almayacağını varsayalım.

F1 için, sistem tarafından verilen cevap, kişinin işaretlediği cevapla tam olarak aynı olmasa bile, örneğin sistem çıktısı "Broncos" ise, bu durumda EM puanı 0 olmasına rağmen, F1 değerlendirme indeksinde puanın bir kısmını (0.67) alacaktır. .

EM daha katı bir değerlendirme endeksidir ve aynı zamanda MSRA'nın sisteminin SQuAD'de insan sonuçlarını ilk kez aştığı değerlendirme endeksidir.

Model entegrasyonu (topluluk), sistem performansını iyileştirmek için yaygın bir yöntemdir. Sinir ağı modelinin başlatma ve eğitim sürecinin rastgele olması nedeniyle, farklı bir model elde etmek için aynı algoritma aynı veriler üzerinde birçok kez eğitilecektir.

Model entegrasyonu, birden çok tek modeli eğitmek ve ardından nihai sonucu elde etmek için bu tek modellerin çıktılarını sentezlemektir.

Entegre model genellikle tek modelden daha iyidir, ancak aynı zamanda sistem yanıt hızı ve hesaplama kaynakları pahasına gelir. Pratik uygulamalarda, model etkisini ve model verimliliğini (daha iyi ve daha hızlı) dengelemek gerekir.

İnsanları aşmak ne anlama geliyor?

Wei: SQuAD'in test veri setindeki her soruya en az üç cevabı vardır (en az 3 kişi her soru için cevabı işaretler). SQuAD, ikinci cevabı kişinin tahmin sonucu ve kalan cevabı standart cevap olarak görür.

EM göstergesi için, tahmin edilen yanıt herhangi bir standart yanıtla aynıysa, puan olarak kabul edilir. F1 göstergeleri için, tüm standart cevaplar arasında en yüksek puan, puanı olarak seçilecektir. Bu şekilde kişinin EM puanı (82.304) ve F1 puanı (91.221) elde edilir.

Zhou: 2016'daki bu yarışmanın başında, Microsoft Asya Araştırma Enstitümüz, her model gönderişimizde neredeyse ilk sırada yer aldı. 2017'nin sonunda, puanımız 82.136 idi, bu da insan standartlarına çok yakındı, sadece 0.17 puan uzakta. Bu kez modelimizin EM değeri 82.650'ye ulaştı ve insanoğlunun doğru yanıt endeksini 0,3 puan aştı. Basitçe ifade etmek gerekirse, bu 0.3 noktayı bu şekilde anlayabilirsiniz Sistemimiz, insanların bu soru kümelerini yaptığından 30 daha fazla soruyu doğru yaptı.

Bu kadarıyla, bilgisayarların insanların okuduğunu anlama düzeyini aştığı anlamına gelmez, çünkü bu tür çalışan puanların sonuçları belirli bir soru bankası ve test süresi gibi bir ön koşula ve yalnızca yetişkin anlayışının ortalama düzeyine tabidir.

İnsanların ötesinde bir medya haberi hile olarak kullanılamaz Teknolojik ilerlemeyi görürken, modellerin sürekli iyileştirilmesini ve teknoloji uygulamalarının uygulanmasını sakince düşünmeliyiz. Bu, oyunun ilk etabının keyfini sürmek yerine, tüm oyuncuların mevcut sorunların üstesinden gelmek için sağlıklı bir şekilde rekabet etmesini gerektiren bir ekolojidir.

NLP'nin aşması gereken en zor teknik temel sorun nedir

Wei: Şu anda, SQuAD listesindeki en iyi sistemlerin tümü uçtan uca derin sinir ağlarını kullanıyor. Genellikle aşağıdaki parçaları içerir:

  • Katman Gömme: Genel olarak, harici büyük ölçekli veriler üzerinde önceden eğitilmiş kelime vektörleri (Eldiven vb.) Ve ayrıca tekrarlayan sinir ağları veya evrişimli sinir ağlarına dayalı karakterlerden kelimelere kelime vektörleri (temsiller) kullanılır, böylece yapabilirsiniz Makalenin soru ve paragrafındaki her kelimenin bağlamdan bağımsız temsilini alın. Bazı modeller ayrıca ağın girdisi olarak bazı özellikleri ve kelime vektörlerini çıkarır. İnsanın kelime düzeyinde okuma bilgisine eşdeğerdir.

  • Kodlama Katmanı: Genel olarak, çok katmanlı tekrarlayan bir sinir ağı, sorunun ve makale paragrafındaki her kelimenin içeriğe duyarlı bir temsilini elde etmek için kullanılır. Makalenin sorusunu ve pasajını bir kez okumakla eşdeğerdir.

  • Eşleşen Katman: Aslında, sorudaki sözcükler ile makale paragrafındaki sözcükler arasındaki uygunluk (ya da eşleşme) ilişkisini elde etmektir. Temelde dikkat mekanizması ile gerçekleştirilir.Genel olarak kullanılan Match-LSTM ve Co-care'e dayanır, böylece makaledeki her kelimenin problemle ilgili temsili elde edilir. Makalenin pasajını sorularla okumakla eşdeğerdir.

  • Kendinden Eşleşen Katman: Problemle ilgili kelime temsilinin elde edilmesi temelinde, öz-dikkat mekanizması makale paragrafındaki kelime temsilini daha da geliştirmek için kullanılır. Yazının pasajını tekrar okumak ve kitabı yüz kere okumakla eşdeğerdir.

  • AnswerPointerLayer: Makale paragrafındaki en yüksek cevap olasılığına sahip alt dizeyi ve cevap olarak çıktıyı hesaplamak için, makale paragrafındaki her kelime için cevabın başlangıcı ve cevabın sonu olasılığını tahmin edin. Bu genellikle Pointer Networks tarafından uygulanır. Madde paragrafında cevap pozisyonunu bulmak için tüm ipuçlarını ve bilgiyi bütünleştiren kişiye eşdeğerdir.

Aslında, SQuAD'deki mevcut en üst düzey sistemler, modellerde ve algoritmalarda benzerlik ve benzerliklere sahiptir.

Bu aynı zamanda SQuAD yarışmasında bir yıldan fazla süredir okuduğunu anlama araştırma topluluğu ve meslektaşlarının (farklı okullardan, şirketlerden ve araştırma kurumlarından) ortak çabalarının, karşılıklı öğreniminin ve iyileştirilmesinin bir sonucudur.

En iyi modeller şu anda, erken temel modeller dahil olmak üzere aşağıdaki algoritmaları veya bileşenleri entegre etmektedir.

Örneğin, dikkat mekanizmalarındaki Match-LSTM (Singapur Yönetim Üniversitesi) ve BiDAF (Allen Institute for Artificial Intelligence) yenilikleri (Salesforce Coattention mekanizması, R-NET'in Gated-Attention mekanizması vb.), R-NET'in Self- Eşleştirme (veya Kendi Kendine Dikkat) mekanizmasının yanı sıra, son zamanlarda model efektini önemli ölçüde iyileştiren önceden eğitilmiş bağlamsallaştırılmış vektör temsilleri (Bağlamsal Vektörler), sinir makinesi çeviri eğitimine ve büyük ölçekli harici Metin verileri vb. Üzerine eğitilmiş iki yönlü dil modeli (Allen Institute for Artificial Intelligence).

Elbette, ağ modeli tasarımında ve parametre ayarlama yöntemlerinde de iyileştirmeler ve yenilikler var. Mevcut sonuçların aslında geçtiğimiz yıl boyunca tüm okuduğunu anlama topluluğunun sürekli çabaları ve işbirliğinin bir sonucu olduğu söylenebilir.

Çince okumak ve anlamak İngilizceden daha mı zor?

Zhou: Şu anki araştırma aşamasının sonuçlarından yola çıkarak, Çince okuduğunu anlamanın İngilizceden daha zor olması gerektiğini söyleyen bir kağıt görmedim. Bence her birinin kendi zorluğu var. Örneğin, Çince deyimler ve İngilizce argo her ikisi de zor. Her birine referans da farklıdır, belirli senaryoları analiz etmek ve modeli sürekli olarak ayarlamak gerekir.

Çin Okuduğunu Anlama Yarışması Çin'de yapılacak.Çin Çin Bilgi Toplumu (CIPS) ve Çin Bilgisayar Federasyonu (CCF) tarafından ortaklaşa destekleniyor ve Çin Bilgi Toplumu Değerlendirme Çalışma Komitesi Baidu ve Bilgisayar Topluluğu Çin Bilgi Teknolojisi Komitesi tarafından ortaklaşa düzenleniyor. Üstlenin. Yarışma 1 Mart 2018'de kayıt kanalını resmi olarak açacak. Kazanan ekip, toplam 100.000 yuan para ödülünü paylaşacak ve üçüncü "Dil ve İstihbarat Zirvesi Forumu" nda teknik değişimler ve ödüller verecek.

Bu çok iyi bir şey. Yarışma veri seti, Baidu aramasından 300.000 gerçek soru içeriyor. Her soru, 5 aday belge metnine ve insanlar tarafından yazılan yüksek kaliteli cevaplara karşılık geliyor.

Yarışmadaki görev genellikle şu şekilde tanımlanır: makinenin metni okumasına izin verin ve ardından okuma içeriğiyle ilgili soruları yanıtlayın. Okuduğunu anlama, son derece zorlayıcı olan dil anlama, bilgi muhakemesi ve soyut nesil gibi karmaşık teknolojileri içerir.

Bu görevler üzerine yapılan araştırmalar, akıllı arama, akıllı öneri ve akıllı etkileşim gibi yapay zeka uygulamaları için büyük önem taşımaktadır ve doğal dil işleme ve yapay zeka alanında önemli bir sınır konusudur.

Son altı ayda, MSRA'nın gelişimi ve atılımının anahtarı

Wei: Bu sefer modelimiz, R-NET'in sürekli geliştirilmesinin ve iyileştirilmesinin bir sonucudur.

Daha önce de belirtildiği gibi, araştırma ve deneyimlerimizi akademik toplulukla paylaşırken (ACL 2017 makalemiz ve sonraki teknik raporlarımız gibi), aynı zamanda R-'yi iyileştirmek için akademik araştırma sonuçlarını sürekli olarak özümsüyor ve öğreniyoruz. AĞ.

Geçtiğimiz birkaç ay içinde, modelin temel iyileştirmesi birkaç yönden geldi. Model ve algoritmadan modeli, Eşleştirme Katmanı ve tüm sistemin en kritik kısmı gibi daha derin ve daha geniş (daha geniş) yaptık. Dikkat mekanizması parçası.

Ek olarak, harici büyük ölçekli veri eğitimine (Bağlamsal Vektörler) dayalı bağlamsallaştırılmış vektör temsillerini de kullanıyoruz. Ayrıca biraz daha ilginç araştırmalar yapıyoruz ve deneylerde iyi sonuçlar gördük.

Gelecekte daha fazla ve daha ayrıntılı bilgi paylaşacağız ve araştırma sonuçlarımızı akademi ve endüstri ile paylaşacağız ve makine okuma anlayışının araştırma ve uygulama yeniliğini ortaklaşa teşvik etmek için birlikte çalışan herkesi dört gözle bekliyoruz.

Makine okuduğunu anlama teknolojisinin mevcut tanıtımı

Wei: Makine okuduğunu anlama teknolojisinin geniş uygulama senaryoları vardır.

Arama motorlarında, makine okuma anlama teknolojisi, kullanıcıların aramalarına (özellikle soru tipi sorgular) daha akıllı yanıtlar sağlamak için kullanılabilir. Şu anda R-NET teknolojisi, Microsoft'un Bing arama motorunda başarıyla uygulanmaktadır. Kullanıcılara doğrudan doğru yanıtlar sağlamak için tüm İnternet belgelerini okuyor ve anlıyoruz.

Aynı zamanda bu, Cortana gibi mobil senaryolarda kişisel asistanlarda da doğrudan bir uygulamaya sahiptir.

Buna ek olarak, makine okuma anlama teknolojisi, iş alanında geniş bir uygulama yelpazesine sahiptir.Örneğin, akıllı müşteri hizmetinde, otomatik olarak metin belgelerini (kullanım kılavuzları, ürün açıklamaları vb.) Okumak için makineyi kullanabilir veya müşteri hizmetlerinin kullanıcı sorularını yanıtlamasına yardımcı olabilirsiniz.

Ofis alanında, makine okuma anlama teknolojisi de iyi uygulama olasılıklarına sahiptir.Örneğin, kişisel e-postaları veya belgeleri işlemek için makine okuma anlama teknolojisini kullanabilir ve ardından ilgili bilgileri elde etmek için doğal dil sorgularını kullanabiliriz.

Buna ek olarak, makine okuduğunu anlama teknolojisi dikey alanlarda çok geniş uygulama olanaklarına sahiptir.Örneğin, eğitim alanında, hukuk alanında hukuki terimleri anlamak için, yargılarda avukatlara veya hâkimlere yardımcı olmak için ve mali alanda yapılandırılmamış Metin (haberlerdeki gibi) finansla ilgili bilgileri çıkarır.

Okuduğunu anlamanın insan zekasındaki en kritik yeteneklerden biri olduğuna ve makine okuma anlama teknolojisinin evrensel bir yetenek haline getirilebileceğine ve daha fazla uygulama oluşturmak için üçüncü taraflara sunulabileceğine inanıyoruz.

Makine okumayı anlama teknolojisi 2018 ve sonrası

Wei: Teknik olarak, derin öğrenmeye dayalı algoritmalar ve modeller için hala çok yer var. Karmaşık muhakemeyi etkili bir şekilde modelleyebilen ve sağduyu ve dış bilgiyi (bir bilgi tabanı gibi) etkin bir şekilde kullanabilen bir derin öğrenme ağı önermenin mümkün olup olmadığı şu anda çok anlamlı bir araştırma konusudur.

Ek olarak, derin öğrenmeye dayalı mevcut makine okuma anlama modellerinin tamamı kara kutulardır ve makine okumayı anlama sürecini ve sonuçlarını sezgisel olarak temsil etmek zordur, bu nedenle yorumlanabilir derin öğrenme modelleri de çok ilginç bir araştırma yönü olacaktır.

Okuduğunu anlama görevinde, SQuAD'in mevcut görev tanımındaki cevap, orijinal metnin belirli bir alt bölümüdür.Pratikte, insanlar makaleyi okuduktan sonra ifade etmek için daha karmaşık akıl yürütme ve yeni metin düzenleme ihtiyacı duyabilir. Bu bağlamda Microsoft tarafından yayınlanan MARCO veri seti bu yönde yoğun çalışıyor.

Ek olarak, mevcut SQuAD veri seti her sorunun ilgili belge paragrafında cevaplanması gerektiğini varsaydığından, bu kısıtlama yarışmalar ve araştırmalar için makul ve etkilidir, bu nedenle mevcut model çok emin olmasa bile seçilecektir. Çıktı olarak en olası belge parçası kullanılır.

Bu varsayım ve modelin çıktısı pratik uygulamalarda makul değildir. İnsanlar okuduğunu anlama ve soruları cevaplamada çok önemli bir yeteneğe sahiptir, okudukları metinde cevap yoksa cevap vermeyi reddedeceklerini bilirler.

Ve bu soru, araştırmada veya pratik uygulamada çok önemli bir araştırma konusudur. Bu alanda zaten araştırma yapıyoruz ve bazı iyi ilerlemeler kaydettik.

Son olarak, SQuAD veri setindeki belgelerin tümü Wikipedia'dan geldiğinden, mevcut modellerin tümü veri odaklı olsa da, mevcut modelleri belirli alanlara (özellikle finans, hukuk vb. Gibi dikey alanlara) uygulamak gerekir. Veri ve modellerde uyarlamalar yapın ve daha fazla yenilik yapın.

Topluluğa katıl

Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstri inişiyle ilgilenen öğrenciler, küçük bir yardımcı WeChat hesabı ekleyebilirler: aiera2015_1 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmeniz gerekir (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).

Ek olarak, Xinzhiyuan AI teknoloji + endüstri topluluğu (akıllı arabalar, makine öğrenimi, derin öğrenme, sinir ağları vb.), İlgili alanlarda çalışan mühendisleri ve araştırmacıları işe alıyor.

Sadece Qu Yuquan değil! Şimdi, resmi duyuru: polisler arama görevi için feda etti! Lütfen polise saldıranları ağır şekilde cezalandırın!
önceki
Daocheng Yading'den daha iyi, burası dünyadaki gerçek saf toprak!
Sonraki
Chu Shijian: Hayatım boyunca yaptığım şeye ve yaptığım insanlara layıkım
Uzay kahramanlarına iftira atılamaz!
Pony.ai, Seviye 4 otonom sürüş teknolojisine meydan okumak için Seri A finansmanının 112 milyon ABD doları olduğunu duyurdu
Perakende pazarlamadaki son beş trend, Tencent tarafından yayınlanan bu teknik incelemede derinlemesine incelenmiştir!
Ma Yun komutasındaki "Demir Ordu": Ya orada öl ya da başarılar elde et
"Oğlanın en yakışıklısı"! Eylemlerinden biri şehri ısıtır
"Kızların" gizemini ortaya çıkarın
Multidisipliner bir beyne ihtiyacınız var | Munger'in ekonominin 9 büyük eksikliğiyle ilgili 20.000 kelimesi
Chen Xiaorong adındaki o 18 yaşındaki kız, lütfen öne gelin!
Ormanda karavanda mı yaşıyorsun? Bu kış için harika bir fikir!
Patronun "yüzü" bir işletmenin en büyük maliyetidir
Huaihai Savaşı'nda ileri yıllarında neler yaşadılar?
To Top