Haberler | Baidu, bilgi geliştirmeye dayalı NLP modeli ERNIE'yi yayınladı, birçok Çin NLP görevinde BERT'yi aştı

AI Technology Review News , Google'ın yakın zamanda önerilen BERT modeli, engellenen kelimeleri tahmin ederek ve Transformerın çok katmanlı öz-ilgi iki yönlü modelleme yeteneklerini kullanarak iyi sonuçlar elde etti. Bununla birlikte, BERT modelinin modelleme nesnesi esas olarak orijinal dil sinyaline odaklanmıştır ve anlamsal bilgi birimi modelleme için nadiren kullanılır. Bu problem özellikle Çincede belirgindir.Örneğin, BERT, Çin dilini işlerken, Çince karakterleri tahmin ederek model alır ve modelin daha büyük anlamsal birimlerin tam anlamsal temsilini öğrenmesi zordur. Örneğin, ping-pong, Qingming ve Yan Liuse kelimeleri için, BERT modeli kelimelerin kombinasyonu yoluyla maskenin kelime bilgisini kolayca çıkarabilir, ancak anlamsal kavram birimlerini (masa tenisi, Qingming Shanghe Tu gibi) açıkça karşılaştırmaz. ) Ve modelleme için karşılık gelen anlamsal ilişkisi.

Modelin, büyük metinde bulunan gizli bilgiyi öğrenebilmesi halinde, kaçınılmaz olarak her NLP görevinin etkisini daha da artıracağı öngörülmektedir. Buna dayanarak Baidu, bilgi geliştirmeye dayalı ERNIE modelini önerdi.

ERNIE, büyük verilerdeki kelimeleri, varlıkları ve varlık ilişkilerini modelleyerek gerçek dünyadaki anlamsal bilgiyi öğrenir. BERT'nin yerel dil birlikte oluşumunun anlamsal temsilini öğrenmesiyle karşılaştırıldığında, ERNIE doğrudan anlamsal bilgiyi modeller ve modelin anlamsal temsil yeteneğini geliştirir.

Örneğin, aşağıdaki örnek:

BERT tarafından öğrenildi: Habin, Longjiang eyaletinin başkenti ve Jibing'in ünlü bir kültür şehridir.

ERNIE tarafından öğrenildi: Heilongjiang'ın eyalet başkenti ve uluslararası bir kültür şehridir.

BERT modelinde, "Ha" ve "Bin" 'in yerel olarak birlikte oluşması yoluyla, "er" karakteri değerlendirilebilir ve model "Harbin" ile ilgili bilgiyi öğrenmez. ERNIE, kelimelerin ve varlıkların ifadesini öğrenerek, "Harbin" in "Heilongjiang" ın başkenti ve "Harbin" in bir buz şehri olduğunu öğrenerek modelin "Harbin" ve "Heilongjiang" arasındaki ilişkiyi modellemesini sağladı.

Eğitim verileri açısından, ansiklopedi ve Çince külliyat bilgilerine ek olarak, ERNIE ayrıca forum diyalog verilerini sunar, Sorgu-Yanıt diyalog yapısını modellemek için DLM (Diyalog Dili Modeli) kullanır, diyalog çiftini girdi olarak kullanır ve diyaloğu tanımlamak için Diyalog Gömme özelliğini sunar. Diyalogun örtük ilişkisini öğrenmek ve modelin anlamsal temsil yeteneğini daha da geliştirmek için Diyalog Tepki Kaybı'nı kullanın.

ERNIE modeli, doğal dil çıkarımı, anlambilimsel benzerlik, adlandırılmış varlık tanıma, duyarlılık analizi ve soru-cevap eşleştirme gibi beş kamuya açık Çince veri seti üzerindeki etki doğrulama yoluyla BERT'den daha iyi sonuçlar elde etti.

1. Doğal dil çıkarım görevi XNLI

XNLI, modelin çok dilli cümle anlama yeteneğini değerlendirmek için Facebook ve New York Üniversitesi'nden araştırmacılar tarafından ortaklaşa oluşturuldu. Amaç, iki cümle (çelişki, tarafsızlık, ima) arasındaki ilişkiyi yargılamaktır.

Bağlantı: https://github.com/facebookresearch/XNLI

2. Anlamsal benzerlik görevi LCQMC

LCQMC, Harbin Teknoloji Enstitüsü tarafından COLING2018 Uluslararası Doğal Dil İşleme Konferansı'nda oluşturulmuş bir soru anlamsal eşleştirme veri kümesidir. Amacı, iki sorunun anlambiliminin aynı olup olmadığına karar vermektir.

Bağlantı:

3. Duygu analizi görevi ChnSentiCorp

ChnSentiCorp, amacı bir paragrafın duygusal tutumunu değerlendirmek olan bir Çin duyarlılık analizi veri kümesidir.

4. Adlandırılmış varlık tanıma görevi MSRA-NER

MSRA-NER veri seti, Microsoft Asya Araştırma Enstitüsü tarafından yayınlandı. Amacı, kişi, yer, kurum, vb. Adları da dahil olmak üzere metinde belirli anlamlara sahip varlıkların tanınmasını ifade eden varlık tanıma olarak adlandırılır.

5. Arama sorgusu eşleşen görev NLPCC-DBQA

NLPCC-DBQA, 2016 yılında Uluslararası Doğal Dil İşleme ve Çin Hesaplama Konferansı NLPCC tarafından düzenlenen bir değerlendirme görevidir. Amacı, soruları yanıtlayabilecek yanıtları seçmektir.

Adres:

https://ernie.bj.bcebos.com/ERNIE.tgz

https://ernie.bj.bcebos.com/task_data.tgz

Github adresi:

https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE

Tıklamak Orijinali okuyun , Daha fazla tartışma için AI Araştırma Enstitüsü tarafından düzenlenen teknik değişim grubuna katılın

Bu 200.000 ortak girişim SUV, makyajlarını yeni tamamladı ve şimdi başlamak en iyisi!
önceki
Hubei Wuhan Tarım Makinaları Teknolojisi İlkbahar Sürümü İçin Kırsal Bölgeye Gidiyor
Sonraki
"Bir kişi, bir makine" nin ayrıcalıklı özelliklerinden vazgeçin Yeni Mercedes-Benz AMG43 serisi, performans arabaları için yeni bir idol mu yaratıyor?
IJCAI 50. yılını kutluyor! Geçmiş yılların en büyük ödülü olan "Mükemmel Araştırma Ödülü" nü kazananlar kimler?
Halka arz sahtekarlığı nedeniyle tutuklanan birçok kişinin arkasında: LeTV 9 ayda 1,6 milyar kaybetti ve on milyarlarca piyasa değeri buharlaştı
Yağ yetiştirmenin kolay olduğu kışın 20 kedi kadar karşı saldırı ve kilo verme Onunla ye!
Otonom SUV pazarındaki "eski sürücü" den korkmayan "toz emen silah" Fengshen AX4 nasıl yetişiyor?
Zhang Ziyi oyunu Zheng Shuang ile "dövüşmek" için ödünç aldı, "Bir Aktörün Doğuşu" oyuncular için bir "iblis aynası" olabilir mi?
Heilongjiang Hulin, baharda çiftçiliğe hazırlanmak için tarım makinelerini elden geçirmek için çiftçilere giriyor
Aracı soğutmak için doğrudan su püskürtmek iyi midir?
Schweider: Jaguar I-PACE, 2018'de seri üretilecek
Çoklu harita! CCTV 315, telefon görüşmelerini taciz eden robotları açığa çıkardı: Yılda 4 milyar çağrı, bu AI şirketleri listede
Çinli sert adam yağmur ormanı testine öncülük ediyor Giti arazi AT70 lastikleri
Dışarı çık, seni ölümüne korkutmayacağıma söz veriyorum! Anakara sınırındaki Hong Kong yapımı korku filmi
To Top