g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

BERT'li denetimsiz NER (kod ekli)

Yazar: Ajit Rajasekharan

Çeviri: Chen Zhiyan

Redaksiyon: Wang Yutong

Bu makale hakkında 8700 kelime, Önerilen Okuma 10+ dakika.

Bu makale, denetimsiz adlandırılmış varlık tanıma (NER) yöntemi sunar.

Şekil 1. Denetlenmemiş BERT (bert-büyük-kasalı) denetimsiz NER etiketlemesini gösteren örnek cümleler

Yukarıdaki şekil yalnızca bu yöntemle (BERT) işaretlenmiş birkaç varlık türünü seçmiştir. 500 cümlenin etiketlenmesi, bazıları yukarıda gösterildiği gibi sentetik etiketlerle eşleşen yaklaşık 1.000 benzersiz varlık türü oluşturabilir.

BERT modeli GEN ve PROTEIN arasında ayrım yapamaz, çünkü bu varlıkların tanımlayıcıları ve maskelenmiş terimlerin tahminleri aynı kuyruk bölgesinde yer alır (bu nedenle temel kelime dağarcığındaki kelimelerden ayırt edilemezler). Bu yakından ilişkili varlıkları ayırt etmek, belirli bir alanın külliyatında MLM ince ayarını veya sıfırdan özel kelime dağarcığını kullanarak ön eğitim gerektirebilir (aşağıda daha ayrıntılı açıklanmıştır).

TL; DR

Doğal dil işlemede, kişiler, yerler, kuruluşlar vb. Gibi cümlelerde ilgilenilen varlıkları (NER) tanımlamak için cümleleri işaretlememiz gerekir. Bunların arasında, her bir cümleyi manuel olarak işaretleyebilir veya her cümleyi bazı otomatik yöntemlerle işaretleyebiliriz (genellikle gürültülü / zayıf etiketlenmiş bir veri kümesi oluşturmak için sezgisel yöntemler kullanarak). Ardından, denetimli bir öğrenme görevi olarak görülebilecek olan varlıkları tanımak için modeli eğitmek için bu etiketli cümleleri kullanın.

Bu makalede, denetimsiz bir NER yöntemi anlatılmaktadır. NER, cümleleri etiketlemeden BERT modelini kullanarak denetimsiz olarak yapılır ve BERT modeli, maskelenmiş kelime modeli hedefinin külliyatı üzerinde yalnızca denetimsiz eğitimdir.

Model, 25 varlık türünden oluşan küçük bir veri setinde (Wikitext corpus)% 97'lik bir F1 puanına ve CoNLL-2003 külliyatındaki kişiler ve konumlar için% 86 F1 puanına sahiptir. CoNLL-2003 külliyatının insanları, yeri ve organizasyonu için, F1 puanı düşüktür, sadece% 76, bu da esas olarak cümlelerde varlıkların belirsizliğinden kaynaklanmaktadır (aşağıdaki değerlendirme bölümünde açıklanmıştır). Bu iki testi tamamlarken test edilen veriler üzerinde modelin ön eğitimi / ince ayarı yapılmadı (bu, belirli alan verileri üzerinde modelin önceden eğitilmesi / ince ayarının yapılması veya denetimli eğitimde etiketli verilerin kullanılmasıyla keskin bir tezat oluşturuyor. ).

O nasıl çalışır?

Bir terimin varlık tipinin (terim, bir terim, bir makaledeki kelime ve cümleleri ifade eder) ne olduğunu sormak isterseniz, bu terimi daha önce hiç görmemiş olsak bile, terimin telaffuzundan veya cümle yapısından yine de tahmin edebiliriz. ,hangisi:

Bir terimin alt kelime yapısı, varlık türüne ilişkin ipuçları sağlar. Nonenbury, _____.

Bu, uydurma bir şehir adıdır, ancak "gömmek" son ekinden, bunun bir yer olabileceği tahmin edilebilir. Herhangi bir bağlam olmasa bile, terimin son eki varlık türüne ilişkin ipuçları verir.

Cümle yapısı, terimin varlık türüne dair ipuçları sağlar. _____ Chester'a uçtu.

Buradaki cümlenin bağlamı, varlık türüne ilişkin ipuçları verir ve bilinmeyen terim bir konumdur. Daha önce hiç görmemiş olsanız bile, cümledeki boş alanın bir konum olduğunu tahmin edebilirsiniz (Nonenbury gibi).

BERT'in MLM ön ucu (Masked Language Model head) (MLM-Figure 7), yukarıda bahsedilen korumalı aday kelimeleri tahmin edebilir. Daha önce de belirtildiği gibi: eğitim amacı, cümlelerde boş kelimeleri tahmin ederek öğrenmektir. Daha sonra çıkarım sürecinde, bu öğrenmenin çıktısı maskelenmiş terimi tahmin etmek için kullanılır Tahmin, BERT sabit kelime dağarcığının olasılık dağılımına dayanır. Bu çıktı dağılımı, terimin içeriğe duyarlı varlık türü için aday sözcükleri içeren önemli ölçüde kısa bir kuyruğa sahiptir (toplamın yaklaşık% 0.1'inden daha azı) Bu kısa kuyruk, BERT sözlüğünde ifade edilen bağlama duyarlı terimin tanımlayıcısıdır. Örneğin, cümledeki korumalı konumun bağlama duyarlı tanımlaması aşağıdaki gibidir:

Nonenbury, _____.

Bağlam duyarlılığı tahmini: köy (köy, köy), küçük kasaba (mezra, Hamlet), yerleşim, bucak köyü, çiftlik, kasaba (kasaba, kasaba).

BERT sabit kelime hazinesi (bert-büyük-cased 28996 kelimedir) bir dizi genel tanımlayıcıdır (uygun isimler, yaygın isimler, zamirler vb.). Bu tanımlayıcı kümenin bir alt kümesi (olası örtüşme ile), cümle bağlamı terimlerinden bağımsız bir varlık türü ile karakterize edilen aşağıdaki kümeleme işlemiyle elde edilir. Bu alt kümeler, bağlamdan bağımsız terim tanımlayıcılardır. BERT sözlüğünde bağlama duyarlı tanımlayıcılara yakın varlık türleri elde etme süreci aşağıdaki gibidir:

En yakın eşleştirme işlevi (kelime yerleştirmelerinin kosinüs benzerliğine dayalı olarak), BERT sözlüğünün gömme alanına uygulanır.Eşleştirme işlevi, bağlama duyarlı tanımlayıcı / küme ile bağlamdan bağımsız tanımlayıcı / küme arasındaki terimi temsil eden bir NER etiket dili oluşturur Bağlamdan bağımsız kimlik alt kümesi.

Spesifik olarak, {B1, B2, C3, ... Bm} terimlerinin m grubu, içeriğe duyarlı tanımlayıcılardan oluşan bir set ve n terim grupları {C11, C12, C13, ... Ck1}, {C21, C22, C23, ... Ck2} , {Cn1, Cn, Cn, Ckn}, bağlamdan bağımsız bir tanımlayıcı oluşturur ve NER etiketlerine sahip bağlamdan bağımsız tanımlayıcıların bir alt kümesini oluşturur (aşağıdaki Şekil 2'ye bakın).

Şekil 2. Cümlelerin NER etiketlemesi

Minimum önişlemeden sonra, maskelenmiş sözcük içeren cümle modele girilir.

BERT sözlüğünde tahmin edilen 28.996 kelimenin ilk 10 terimini edinin.

Bu 10 terim, BERT'in kelime gömme alanındaki bir işlev tarafından yeniden sıralanır.

Yeniden sıralamanın ardından, en üstteki k terimler ve 6000 küme (çevrimdışı hesaplama), eşleşen kümeleri çıkaran küme eşleştirme işlevine girdi ve girdi olarak kullanılır.

Ardından, bu kümelerin etiketleri (tek seferlik manuel etiketleme olabilir veya bazı kullanım durumlarında kullanılabilir) toplanır ve NER etiketleri çıkarılır. Şekil 3, 4 ve 5'te yürütülen işlevlerin tümü, BERT gömme uzayındaki sözcük vektörleri arasındaki kosinüs benzerliğini kullanır ve BERT sözcük gömme uzayının kosinüs benzerliği hesaplanarak bir seferde yaklaşık 6000 küme çevrimdışı oluşturulur. . Şekilde BERT temel modelinin ima edilen boyutu 768'dir. Makaledeki BERT büyük kasalı örneğinin örtük boyutu 1024'tür.

Bağlamdan bağımsız tanımlayıcıların sayısı göz önüne alındığında, binlerce tanımlayıcı BERT sözlüğünden otomatik olarak elde edilebilir (bert-büyük-cased 6000'dir). Bu yöntem kullanılarak, çok sayıda varlık türünün denetimsiz olarak tanımlanması, verileri etiketlemeye gerek kalmadan ayrıntılı bir düzeyde elde edilebilir.

Yukarıdaki denetimsiz NER yöntemi yaygın olarak kullanılmaktadır:

BERT sözlüğündeki diğer kelimeler aracılığıyla, BERT'nin orijinal kelime gömme, yararlı ve ayrılabilir BERT bilgilerini yakalayabilir (kelime haznesi% 0.1'den az histogram kuyruğu ile ayırt edilir) ve 6000'den fazla küme oluşturabilir.
MLM kafalı BERT modelinin çıktısı dönüştürüldükten sonra, maskelenmiş kelimeleri tahmin etmek için kullanılabilir. Bu tahminler ayrıca, terimler için bağlama duyarlı etiketleri seçmek için kullanılabilen, kolayca ayırt edilebilen bir kuyruğa sahiptir.

Denetimsiz NER gerçekleştirme adımları

1. Bir defalık çevrimdışı işleme

Tek seferlik çevrimdışı işleme, BERT sözlüğünden elde edilen bağlamdan bağımsız tanımlama kümesi için bir eşleme oluşturur ve bunu tek bir tanımlayıcı / etiketle eşler.

Adım 1: BERT sözlüğünden bağlama duyarlı tanımlayıcı terimleri seçin

BERT kelime dağarcığı, yaygın isimler, özel isimler, alt kelimeler ve sembollerin bir karışımıdır.Bu set için minimum filtre noktalama işaretlerini, tek karakterleri ve BERT'nin özel işaretlerini kaldırmaktır. Ardından, varlık türünü tanımlayan bir tanımlayıcı olarak 21418 terim-ortak isimler ve özel isimlerden oluşan bir set oluşturun.

2. Adım: BERT sözlüğünden bağlamdan bağımsız bir logo oluşturun

BERT sözlüğündeki her terim için kuyruğundan bağlamdan bağımsız bir tanımlayıcı oluşturursanız, daha yüksek bir kosinüs benzerlik eşiği seçseniz bile (bert-büyük-kasalı model için, terimlerin yaklaşık% 1'i ortalama kosinüstedir Eşik 0.5 kuyruğu aşarsa), oldukça büyük sayıda küme (yaklaşık 20.000) da elde edilecektir. Bu kadar çok sayıda kümede bile, bu işaretler arasındaki benzerlikler yakalanamaz. Yani yapmalıyız:

BERT sözlüğündeki tüm terimleri yineleyin (alt sözcükler ve çoğu tek karakter yok sayılacaktır) ve her terim için 0,5'ten büyük kosinüs eşiği olan bağlamdan bağımsız bir tanımlayıcı seçin. Kelimenin sonundaki terimi tam bir grafik olarak ele alın, burada kenarın değeri kosinüs benzerlik değeridir;
Grafikteki diğer tüm düğümlere en yüksek bağlantı gücüne sahip düğümü seçin;
Bu düğümü, bu düğümlerden oluşan bağlam tarafından bağımsız olarak tanımlanan bir ana öğe olarak düşünün Bu düğüm, bu grafikteki diğer tüm düğümlerin en yakın komşusudur.

Şekil 3. Tam grafikte pivot düğümünü bulun

Yukarıdaki tam grafikte, "sorunsuz" düğüm, komşularıyla en yüksek ortalama bağlantı gücüne sahiptir. Bu nedenle, "sorunsuz" bu grafiğin ana düğümüdür - bu grafikteki diğer tüm düğümlere en yakın komşudur.

Bir terim kimliğin bir parçası olarak seçildiğinde, değerlendirme pivotu için aday olmayacaktır (ancak, başka bir terimin pivot düğümü hesaplanırsa, dolaylı bir pivot haline gelebilir). Temelde, bir terim, bir pivot veya dolaylı bir pivot gibi birden çok kümenin bir öğesi olabilir.

havaalanı 0,60,1 Havaalanı havaalanı havaalanları Havaalanı havaalanında okşayarak 0,590,07 okşayarak okşayarak okşadı sürtünme fırçalama okşama Gazetecilik 0,580,09 Gazetecilik Gazetecilik Gazetecilik Fotoğraf gazetecileri Pürüzsüz bir şekilde 0,520,01 Sorunsuz ve verimli bir şekilde hızlı ve sakin bir şekilde

Yukarıdaki örnek tanımlamada, iki değer, alt grafikteki kenarların ortalama ve standart sapmasıdır ve birinci sütundaki terimler, tanımlamanın pivot terimleri olarak adlandırılır. Bu terimler, varlık etiketi aracıları olarak işlev görür ve kullanıcı tanımlı etiketler haline gelmek için manuel olarak eşlenebilir (tek seferlik işlem).

Şekil 4a ve 4b, bu varlık kümelerini eşleme örneklerini gösterir.Sadece özel uygulamamızla ilgili varlık türlerini temsil eden koleksiyonlar eşlenir. Kalan koleksiyonlar otomatik olarak kompozit "Diğer / çeşitli" etiketiyle eşleştirilebilir. Şeklin referans kısmı, tanımlayıcıya rehberlik etmek / hızlandırmak için modelin kendisini kullanarak ve böylece onu kullanıcı tanımlı bir etikete manuel olarak eşleştiren bir yöntemi açıklar.

BERT kelime dağarcığının yaklaşık% 30'u uygun isimler olduğundan (kişi isimleri, konumlar, vb.), Biz de sadece küçük bir terim grubunu işaretleriz (Şekil 4 ve 4b'de gösterildiği gibi: 2000 kümeyi manuel olarak işaretlemek yaklaşık 5 adam-saat sürer) ) Çok sayıda cümleyi işaretlemeden, bu biraz hile yapmaya benziyor. Cümleleri etiketleme problemini, etiketleme bağlamının hassas olmayan tanımlayıcılarına dönüştürmenin temel avantajı, bunun tek seferlik bir süreç olmasıdır.

Denetimli eğitim yöntemiyle karşılaştırıldığında, bu kaçınılmaz olarak yalnızca modeli eğitmek için değil, aynı zamanda eğitimden sonra (genellikle dağıtımda) oluşturulan cümleleri yeniden eğitmek için daha etiketli veriler oluşturur. Bununla birlikte, bu örnekte, en kötü durum senaryosu, BERT modelinin, herhangi bir ek işaret olmaksızın bu yeni cümleleri denetimsiz eğitime yeniden eğitilmesi / ince ayarının yapılması gerektiğidir.

Yukarıda bahsedilen bağlama duyarsız tanımlama, ortalama tabanı yaklaşık 4/7 düğüm olan yaklaşık 6000 küme üretecektir. Bu 6000 kümenin ortalama küme gücü 0,59'dur ve sapma 0,007'dir - bu kümeler oldukça sıkı kümelerdir ve küme ortalaması dağılımdan elde edilen eşikten çok daha yüksektir (Şekil 4c). Yaklaşık 5000 terim (kelime dağarcığının% 17'si) tekil kümelerdir ve göz ardı edilecektir. Eşiği değiştirirseniz, bu sayılar da değişecektir. Örneğin, eşik 0,4 olarak seçilirse, toplam kuyruk kütlesi% 0,2'ye yükselecek ve buna göre küme ortalaması artacaktır (ancak varlık türleri birbirine karıştırılırsa, kümeler gürültülü hale gelmeye başlayacaktır).

Şekil 4. BERT (bert-büyük-kasalı) bağlamdan bağımsız tanımlama seti veri kümesi

Ortalama baz yaklaşık 4'tür ve standart sapma 7'dir. Bu 6110 veri setinin küme kuvvetinin ortalama değeri 0,59 ve sapma 0,007'dir - ortalama değer dağılımdan seçilen eşikten çok daha yüksek olduğu için bu kümeler çok sıkı kümelerdir. Bağlama duyarlı terimlerin genellikle nispeten zayıf kümeler olduğu ve BERT kelime dağarcığının yaklaşık% 17'sinin tekil kümeler olduğu görülebilir. Alt kelimeler, özel etiketler ve tek karakterli etiketlerin çoğu küme olarak kabul edilmeyecektir.

Şekil 4a. BERT (bert-büyük-cased) kelime kümesinin varlık dağılımı

Çoğu varlık, insanlar, yerler ve organizasyonlardır (ORG). AMB, kümelerde belirsiz terimlere sahip kümeleri ifade eder.Örneğin, aşağıdaki Şekil 4b'de gösterildiği gibi, insanlar ve yerler arasında belirsizliklere sahip 7 küme vardır ve diğer kümelerin insanlar, şeyler, spor / biyografi vb. Açısından belirsizlikleri vardır. Belirli bir alandaki varlık türlerini bulmak istediğinizde, özel bir kelime dağarcığı kullanmak gerekir. Bu özel türler kişiyi (KİŞİ), konumu (KONUM) ve kuruluşu (ORG) netleştirebilir.

Şekil 4b. BERT (bert-büyük-cased) sözlüğünün varlık alt sınıf dağılımı

Bunlar, Şekil 4a'daki ince taneli varlık alt türlerinin ana türleridir.

BERT sözlüğünden elde edilen bağlamdan bağımsız kümelere örnekler:

Şekil 4c. BERTin (bert-büyük-kasalı) sözlüğünden elde edilen küme örnekleri

Bağlama duyarlı olmayan kümeler bulanık kümelerdir ve AMB olarak etiketlenir. Ayrıca, alt sözcükler kümelendiğinde alt sözcük kümelemesini de göz önünde bulundurun (bu makaledeki varlık tanıma sonuçları benzer sonuçları filtrelemiş olsa da).

2. Her girdi cümlesi için varlığı tahmin edin

Giriş cümlesi için terimleri işaretlemek için aşağıdaki adımları uygulayın.

3. Adım: Giriş cümlelerinin ön işlemesini en aza indirin

Bir girdi cümlesi varlığını etiketlemeden önce, girdi üzerinde az miktarda ön işlem yapılması gerekir. Bunlardan biri büyük harf kullanımının standartlaştırılmasıdır - tüm büyük cümleler (genellikle belge başlıkları) küçük harfe dönüştürülür ve her kelimenin ilk harfi orijinal kalır. Bu, sonraki adımda ifade aralığının doğruluğunu artırmaya yardımcı olur.

New York'tan SFO'ya uçtu

dönüşmek:

New York'tan Sfo'ya uçtu

4. Adım: Cümledeki kelime öbeği aralığını belirleyin

Girdi cümlesini işaretlemek için bir POS etiketi kullanın (ideal olarak, eğitim tüm küçük harfli kelimeleri ve cümleleri de işler) Bu etiketler, cümleleri tanımlamak ve isimlerin ilk harfini büyük harfe dönüştürmek için kullanılır.

New York'tan Sfo'ya uçtu

Yukarıda isim olarak işaretlenen terimler kalın yazılmıştır. BERT'in maskelenmiş kelime tahmini büyük harfe çok duyarlıdır, bu nedenle, etiketleme performansının anahtarı yalnızca küçük harf olsa bile, isimleri güvenilir bir şekilde etiketlemek için bir POS etiketi kullanılmalıdır. Örneğin, aşağıdaki cümlelerin kalkan kelimelerini tahmin etmek için, cümledeki bir harfin büyük harf kullanımını değiştirerek varlık anlamını değiştirebilirsiniz.

Elon Musk bir ____CS Tahminleri: politikacı müzisyen yazar oğul öğrenci işadamı biyolog avukat ressam üye

CS tahmini: Politikacı, müzisyen, yazar, oğul, öğrenci, işadamı, biyolog, avukat, ressam, üye.

Elon misk bir ____ (not: misk, misk anlamına gelir) CS Tahminler: marka Japon birası Alman ortak Türk popüler Fransızca Rusça Brezilya

CS tahmini: Marka, Japonca, Bira, Almanca, Genel, Türkiye, Popüler, Fransa, Rusya, Brezilya.

Ek olarak, BERT'in kalkan kelime tahmini, varlık türünü (yukarıdaki ilk örnekteki kişi) yalnızca güvenilir bir şekilde tespit edebilir ve BERT bazen gerçeklerin doğru tahminlerini yapabilse de gerçekleri doğru bir şekilde tahmin edemez.

5. Adım: Engellenen her kelimenin konumunu tahmin etmek için BERTin MLM başlığını kullanın

Cümledeki her isim terimi için, terimin koruyucu kelimesi ile bir cümle oluşturun. Korumalı kelime konumlarının içeriğe duyarlı tanımlamasını tahmin etmek için BERT'in MLM başlığını kullanın.

__'Den SfoCS Tahminlerine uçtu: Roma orada Atina Paris Londra İtalya Kahire burada Napoli Mısır

CS tahmini: Roma, Atina, Paris, Londra, İtalya, Kahire, Napoli, Mısır

New York'tan ___CS'ye uçtu Tahminler: Londra Paris Singapur Moskova Japonya Tokyo Chicago Boston Fransa Houston

CS tahmini: Londra, Paris, Singapur, Moskova, Japonya, Tokyo, Chicago, Boston, Fransa, Houston

Şekil 2'deki ana düğümü bulma yöntemine benzer şekilde, kümedeki her düğüm ile diğer düğümler arasındaki gücü bulun. Ardından yoğunluğa göre sıralayın ve kelime gömme alanında yeniden sıralanmış CS tahmin listesini alın. Yeniden sıralama işleminden sonra, benzer varlık anlamlarına sahip terimler bir araya getirilir.Ayrıca, gömülü boşlukta bağlamla ilgisi olmayan sözcüklerin yeniden sıralanması gerekir.

Örneğin, aşağıdaki ilk örnekte, yeniden sıralamanın ardından, "orada" ve "burada" terimleri (boş pozisyonlar için etkili bağlama duyarlı tahminler) sona itilir. Bir sonraki adımda, bu yeniden sıralanan düğümlerin ilk k (k1) düğümleri seçilecektir.

__'Den SfoCS Tahminlerine uçtu: Roma orada Atina Paris Londra İtalya Kahire burada Napoli Mısır

CS tahmini: Roma, Atina, Paris, Londra, İtalya, Kahire, Napoli, burada, Mısır

CS tahminlerinin CI uzay sıralaması: Roma Paris Atina Napoli İtalya Kahire Mısır Londra burada burada

CS tahmininin CI uzamsal sıralaması: Roma, Paris, Atina, Napoli, İtalya, Kahire, Mısır, Londra, orada, burada

New York'tan __CS Tahminlerine uçtu: Londra Paris Singapur Moskova Japonya Tokyo Chicago Boston Fransa Houston

CS tahmini: Londra, Paris, Singapur, Moskova, Japonya, Tokyo, Chicago, Boston, Fransa, Houston

CS tahminlerinin CI uzay sıralaması: Paris Londra Tokyo Chicago Moskova Japonya Boston Fransa Houston Singapur

CS tahmininin CI uzamsal sıralaması: Paris, Londra, Tokyo, Chicago, Moskova, Japonya, Boston, Fransa, Houston, Singapur

6. Adım: Bağlama duyarlı etiketler ile bağlamdan bağımsız etiketler arasında yakın bir eşleşme bulun

Basit bir yakın eşleştirme işlevi makul sonuçlar üretebilir.Önceki terimden içeriğe duyarlı bir pivot düğümü seçer ve onu bağlamdan bağımsız tanımlama setinde 6000 pivotun tamamına sahip bir iç çarpım haline getirir. Aday varlık etiketlerini elde etmek için bunları sıralayın. Bu noktada, özünde, yakın eşleme işlevi, bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme özetini bulmanın anahtarıdır. Etiket / tahminin güvenilirliğini artırmak için (Şekil 5), üst pivot yerine üst k pivotları seçiyoruz.

Şekil 5. Kelime gömme alanında bağlama duyarlı tanımlayıcılar ve bağlamdan bağımsız tanımlayıcılar arasındaki yakın eşleşme

Yakın eşleşmeyi sağlamanın en etkili ve basit yolu, içeriğe duyarlı tanımlamanın ana öğe düğümü ile bağlamdan bağımsız tanımlamadaki temel öğeler kümesi arasındaki nokta çarpımıdır. Şu anda, yakın eşleştirme işlevi esasen bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme pivotunu bulmaktır.

Başka bir daha iyi uygulama, bağlam duyarlı tanımlayıcıdaki düğümün ortalamasına ve standart sapmasına göre ana düğümü seçip seçmemeye karar vermek ve ardından her bir dil ile ilişkiyi bulmak için iki taraflı grafikte dikkate alınacak ana öğelerin sayısını seçmektir. Bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme özeti.

Şekil b'de gösterilen durum şudur: bağlama duyarlı kelime sayısı 3 olduğunda ve yalnızca bir bağlamdan bağımsız terim düğümü olduğunda (ikisi arasındaki ilişkiyi kesmek için burada tek bir sayı seçmek daha iyi olabilir; ayrıca buna gerek yoktur Bağlama duyarsız kümeden üç düğüm seçin, çünkü daha önce belirtildiği gibi sıkı bir şekilde kümelenmişlerdir, ortalama sapma .007'dir).

Bağlama duyarlı tanımlamadaki tüm düğümlerin hesaplamada iyi sonuçlar vermesi olası değildir, çünkü bağlama duyarlı düğümlerin ortalama standart sapması çok daha yüksektir. Çünkü gömülü alandaki bağlama duyarlı işaretleri değerlendirirken, tek bir varlık türünü yakalarken bile daha geniş bir alana genişleyecektir.

Bağlama duyarlı logodaki üst pivotun etiket tahmini aşağıda gösterilmektedir. Etiketler ve kullanıcı etiketleri aşağıdaki gibidir:

CS tahminleri için __'den SfoCI uzay siparişine uçtu: Roma Paris Atina Napoli İtalya Kahire Mısır Londra burada

CS tahmininin CI uzamsal sıralaması: Roma, Paris, Atina, Napoli, İtalya, Kahire, Mısır, Londra, burada, orada

Etiketler: İtalya Venedik Atina Bologna Madrid Kartaca Roma Sicilya Turin Vatikan

işaret: İtalya, Venedik, Atina, Bologna, Madrid, Kartaca, Roma, Sicilya, Torino, Vatikan

Kullanıcı Etiketi-konum konum konum konum konum konum konum konum konum

Kullanıcı etiketi- Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum

New York'tan CS tahminlerinin __CI uzay siparişine uçtu: Paris Londra Tokyo Chicago Moskova Japonya Boston Fransa Houston Singapur

CS tahmininin CI uzamsal sıralaması: Paris, Londra, Tokyo, Chicago, Moskova, Japonya, Boston, Fransa, Houston, Singapur

Etiketler: Londra Madrid Cenevre Viyana Bordo Chicago Metz Atina Köln İstanbul

işaret: Londra, Madrid, Cenevre, Viyana, Bordeaux, Chicago, Metz, Atina, Köln, İstanbul

Kullanıcı Etiketi-konum konum konum konum konum konum konum konum konum

Değerlendirme sonuçları

Model iki veri seti üzerinde değerlendirildi:

Standart veri seti CoNLL-2003, üç varlık türü (kişi, konum, organizasyon);
Yaklaşık 25 varlık türü içeren Wiki metin veri kümesi.

CoNLL-2003 setinde, üç veri türünün (PER-% 81,5; LOC-% 73; ORG % 66; MISC-% 83,87) tümünün ortalama F1 puanı yalnızca% 76'dır. Bu iki nedenden kaynaklanmaktadır:

Test verilerindeki CoNLL metin yapısının büyük bir kısmı tam bir cümle değil, kriket skorunun kısa bir raporudur ve düzenli bir cümle yapısına sahip değildir. Model cümleler için önceden eğitilmediğinden veya ince ayar yapılmadığından, bu dağıtılmış cümlelerde maskelenen kelimeleri tahmin etmek zordur. Aslında bu durum, modelin yeni cümle yapısı üzerinde önceden eğitilmesi veya ince ayarının yapılmasıyla iyileştirilebilir.
Test verileri, belirli bir bölgedeki birçok ekibi tek bir konum olarak işaretler. Model, ekip adları (kuruluş) değil, her zaman konum olarak işaretler. Bu sorun, bu denetimsiz NER yöntemi kullanılarak kolayca çözülemez. Her zaman manüel olarak işaretlenen terimler yerine terimleri işaretlemek için koruma konumu ile en iyi eşleşen varlık tanımlayıcısını seçer. Bu bir anlamda bir dezavantaj olsa da, modelin de temel avantajıdır - maskelenmiş konumları işaretlemek için kullandığı tanımlayıcılar, dışarıdan işaretlenmiş kişilerden öğrenilmek yerine, doğal olarak eğitilmiş derlemeden türetilmiştir. . Bu tanımlayıcıları kullanıcı tanımlı etiketlerle eşleştirmek bir yöntem olabilir, ancak mükemmel bir çözüm olmayabilir (örneğin, konum tanımlayıcılarının organizasyon ve konumun bulanık etiketleri olarak görüldüğü yukarıdaki durum).

Şekil 5a. CoNLL-2003 sonuçları

Model değerlendirmesi, az miktarda test verisine dayanmaktadır, ancak tam bir doğal cümleler kümesine ve yaklaşık% 97'lik bir ortalama F1 puanıyla yaklaşık 25 etiket türüne sahiptir.

Şekil 5b. 25 varlık türü için Wiki veri sonuçları

Şekil 5c. Wiki veri kümesinin varlık dağılımı

Bu veri setinde F1 ortalama puanı% 97'dir. Bu yöntemin temel farkı, yalnızca modelin etiket verileri üzerinde eğitilmemesi değil, aynı zamanda modelin önceden eğitilmemiş olmasıdır (modeli test etmek)

Yöntemin sınırlamaları ve zorlukları

1. Topluluk Yanlılığı

Tek varlıklı tahminler, modelin varlık türlerini açıklamak için alt sözcük bilgilerini kullanma yeteneğini gösterse de, pratik uygulamalarda, bunlar yalnızca birden çok varlık türüne sahip cümlelerle kullanılabilir. Çok fazla bağlam içermeyen tek bir varlık cümlesi, Google ve Facebook'un tahmini gibi, külliyat yanlılığına karşı çok hassastır:

Facebook bir __CS Tahminleri: şaka canavar katil arkadaş hikayesi kişi şirket hatası web sitesi hatası

CS tahmini: Şakalar, canavarlar, katiller, arkadaşlar, hikayeler, karakterler, şirketler, başarısızlıklar, web siteleri, arızalar

Microsoft bir __CS Tahminidir: şirket web sitesi rakip insanlar arkadaş oyuncu Kazanan kazanan kişi markası

CS tahmini: Şirketler, web siteleri, rakipler, arkadaşlar, oyuncular, kazananlar, insanlar, markalar

Google __CS Tahminleri: arkadaş web sitesi canavar şirket katil kişi adam hikayesi köpek kazanan

CS tahmini: Arkadaş, web sitesi, canavar, şirket, katil, karakter, adam, hikaye, köpek, kazanan

2. Varlık tahmininin belirsizliği

Bu yöntem iki belirsizlik yaratacaktır:

Bağlama duyarsız tanımlayıcılarla karakterize edilen varlık türlerinde belirsizlik vardır (Şekil 4c'deki örnek). "Bankalar, banka, Bankalar, bankacılık" içeren bir küme, bir kuruluşu veya konumu temsil edebilir. Bununla birlikte, bu belirsizlik genellikle çözülebilir.İçeriğe duyarlı tanımlayıcı ve bağlama duyarsız tanımlayıcı, varlık türünün çoğunluk oyuyla yakından eşleştiğinde, bazı eşleşen bağlama duyarlı tanımlayıcılar bile belirsizdir.
Aşağıda açıklanan ikinci tür belirsizliği çözmek zordur.

Bazı cümleler, farklı varlık türlerinin engellenen bir terimi doldurmasına izin verir. Örneğin, aşağıdaki cümlede New York'taki varlık türünü tahmin ederken:

New York'un bu yılki yarışmayı kazanma şansı olduğunu hissetti

Korumalı kelimenin varlık tahmini, bir kişiyi ima eden bir kelime olabilir ve aşağıda gösterildiği gibi cümle de pürüzsüzdür:

__He____ 'nın bu yılki yarışmayı kazanma şansı olduğunu hissetti

Belirsizlik, engellenen sözcüklerden kaynaklanır ve çoğu vaka, engellenen terimin kendisi olan New York'un varlık türü belirlenerek çözülebilir.

New York _____CS Tahminler: şehir kasaba yeri Şehir başkenti gerçeklik kare ülke rüya yıldızı

CS tahmini: Şehir, kasaba, kasaba, başkent, gerçeklik, kare, ülke, rüya, yıldız

Bununla birlikte, bazı durumlarda, maskelenmiş terimler bile belirsizdir ve varlıkların tanımlanmasını zorlaştırır. Örneğin, orijinal cümle:

Dolphins'in bu yılki yarışmayı kazanma şansı olduğunu hissetti.

Yunuslar bir müzik grubu veya bir spor takımı olabilir.

Bu zorluklar aşağıdaki yöntemlerle iyileştirilebilir:

Tescilli terimler bütünü üzerinde, modele ince ayar yapmak, belirli etki alanlarındaki varlık türlerindeki belirsizliğin azaltılmasına yardımcı olabilir. Örneğin, BERT ön eğitimindeki BRA F'nin (bir gen) özelliklerinde genetik bir önemi yoktur, ancak genetik anlam, biyomedikal korpus üzerinde ince ayarlanmış bir modelde mevcuttur.

BRAF _____CS Tahminidir: İngiliz Alman yeni standardı varyant adı sürümü Dünya dünya

CS tahmini: İngilizce, Almanca, yeni standart, varyant adı, sürüm, dünya

Biyomedikal korpus modelinde ince ayar yaptıktan sonra:

BRAF bir _____CS Tahminidir: protein gen kinaz yapısal aile dışı reaksiyon fonksiyonel reseptör molekülü

CS Tahmini: protein genleri, kinaz yapısı, aile dışı reaksiyonlar, fonksiyonlar, reseptörler, moleküller

Modeli önceden eğitmek için kullanıcı tanımlı bir sözcük dağarcığı ile başlayın (bağlantıyla: https://towardsdatascience.com/pre-training-bert-from-scratch-with-cloud-tpu-6e2f71028379), bu, varlığın çözülmesine yardımcı olabilir Belirsizlik sorunu daha önemlidir: Varlık işaretlemenin performansını da artırabilir.

BERT'nin varsayılan kelime dağarcığı çok zengin olmasına rağmen, kişiler, konumlar, kuruluşlar vb. Varlık türlerini tespit etmek için eksiksiz kelimeler ve alt kelimelerle birlikte (Şekil 4a ve b), biyomedikal alandaki terimlerin tamamını veya bir kısmını yakalayamaz. Örneğin, imatinib, nilotinib ve dasatinib gibi ilaçların etiketlenmesi, "tinib" ortak alt kelimesini dikkate almayacaktır. Imatinib i ## mat ## ini # b olarak işaretlenir ve dasatinib i ## ni ## b'de das ## olarak işaretlenir. Özel bir kelime haznesi oluşturmak için biyomedikal korpustaki cümle kalıplarını kullanırsanız, im ## a ## tinib ve d ## as ## a ## tinib ve ardından yaygın olarak kullanılan son ekleri alırsınız.

Ek olarak, özel kelime haznesi, biyomedikal alanın doğuştan, kanser, kanserojen, kardiyolog ve diğer tıbbi alan profesyonel kelimeleri gibi özelliklerini daha iyi yakalayabilen, biyomedikal alanından eksiksiz kelimeler içerir, bunlar varsayılan BERT'de önceden eğitilmiştir. Modelde mevcut değil. Varsayılan BERT kelime dağarcığındaki kişilerin ve konum bilgilerinin yakalanması, biyomedikal korpustaki ilaçlar ve hastalık koşulları gibi uygun isimlerin ve alt kelimelerin yakalanmasıyla değiştirilecektir.

Ek olarak, biyomedikal korpustan çıkarılan özel kelime dağarcığı, yeni tam kelimelerin yaklaşık% 45'ini içerir ve tüm kelimelerin yalnızca% 25'i halka açık BERT eğitim öncesi modeliyle örtüşür. 100 özel kelime dağarcığı eklemek için BERT modeline ince ayar yaptığınızda, size bir seçenek sunulacaktır, ancak çok fazla yoktur ve daha önce de belirtildiği gibi, kişiler, konumlar, kuruluşlar vb. Gibi varlık türleri için varsayılan BERT sözlüğü üretilecektir. Şekil 4a'da gösterildiği gibi ciddi belirsizlik.

Token: imatinib dasatinibBERT (varsayılan): i ## mat ## ni ## b das ## ati ## nibCustom: im ## a ## tinib d ## as ## a ## tinib

Makaleden sonra bazı düşünceler

NER, giriş cümlesinden cümledeki terimlere karşılık gelen bir dizi etikete kadar bir eşleme görevidir. Geleneksel yöntemler, modeli eğiterek / ince ayar yaparak ve etiketli verilerin denetimli görevini kullanarak bu eşleştirmeyi gerçekleştirir. BERT gibi eğitim öncesi modellerden farklı olarak, bu model topluluk üzerinde denetimsiz öğrenme gerçekleştirir.

Bu makalede, önceden eğitilmiş / ince ayarlı BERT modelini değiştirmeden maskelenmiş dil hedeflerinde denetimsiz NER gerçekleştirme yöntemi açıklanmaktadır. Bu, öğrenmenin dağıtılmış gösterimi (vektör) üzerinde uçtan uca işlemler yoluyla elde edilir Vektör işlemenin son aşaması, NER etiketlerini belirlemek için geleneksel algoritmaları (kümeleme ve en yakın komşu) kullanır. Ek olarak, üst düzey vektörün çoğu durumda aşağı akış görevleri için kullanıldığı durumun aksine, maskelenmiş cümlenin çıktısı yalnızca BERT tarafından çekirdek sembol bilgisi olarak kullanılır ve cümlenin NER etiketini elde etmek için kelime gömme kendi en alt katmanına uygulanır.

Şekil 6. Bu makalede açıklanan geleneksel denetimli NER (soldaki resim) ve denetimsiz NER'in karşılaştırması (sağdaki resim)

Geleneksel denetimli NER, modelin eğitilmesi / ince ayarının yapılmasıyla gerçekleştirilen denetimli bir etiket eşleme görevidir (soldaki görüntü). Aksine, denetimsiz NER, denetimsiz maskelenmiş kelime modeli hedeflerini eğitmek için bir ön eğitim / ince ayar modeli kullanır ve cümle bilgisi elde etmek için BERT model-kelime yerleştirmelerinin alt katmanında algoritmik işlemler gerçekleştirmek için tohum bilgisi olarak modelin çıktısını kullanır. NER etiketi.

Kısacası, NER gerçekleştirmek için gerekli tüm bilgiler geleneksel anlamda denetimli bir öğrenme görevidir, aynı zamanda denetimsiz BERT modelinde de mevcuttur ve alt katmanın anahtar kısmı gömme kelimesidir.

İlgili çalışmalar / referanslar

2018'de yayınlanan bu makale (https://homes.cs.washington.edu/~eunsol/open_entity.html), varlık tanıma için uzaktan denetim kullanır. İnce taneli etiketler, kitle kaynaklı eğitim modelleridir.

Bu makale (https://www.aclweb.org/anthology/N19-1084.pdf), 10.000'den fazla varlık türü için ayrıntılı varlık girişi gerçekleştirmek üzere denetlenen çok etiketli bir sınıflandırma modeli kullanır.

Adlandırılmış varlık tanıma her zaman geniş çapta araştırılan bir sorun olmuştur. Şimdiye kadar arXiv ile ilgili yaklaşık 400 makale var ve Google Akademik 2016'dan bu yana yaklaşık 62.000 arama sonucuna sahip.

BERT'nin orijinal yerleştirmesini kontrol edin:

https://towardsdatascience.com/examining-berts-raw-embeddings-fd905cb22df7

Ek

1. Berts MLM baş-kısa incelemesi

BERT MLM kafası, aslında BERT'nin üstündeki tek bir dönüştürme katmanıdır. Aşağıdaki şekil, 9x768'lik bir matris olan (BERT temel modelinin boyutu 768'dir) BERT tarafından 9 işaretli bir cümle çıktısını göstermektedir (belirteçlemeden sonra). Daha sonra MLM başlığının yoğun katmanına geçirilir ve cümle içindeki hangi pozisyonun 28996 kelime vektörü ile en yüksek benzerliğe sahip olduğunu bulmak için 9x768 çıktısında 28996 kelime vektörünün hepsinde bir nokta çarpımı gerçekleştirilir. Bu pozisyonda bloke edilen kelime için tahmin edilen bir etiket oluşturulur. Eğitim / ince ayar modunda, maskelenmiş sözcüğün tahmin hatası modele geri yayılır ve gömülü sözcüğe (kod çözücü ağırlığı ve gömme katmanı ağırlığı bağlama / denkliği) yayılır. Çıkarım modunda, yerleştirme, biçimlendirme metnini ve çıktı günlüğünü üstbilginin en üst düzeyinde temsil etmek için kullanılır.

Şekil 7. BERTin MLM kafası - 9 karakterli bir girişi ve modelin içinden akan MLM başlığını gösterir

Kod çözücü, gömme katmanındaki aynı vektörü kullanır (ağırlıklar kodda bağlıdır - ancak ayrı ayrı pytorch.bin dosyasında bulunur).

2. Yöntem performansı

Aşağıdaki cümle için:

BERT kullanan tipik bir denetim yönteminde, tüm cümleyi ince ayarlanmış bir BERT modeline tamamen girerek, aşağıda gösterildiği gibi NER çıktı etiketlerini (B_PER, I_PER, O ...) elde edebiliriz.

Bu makalede açıklanan denetimsiz NER yöntemi, John Doe, New York, RioDe Janiro ve Miami olmak üzere dört varlığı belirlemek için yukarıdaki cümlenin bir MLM'nin başına dört kez geçirilmesini gerektirir (yukarıda açıklandığı gibi, bu dört varlığın pozisyonları Bir POS etiketi ve bir yığınlayıcı tarafından tanınır).

Spesifik olarak, cümlenin aşağıdaki 4 işaretli versiyonu MLM modeline aktarılacaktır:

Her korumalı sözcük konumunun içeriğe duyarlı özelliklerini alın ve ardından aşağıda gösterildiği gibi her konum için varlık tahminleri oluşturmak için bunları içeriğe duyarlı olmayan özelliklerle eşleştirin.

Prensipte giriş cümlesindeki her bir tanımlayıcının MLM bağlamına duyarlı tanımlayıcısını bir seferde almak mümkün olsa da, aslında maskeli kelimeli cümle, varlık türünü belirlemek için MLM modeline ayrı olarak gönderilmelidir, çünkü cümlenin kullanılıp kullanılamayacağı net değildir. Ya da alt kelimelerin içeriğe duyarlı tahmini, tahminler yapmak için birleştirilir (orijinal cümlenin yalnızca bir kelime varlığı varsa ve bu kelimelerin etiketli versiyonu BERT sözlüğünde de mevcutsa, hassas tanımlama tek geçişte çıkarılabilir).

Örneğin: New York gibi sözcük grupları ve Imatinib - I ## mat ## ini ## b gibi alt sözcüklerin tümü BERT sözlüğünde görünür. Bir alt kelime birden fazla varsayılan anlam içeriyorsa, sorun karmaşık hale gelir: Örneğin: Imatinib-I ## mat ## ini ## b'de I, yüksek varyanslı içeriğe duyarlı bir tanımlayıcı üretir. Yeni bir güvenilir tek etiket oluşturmak için alt kelimeler üzerinde ışın araması gerçekleştirmek mümkündür, ancak bu temel kelime dağarcığının bir parçası olmayabilir ve bu da bağlama duyarlı etiketlerde daha büyük sapmalara neden olabilir. SpanBERT'i tahmin aralığını artırma seçeneği olarak düşünebilirsiniz, ancak yalnızca maskelenmiş tümceciklerin her bir etiketini tahmin eder ve maskelenmiş tümcecik için bir tahmin vermez.

Birden çok korumalı sözcük içeren cümleleri tahmin etmek, cümlenin tüm korumalı sürümlerini paralel olarak tahmin ederek çözülebilir. Yukarıdaki örnekte, engellenen terimler cümledeki toplam terim sayısının% 50'sini oluşturur, ancak gerçek projelerde genellikle bu ortalamanın altındadır. ___ (Nonenbury___)MLM

POSBERTBERT/

BERT64771399 592872

Orjinal başlık:

Unsupervised NER using BERT

Orijinal bağlantı:

https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a

Editör: Huang Jiyan

Redaksiyon: Lin Yilin

Çevirmen Profili

Chen Zhiyan, Pekin Jiaotong Üniversitesi'nden iletişim ve kontrol mühendisliği alanında yüksek lisans derecesi ile mezun olmuştur. Great Wall Computer Software and System Company'de mühendis ve Datang Microelectronics'te mühendis olarak hizmet vermiştir. Şu anda Beijing Wuyichaoqun Technology Co., Ltd.'nin teknik destekçisidir. Şu anda akıllı çeviri öğretim sistemlerinin işletimi ve bakımı ile uğraşmaktadır ve yapay zeka derin öğrenme ve doğal dil işleme (NLP) konusunda belirli deneyimler edinmiştir. Boş zamanlarımda çeviri yaratmayı seviyorum. Başlıca çeviri çalışmaları arasında şunlar yer alıyor: IEC-ISO 7816, Irak Petrol Mühendisliği Projesi, Yeni Mali İşler Beyannamesi, vb. Çince-İngilizce "New Fiscalism Declaration" adlı eser resmi olarak GLOBAL TIMES'te yayınlandı. Boş zamanımı, sizinle iletişim kurmak, paylaşmak ve birlikte ilerleme kaydetmek umuduyla THU Data Pie platformundaki çeviri gönüllüleri grubuna katılmak için kullanabilirim.

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Baidu'nun sürücüsüz kiralama hizmeti ücretsizdir ve Çangşa halkı başı çeker

Ölçeklenebilir, hızlı ve verimli BERT dağıtımı elde etmek için TensorFlow Extended kullanın!