Yazar: Ajit Rajasekharan
Çeviri: Chen Zhiyan
Redaksiyon: Wang Yutong
Bu makale hakkında 8700 kelime, Önerilen Okuma 10+ dakika.
Bu makale, denetimsiz adlandırılmış varlık tanıma (NER) yöntemi sunar.
Şekil 1. Denetlenmemiş BERT (bert-büyük-kasalı) denetimsiz NER etiketlemesini gösteren örnek cümleler
Yukarıdaki şekil yalnızca bu yöntemle (BERT) işaretlenmiş birkaç varlık türünü seçmiştir. 500 cümlenin etiketlenmesi, bazıları yukarıda gösterildiği gibi sentetik etiketlerle eşleşen yaklaşık 1.000 benzersiz varlık türü oluşturabilir.
BERT modeli GEN ve PROTEIN arasında ayrım yapamaz, çünkü bu varlıkların tanımlayıcıları ve maskelenmiş terimlerin tahminleri aynı kuyruk bölgesinde yer alır (bu nedenle temel kelime dağarcığındaki kelimelerden ayırt edilemezler). Bu yakından ilişkili varlıkları ayırt etmek, belirli bir alanın külliyatında MLM ince ayarını veya sıfırdan özel kelime dağarcığını kullanarak ön eğitim gerektirebilir (aşağıda daha ayrıntılı açıklanmıştır).
TL; DR
Doğal dil işlemede, kişiler, yerler, kuruluşlar vb. Gibi cümlelerde ilgilenilen varlıkları (NER) tanımlamak için cümleleri işaretlememiz gerekir. Bunların arasında, her bir cümleyi manuel olarak işaretleyebilir veya her cümleyi bazı otomatik yöntemlerle işaretleyebiliriz (genellikle gürültülü / zayıf etiketlenmiş bir veri kümesi oluşturmak için sezgisel yöntemler kullanarak). Ardından, denetimli bir öğrenme görevi olarak görülebilecek olan varlıkları tanımak için modeli eğitmek için bu etiketli cümleleri kullanın.
Bu makalede, denetimsiz bir NER yöntemi anlatılmaktadır. NER, cümleleri etiketlemeden BERT modelini kullanarak denetimsiz olarak yapılır ve BERT modeli, maskelenmiş kelime modeli hedefinin külliyatı üzerinde yalnızca denetimsiz eğitimdir.
Model, 25 varlık türünden oluşan küçük bir veri setinde (Wikitext corpus)% 97'lik bir F1 puanına ve CoNLL-2003 külliyatındaki kişiler ve konumlar için% 86 F1 puanına sahiptir. CoNLL-2003 külliyatının insanları, yeri ve organizasyonu için, F1 puanı düşüktür, sadece% 76, bu da esas olarak cümlelerde varlıkların belirsizliğinden kaynaklanmaktadır (aşağıdaki değerlendirme bölümünde açıklanmıştır). Bu iki testi tamamlarken test edilen veriler üzerinde modelin ön eğitimi / ince ayarı yapılmadı (bu, belirli alan verileri üzerinde modelin önceden eğitilmesi / ince ayarının yapılması veya denetimli eğitimde etiketli verilerin kullanılmasıyla keskin bir tezat oluşturuyor. ).
Bir terimin varlık tipinin (terim, bir terim, bir makaledeki kelime ve cümleleri ifade eder) ne olduğunu sormak isterseniz, bu terimi daha önce hiç görmemiş olsak bile, terimin telaffuzundan veya cümle yapısından yine de tahmin edebiliriz. ,hangisi:
Bu, uydurma bir şehir adıdır, ancak "gömmek" son ekinden, bunun bir yer olabileceği tahmin edilebilir. Herhangi bir bağlam olmasa bile, terimin son eki varlık türüne ilişkin ipuçları verir.
Buradaki cümlenin bağlamı, varlık türüne ilişkin ipuçları verir ve bilinmeyen terim bir konumdur. Daha önce hiç görmemiş olsanız bile, cümledeki boş alanın bir konum olduğunu tahmin edebilirsiniz (Nonenbury gibi).
BERT'in MLM ön ucu (Masked Language Model head) (MLM-Figure 7), yukarıda bahsedilen korumalı aday kelimeleri tahmin edebilir. Daha önce de belirtildiği gibi: eğitim amacı, cümlelerde boş kelimeleri tahmin ederek öğrenmektir. Daha sonra çıkarım sürecinde, bu öğrenmenin çıktısı maskelenmiş terimi tahmin etmek için kullanılır Tahmin, BERT sabit kelime dağarcığının olasılık dağılımına dayanır. Bu çıktı dağılımı, terimin içeriğe duyarlı varlık türü için aday sözcükleri içeren önemli ölçüde kısa bir kuyruğa sahiptir (toplamın yaklaşık% 0.1'inden daha azı) Bu kısa kuyruk, BERT sözlüğünde ifade edilen bağlama duyarlı terimin tanımlayıcısıdır. Örneğin, cümledeki korumalı konumun bağlama duyarlı tanımlaması aşağıdaki gibidir:
Nonenbury, _____.
Bağlam duyarlılığı tahmini: köy (köy, köy), küçük kasaba (mezra, Hamlet), yerleşim, bucak köyü, çiftlik, kasaba (kasaba, kasaba).
BERT sabit kelime hazinesi (bert-büyük-cased 28996 kelimedir) bir dizi genel tanımlayıcıdır (uygun isimler, yaygın isimler, zamirler vb.). Bu tanımlayıcı kümenin bir alt kümesi (olası örtüşme ile), cümle bağlamı terimlerinden bağımsız bir varlık türü ile karakterize edilen aşağıdaki kümeleme işlemiyle elde edilir. Bu alt kümeler, bağlamdan bağımsız terim tanımlayıcılardır. BERT sözlüğünde bağlama duyarlı tanımlayıcılara yakın varlık türleri elde etme süreci aşağıdaki gibidir:
En yakın eşleştirme işlevi (kelime yerleştirmelerinin kosinüs benzerliğine dayalı olarak), BERT sözlüğünün gömme alanına uygulanır.Eşleştirme işlevi, bağlama duyarlı tanımlayıcı / küme ile bağlamdan bağımsız tanımlayıcı / küme arasındaki terimi temsil eden bir NER etiket dili oluşturur Bağlamdan bağımsız kimlik alt kümesi.
Spesifik olarak, {B1, B2, C3, ... Bm} terimlerinin m grubu, içeriğe duyarlı tanımlayıcılardan oluşan bir set ve n terim grupları {C11, C12, C13, ... Ck1}, {C21, C22, C23, ... Ck2} , {Cn1, Cn, Cn, Ckn}, bağlamdan bağımsız bir tanımlayıcı oluşturur ve NER etiketlerine sahip bağlamdan bağımsız tanımlayıcıların bir alt kümesini oluşturur (aşağıdaki Şekil 2'ye bakın).
Şekil 2. Cümlelerin NER etiketlemesi
Ardından, bu kümelerin etiketleri (tek seferlik manuel etiketleme olabilir veya bazı kullanım durumlarında kullanılabilir) toplanır ve NER etiketleri çıkarılır. Şekil 3, 4 ve 5'te yürütülen işlevlerin tümü, BERT gömme uzayındaki sözcük vektörleri arasındaki kosinüs benzerliğini kullanır ve BERT sözcük gömme uzayının kosinüs benzerliği hesaplanarak bir seferde yaklaşık 6000 küme çevrimdışı oluşturulur. . Şekilde BERT temel modelinin ima edilen boyutu 768'dir. Makaledeki BERT büyük kasalı örneğinin örtük boyutu 1024'tür.
Bağlamdan bağımsız tanımlayıcıların sayısı göz önüne alındığında, binlerce tanımlayıcı BERT sözlüğünden otomatik olarak elde edilebilir (bert-büyük-cased 6000'dir). Bu yöntem kullanılarak, çok sayıda varlık türünün denetimsiz olarak tanımlanması, verileri etiketlemeye gerek kalmadan ayrıntılı bir düzeyde elde edilebilir.
Yukarıdaki denetimsiz NER yöntemi yaygın olarak kullanılmaktadır:
1. Bir defalık çevrimdışı işleme
Tek seferlik çevrimdışı işleme, BERT sözlüğünden elde edilen bağlamdan bağımsız tanımlama kümesi için bir eşleme oluşturur ve bunu tek bir tanımlayıcı / etiketle eşler.
Adım 1: BERT sözlüğünden bağlama duyarlı tanımlayıcı terimleri seçin
BERT kelime dağarcığı, yaygın isimler, özel isimler, alt kelimeler ve sembollerin bir karışımıdır.Bu set için minimum filtre noktalama işaretlerini, tek karakterleri ve BERT'nin özel işaretlerini kaldırmaktır. Ardından, varlık türünü tanımlayan bir tanımlayıcı olarak 21418 terim-ortak isimler ve özel isimlerden oluşan bir set oluşturun.
2. Adım: BERT sözlüğünden bağlamdan bağımsız bir logo oluşturun
BERT sözlüğündeki her terim için kuyruğundan bağlamdan bağımsız bir tanımlayıcı oluşturursanız, daha yüksek bir kosinüs benzerlik eşiği seçseniz bile (bert-büyük-kasalı model için, terimlerin yaklaşık% 1'i ortalama kosinüstedir Eşik 0.5 kuyruğu aşarsa), oldukça büyük sayıda küme (yaklaşık 20.000) da elde edilecektir. Bu kadar çok sayıda kümede bile, bu işaretler arasındaki benzerlikler yakalanamaz. Yani yapmalıyız:
Şekil 3. Tam grafikte pivot düğümünü bulun
Yukarıdaki tam grafikte, "sorunsuz" düğüm, komşularıyla en yüksek ortalama bağlantı gücüne sahiptir. Bu nedenle, "sorunsuz" bu grafiğin ana düğümüdür - bu grafikteki diğer tüm düğümlere en yakın komşudur.
Yukarıdaki örnek tanımlamada, iki değer, alt grafikteki kenarların ortalama ve standart sapmasıdır ve birinci sütundaki terimler, tanımlamanın pivot terimleri olarak adlandırılır. Bu terimler, varlık etiketi aracıları olarak işlev görür ve kullanıcı tanımlı etiketler haline gelmek için manuel olarak eşlenebilir (tek seferlik işlem).
Şekil 4a ve 4b, bu varlık kümelerini eşleme örneklerini gösterir.Sadece özel uygulamamızla ilgili varlık türlerini temsil eden koleksiyonlar eşlenir. Kalan koleksiyonlar otomatik olarak kompozit "Diğer / çeşitli" etiketiyle eşleştirilebilir. Şeklin referans kısmı, tanımlayıcıya rehberlik etmek / hızlandırmak için modelin kendisini kullanarak ve böylece onu kullanıcı tanımlı bir etikete manuel olarak eşleştiren bir yöntemi açıklar.
BERT kelime dağarcığının yaklaşık% 30'u uygun isimler olduğundan (kişi isimleri, konumlar, vb.), Biz de sadece küçük bir terim grubunu işaretleriz (Şekil 4 ve 4b'de gösterildiği gibi: 2000 kümeyi manuel olarak işaretlemek yaklaşık 5 adam-saat sürer) ) Çok sayıda cümleyi işaretlemeden, bu biraz hile yapmaya benziyor. Cümleleri etiketleme problemini, etiketleme bağlamının hassas olmayan tanımlayıcılarına dönüştürmenin temel avantajı, bunun tek seferlik bir süreç olmasıdır.
Denetimli eğitim yöntemiyle karşılaştırıldığında, bu kaçınılmaz olarak yalnızca modeli eğitmek için değil, aynı zamanda eğitimden sonra (genellikle dağıtımda) oluşturulan cümleleri yeniden eğitmek için daha etiketli veriler oluşturur. Bununla birlikte, bu örnekte, en kötü durum senaryosu, BERT modelinin, herhangi bir ek işaret olmaksızın bu yeni cümleleri denetimsiz eğitime yeniden eğitilmesi / ince ayarının yapılması gerektiğidir.
Yukarıda bahsedilen bağlama duyarsız tanımlama, ortalama tabanı yaklaşık 4/7 düğüm olan yaklaşık 6000 küme üretecektir. Bu 6000 kümenin ortalama küme gücü 0,59'dur ve sapma 0,007'dir - bu kümeler oldukça sıkı kümelerdir ve küme ortalaması dağılımdan elde edilen eşikten çok daha yüksektir (Şekil 4c). Yaklaşık 5000 terim (kelime dağarcığının% 17'si) tekil kümelerdir ve göz ardı edilecektir. Eşiği değiştirirseniz, bu sayılar da değişecektir. Örneğin, eşik 0,4 olarak seçilirse, toplam kuyruk kütlesi% 0,2'ye yükselecek ve buna göre küme ortalaması artacaktır (ancak varlık türleri birbirine karıştırılırsa, kümeler gürültülü hale gelmeye başlayacaktır).
Şekil 4. BERT (bert-büyük-kasalı) bağlamdan bağımsız tanımlama seti veri kümesi
Ortalama baz yaklaşık 4'tür ve standart sapma 7'dir. Bu 6110 veri setinin küme kuvvetinin ortalama değeri 0,59 ve sapma 0,007'dir - ortalama değer dağılımdan seçilen eşikten çok daha yüksek olduğu için bu kümeler çok sıkı kümelerdir. Bağlama duyarlı terimlerin genellikle nispeten zayıf kümeler olduğu ve BERT kelime dağarcığının yaklaşık% 17'sinin tekil kümeler olduğu görülebilir. Alt kelimeler, özel etiketler ve tek karakterli etiketlerin çoğu küme olarak kabul edilmeyecektir.
Şekil 4a. BERT (bert-büyük-cased) kelime kümesinin varlık dağılımı
Çoğu varlık, insanlar, yerler ve organizasyonlardır (ORG). AMB, kümelerde belirsiz terimlere sahip kümeleri ifade eder.Örneğin, aşağıdaki Şekil 4b'de gösterildiği gibi, insanlar ve yerler arasında belirsizliklere sahip 7 küme vardır ve diğer kümelerin insanlar, şeyler, spor / biyografi vb. Açısından belirsizlikleri vardır. Belirli bir alandaki varlık türlerini bulmak istediğinizde, özel bir kelime dağarcığı kullanmak gerekir. Bu özel türler kişiyi (KİŞİ), konumu (KONUM) ve kuruluşu (ORG) netleştirebilir.
Şekil 4b. BERT (bert-büyük-cased) sözlüğünün varlık alt sınıf dağılımı
Bunlar, Şekil 4a'daki ince taneli varlık alt türlerinin ana türleridir.
BERT sözlüğünden elde edilen bağlamdan bağımsız kümelere örnekler:
Şekil 4c. BERTin (bert-büyük-kasalı) sözlüğünden elde edilen küme örnekleri
Bağlama duyarlı olmayan kümeler bulanık kümelerdir ve AMB olarak etiketlenir. Ayrıca, alt sözcükler kümelendiğinde alt sözcük kümelemesini de göz önünde bulundurun (bu makaledeki varlık tanıma sonuçları benzer sonuçları filtrelemiş olsa da).
2. Her girdi cümlesi için varlığı tahmin edin
Giriş cümlesi için terimleri işaretlemek için aşağıdaki adımları uygulayın.
3. Adım: Giriş cümlelerinin ön işlemesini en aza indirin
Bir girdi cümlesi varlığını etiketlemeden önce, girdi üzerinde az miktarda ön işlem yapılması gerekir. Bunlardan biri büyük harf kullanımının standartlaştırılmasıdır - tüm büyük cümleler (genellikle belge başlıkları) küçük harfe dönüştürülür ve her kelimenin ilk harfi orijinal kalır. Bu, sonraki adımda ifade aralığının doğruluğunu artırmaya yardımcı olur.
New York'tan SFO'ya uçtudönüşmek:
New York'tan Sfo'ya uçtu4. Adım: Cümledeki kelime öbeği aralığını belirleyin
Girdi cümlesini işaretlemek için bir POS etiketi kullanın (ideal olarak, eğitim tüm küçük harfli kelimeleri ve cümleleri de işler) Bu etiketler, cümleleri tanımlamak ve isimlerin ilk harfini büyük harfe dönüştürmek için kullanılır.
New York'tan Sfo'ya uçtuYukarıda isim olarak işaretlenen terimler kalın yazılmıştır. BERT'in maskelenmiş kelime tahmini büyük harfe çok duyarlıdır, bu nedenle, etiketleme performansının anahtarı yalnızca küçük harf olsa bile, isimleri güvenilir bir şekilde etiketlemek için bir POS etiketi kullanılmalıdır. Örneğin, aşağıdaki cümlelerin kalkan kelimelerini tahmin etmek için, cümledeki bir harfin büyük harf kullanımını değiştirerek varlık anlamını değiştirebilirsiniz.
Elon Musk bir ____CS Tahminleri: politikacı müzisyen yazar oğul öğrenci işadamı biyolog avukat ressam üyeCS tahmini: Politikacı, müzisyen, yazar, oğul, öğrenci, işadamı, biyolog, avukat, ressam, üye.
Elon misk bir ____ (not: misk, misk anlamına gelir) CS Tahminler: marka Japon birası Alman ortak Türk popüler Fransızca Rusça BrezilyaCS tahmini: Marka, Japonca, Bira, Almanca, Genel, Türkiye, Popüler, Fransa, Rusya, Brezilya.
Ek olarak, BERT'in kalkan kelime tahmini, varlık türünü (yukarıdaki ilk örnekteki kişi) yalnızca güvenilir bir şekilde tespit edebilir ve BERT bazen gerçeklerin doğru tahminlerini yapabilse de gerçekleri doğru bir şekilde tahmin edemez.
5. Adım: Engellenen her kelimenin konumunu tahmin etmek için BERTin MLM başlığını kullanın
Cümledeki her isim terimi için, terimin koruyucu kelimesi ile bir cümle oluşturun. Korumalı kelime konumlarının içeriğe duyarlı tanımlamasını tahmin etmek için BERT'in MLM başlığını kullanın.
__'Den SfoCS Tahminlerine uçtu: Roma orada Atina Paris Londra İtalya Kahire burada Napoli MısırCS tahmini: Roma, Atina, Paris, Londra, İtalya, Kahire, Napoli, Mısır
New York'tan ___CS'ye uçtu Tahminler: Londra Paris Singapur Moskova Japonya Tokyo Chicago Boston Fransa HoustonCS tahmini: Londra, Paris, Singapur, Moskova, Japonya, Tokyo, Chicago, Boston, Fransa, Houston
Şekil 2'deki ana düğümü bulma yöntemine benzer şekilde, kümedeki her düğüm ile diğer düğümler arasındaki gücü bulun. Ardından yoğunluğa göre sıralayın ve kelime gömme alanında yeniden sıralanmış CS tahmin listesini alın. Yeniden sıralama işleminden sonra, benzer varlık anlamlarına sahip terimler bir araya getirilir.Ayrıca, gömülü boşlukta bağlamla ilgisi olmayan sözcüklerin yeniden sıralanması gerekir.
Örneğin, aşağıdaki ilk örnekte, yeniden sıralamanın ardından, "orada" ve "burada" terimleri (boş pozisyonlar için etkili bağlama duyarlı tahminler) sona itilir. Bir sonraki adımda, bu yeniden sıralanan düğümlerin ilk k (k1) düğümleri seçilecektir.
__'Den SfoCS Tahminlerine uçtu: Roma orada Atina Paris Londra İtalya Kahire burada Napoli MısırCS tahmini: Roma, Atina, Paris, Londra, İtalya, Kahire, Napoli, burada, Mısır
CS tahminlerinin CI uzay sıralaması: Roma Paris Atina Napoli İtalya Kahire Mısır Londra burada buradaCS tahmininin CI uzamsal sıralaması: Roma, Paris, Atina, Napoli, İtalya, Kahire, Mısır, Londra, orada, burada
New York'tan __CS Tahminlerine uçtu: Londra Paris Singapur Moskova Japonya Tokyo Chicago Boston Fransa HoustonCS tahmini: Londra, Paris, Singapur, Moskova, Japonya, Tokyo, Chicago, Boston, Fransa, Houston
CS tahminlerinin CI uzay sıralaması: Paris Londra Tokyo Chicago Moskova Japonya Boston Fransa Houston SingapurCS tahmininin CI uzamsal sıralaması: Paris, Londra, Tokyo, Chicago, Moskova, Japonya, Boston, Fransa, Houston, Singapur
6. Adım: Bağlama duyarlı etiketler ile bağlamdan bağımsız etiketler arasında yakın bir eşleşme bulun
Basit bir yakın eşleştirme işlevi makul sonuçlar üretebilir.Önceki terimden içeriğe duyarlı bir pivot düğümü seçer ve onu bağlamdan bağımsız tanımlama setinde 6000 pivotun tamamına sahip bir iç çarpım haline getirir. Aday varlık etiketlerini elde etmek için bunları sıralayın. Bu noktada, özünde, yakın eşleme işlevi, bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme özetini bulmanın anahtarıdır. Etiket / tahminin güvenilirliğini artırmak için (Şekil 5), üst pivot yerine üst k pivotları seçiyoruz.
Şekil 5. Kelime gömme alanında bağlama duyarlı tanımlayıcılar ve bağlamdan bağımsız tanımlayıcılar arasındaki yakın eşleşme
Yakın eşleşmeyi sağlamanın en etkili ve basit yolu, içeriğe duyarlı tanımlamanın ana öğe düğümü ile bağlamdan bağımsız tanımlamadaki temel öğeler kümesi arasındaki nokta çarpımıdır. Şu anda, yakın eşleştirme işlevi esasen bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme pivotunu bulmaktır.
Başka bir daha iyi uygulama, bağlam duyarlı tanımlayıcıdaki düğümün ortalamasına ve standart sapmasına göre ana düğümü seçip seçmemeye karar vermek ve ardından her bir dil ile ilişkiyi bulmak için iki taraflı grafikte dikkate alınacak ana öğelerin sayısını seçmektir. Bağlama duyarlı küme pivotuna en yakın olan bağlama duyarlı olmayan küme özeti.
Şekil b'de gösterilen durum şudur: bağlama duyarlı kelime sayısı 3 olduğunda ve yalnızca bir bağlamdan bağımsız terim düğümü olduğunda (ikisi arasındaki ilişkiyi kesmek için burada tek bir sayı seçmek daha iyi olabilir; ayrıca buna gerek yoktur Bağlama duyarsız kümeden üç düğüm seçin, çünkü daha önce belirtildiği gibi sıkı bir şekilde kümelenmişlerdir, ortalama sapma .007'dir).
Bağlama duyarlı tanımlamadaki tüm düğümlerin hesaplamada iyi sonuçlar vermesi olası değildir, çünkü bağlama duyarlı düğümlerin ortalama standart sapması çok daha yüksektir. Çünkü gömülü alandaki bağlama duyarlı işaretleri değerlendirirken, tek bir varlık türünü yakalarken bile daha geniş bir alana genişleyecektir.
Bağlama duyarlı logodaki üst pivotun etiket tahmini aşağıda gösterilmektedir. Etiketler ve kullanıcı etiketleri aşağıdaki gibidir:
CS tahminleri için __'den SfoCI uzay siparişine uçtu: Roma Paris Atina Napoli İtalya Kahire Mısır Londra buradaCS tahmininin CI uzamsal sıralaması: Roma, Paris, Atina, Napoli, İtalya, Kahire, Mısır, Londra, burada, orada
Etiketler: İtalya Venedik Atina Bologna Madrid Kartaca Roma Sicilya Turin Vatikanişaret: İtalya, Venedik, Atina, Bologna, Madrid, Kartaca, Roma, Sicilya, Torino, Vatikan
Kullanıcı Etiketi-konum konum konum konum konum konum konum konum konumKullanıcı etiketi- Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum
New York'tan CS tahminlerinin __CI uzay siparişine uçtu: Paris Londra Tokyo Chicago Moskova Japonya Boston Fransa Houston SingapurCS tahmininin CI uzamsal sıralaması: Paris, Londra, Tokyo, Chicago, Moskova, Japonya, Boston, Fransa, Houston, Singapur
Etiketler: Londra Madrid Cenevre Viyana Bordo Chicago Metz Atina Köln İstanbulişaret: Londra, Madrid, Cenevre, Viyana, Bordeaux, Chicago, Metz, Atina, Köln, İstanbul
Kullanıcı Etiketi-konum konum konum konum konum konum konum konum konumKullanıcı etiketi- Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum Konum
Model iki veri seti üzerinde değerlendirildi:
CoNLL-2003 setinde, üç veri türünün (PER-% 81,5; LOC-% 73; ORG % 66; MISC-% 83,87) tümünün ortalama F1 puanı yalnızca% 76'dır. Bu iki nedenden kaynaklanmaktadır:
Şekil 5a. CoNLL-2003 sonuçları
Model değerlendirmesi, az miktarda test verisine dayanmaktadır, ancak tam bir doğal cümleler kümesine ve yaklaşık% 97'lik bir ortalama F1 puanıyla yaklaşık 25 etiket türüne sahiptir.
Şekil 5b. 25 varlık türü için Wiki veri sonuçları
Şekil 5c. Wiki veri kümesinin varlık dağılımı
Bu veri setinde F1 ortalama puanı% 97'dir. Bu yöntemin temel farkı, yalnızca modelin etiket verileri üzerinde eğitilmemesi değil, aynı zamanda modelin önceden eğitilmemiş olmasıdır (modeli test etmek)
1. Topluluk Yanlılığı
Tek varlıklı tahminler, modelin varlık türlerini açıklamak için alt sözcük bilgilerini kullanma yeteneğini gösterse de, pratik uygulamalarda, bunlar yalnızca birden çok varlık türüne sahip cümlelerle kullanılabilir. Çok fazla bağlam içermeyen tek bir varlık cümlesi, Google ve Facebook'un tahmini gibi, külliyat yanlılığına karşı çok hassastır:
Facebook bir __CS Tahminleri: şaka canavar katil arkadaş hikayesi kişi şirket hatası web sitesi hatasıCS tahmini: Şakalar, canavarlar, katiller, arkadaşlar, hikayeler, karakterler, şirketler, başarısızlıklar, web siteleri, arızalar
Microsoft bir __CS Tahminidir: şirket web sitesi rakip insanlar arkadaş oyuncu Kazanan kazanan kişi markasıCS tahmini: Şirketler, web siteleri, rakipler, arkadaşlar, oyuncular, kazananlar, insanlar, markalar
Google __CS Tahminleri: arkadaş web sitesi canavar şirket katil kişi adam hikayesi köpek kazananCS tahmini: Arkadaş, web sitesi, canavar, şirket, katil, karakter, adam, hikaye, köpek, kazanan
2. Varlık tahmininin belirsizliği
Bu yöntem iki belirsizlik yaratacaktır:
Bazı cümleler, farklı varlık türlerinin engellenen bir terimi doldurmasına izin verir. Örneğin, aşağıdaki cümlede New York'taki varlık türünü tahmin ederken:
New York'un bu yılki yarışmayı kazanma şansı olduğunu hissettiKorumalı kelimenin varlık tahmini, bir kişiyi ima eden bir kelime olabilir ve aşağıda gösterildiği gibi cümle de pürüzsüzdür:
__He____ 'nın bu yılki yarışmayı kazanma şansı olduğunu hissettiBelirsizlik, engellenen sözcüklerden kaynaklanır ve çoğu vaka, engellenen terimin kendisi olan New York'un varlık türü belirlenerek çözülebilir.
New York _____CS Tahminler: şehir kasaba yeri Şehir başkenti gerçeklik kare ülke rüya yıldızıCS tahmini: Şehir, kasaba, kasaba, başkent, gerçeklik, kare, ülke, rüya, yıldız
Bununla birlikte, bazı durumlarda, maskelenmiş terimler bile belirsizdir ve varlıkların tanımlanmasını zorlaştırır. Örneğin, orijinal cümle:
Dolphins'in bu yılki yarışmayı kazanma şansı olduğunu hissetti.Yunuslar bir müzik grubu veya bir spor takımı olabilir.
Bu zorluklar aşağıdaki yöntemlerle iyileştirilebilir:
CS tahmini: İngilizce, Almanca, yeni standart, varyant adı, sürüm, dünya
Biyomedikal korpus modelinde ince ayar yaptıktan sonra:
BRAF bir _____CS Tahminidir: protein gen kinaz yapısal aile dışı reaksiyon fonksiyonel reseptör molekülüCS Tahmini: protein genleri, kinaz yapısı, aile dışı reaksiyonlar, fonksiyonlar, reseptörler, moleküller
BERT'nin varsayılan kelime dağarcığı çok zengin olmasına rağmen, kişiler, konumlar, kuruluşlar vb. Varlık türlerini tespit etmek için eksiksiz kelimeler ve alt kelimelerle birlikte (Şekil 4a ve b), biyomedikal alandaki terimlerin tamamını veya bir kısmını yakalayamaz. Örneğin, imatinib, nilotinib ve dasatinib gibi ilaçların etiketlenmesi, "tinib" ortak alt kelimesini dikkate almayacaktır. Imatinib i ## mat ## ini # b olarak işaretlenir ve dasatinib i ## ni ## b'de das ## olarak işaretlenir. Özel bir kelime haznesi oluşturmak için biyomedikal korpustaki cümle kalıplarını kullanırsanız, im ## a ## tinib ve d ## as ## a ## tinib ve ardından yaygın olarak kullanılan son ekleri alırsınız.
Ek olarak, özel kelime haznesi, biyomedikal alanın doğuştan, kanser, kanserojen, kardiyolog ve diğer tıbbi alan profesyonel kelimeleri gibi özelliklerini daha iyi yakalayabilen, biyomedikal alanından eksiksiz kelimeler içerir, bunlar varsayılan BERT'de önceden eğitilmiştir. Modelde mevcut değil. Varsayılan BERT kelime dağarcığındaki kişilerin ve konum bilgilerinin yakalanması, biyomedikal korpustaki ilaçlar ve hastalık koşulları gibi uygun isimlerin ve alt kelimelerin yakalanmasıyla değiştirilecektir.
Ek olarak, biyomedikal korpustan çıkarılan özel kelime dağarcığı, yeni tam kelimelerin yaklaşık% 45'ini içerir ve tüm kelimelerin yalnızca% 25'i halka açık BERT eğitim öncesi modeliyle örtüşür. 100 özel kelime dağarcığı eklemek için BERT modeline ince ayar yaptığınızda, size bir seçenek sunulacaktır, ancak çok fazla yoktur ve daha önce de belirtildiği gibi, kişiler, konumlar, kuruluşlar vb. Gibi varlık türleri için varsayılan BERT sözlüğü üretilecektir. Şekil 4a'da gösterildiği gibi ciddi belirsizlik.
Token: imatinib dasatinibBERT (varsayılan): i ## mat ## ni ## b das ## ati ## nibCustom: im ## a ## tinib d ## as ## a ## tinibNER, giriş cümlesinden cümledeki terimlere karşılık gelen bir dizi etikete kadar bir eşleme görevidir. Geleneksel yöntemler, modeli eğiterek / ince ayar yaparak ve etiketli verilerin denetimli görevini kullanarak bu eşleştirmeyi gerçekleştirir. BERT gibi eğitim öncesi modellerden farklı olarak, bu model topluluk üzerinde denetimsiz öğrenme gerçekleştirir.
Bu makalede, önceden eğitilmiş / ince ayarlı BERT modelini değiştirmeden maskelenmiş dil hedeflerinde denetimsiz NER gerçekleştirme yöntemi açıklanmaktadır. Bu, öğrenmenin dağıtılmış gösterimi (vektör) üzerinde uçtan uca işlemler yoluyla elde edilir Vektör işlemenin son aşaması, NER etiketlerini belirlemek için geleneksel algoritmaları (kümeleme ve en yakın komşu) kullanır. Ek olarak, üst düzey vektörün çoğu durumda aşağı akış görevleri için kullanıldığı durumun aksine, maskelenmiş cümlenin çıktısı yalnızca BERT tarafından çekirdek sembol bilgisi olarak kullanılır ve cümlenin NER etiketini elde etmek için kelime gömme kendi en alt katmanına uygulanır.
Şekil 6. Bu makalede açıklanan geleneksel denetimli NER (soldaki resim) ve denetimsiz NER'in karşılaştırması (sağdaki resim)
Geleneksel denetimli NER, modelin eğitilmesi / ince ayarının yapılmasıyla gerçekleştirilen denetimli bir etiket eşleme görevidir (soldaki görüntü). Aksine, denetimsiz NER, denetimsiz maskelenmiş kelime modeli hedeflerini eğitmek için bir ön eğitim / ince ayar modeli kullanır ve cümle bilgisi elde etmek için BERT model-kelime yerleştirmelerinin alt katmanında algoritmik işlemler gerçekleştirmek için tohum bilgisi olarak modelin çıktısını kullanır. NER etiketi.
Kısacası, NER gerçekleştirmek için gerekli tüm bilgiler geleneksel anlamda denetimli bir öğrenme görevidir, aynı zamanda denetimsiz BERT modelinde de mevcuttur ve alt katmanın anahtar kısmı gömme kelimesidir.
2018'de yayınlanan bu makale (https://homes.cs.washington.edu/~eunsol/open_entity.html), varlık tanıma için uzaktan denetim kullanır. İnce taneli etiketler, kitle kaynaklı eğitim modelleridir.
Bu makale (https://www.aclweb.org/anthology/N19-1084.pdf), 10.000'den fazla varlık türü için ayrıntılı varlık girişi gerçekleştirmek üzere denetlenen çok etiketli bir sınıflandırma modeli kullanır.
Adlandırılmış varlık tanıma her zaman geniş çapta araştırılan bir sorun olmuştur. Şimdiye kadar arXiv ile ilgili yaklaşık 400 makale var ve Google Akademik 2016'dan bu yana yaklaşık 62.000 arama sonucuna sahip.
BERT'nin orijinal yerleştirmesini kontrol edin:
https://towardsdatascience.com/examining-berts-raw-embeddings-fd905cb22df7
1. Berts MLM baş-kısa incelemesi
BERT MLM kafası, aslında BERT'nin üstündeki tek bir dönüştürme katmanıdır. Aşağıdaki şekil, 9x768'lik bir matris olan (BERT temel modelinin boyutu 768'dir) BERT tarafından 9 işaretli bir cümle çıktısını göstermektedir (belirteçlemeden sonra). Daha sonra MLM başlığının yoğun katmanına geçirilir ve cümle içindeki hangi pozisyonun 28996 kelime vektörü ile en yüksek benzerliğe sahip olduğunu bulmak için 9x768 çıktısında 28996 kelime vektörünün hepsinde bir nokta çarpımı gerçekleştirilir. Bu pozisyonda bloke edilen kelime için tahmin edilen bir etiket oluşturulur. Eğitim / ince ayar modunda, maskelenmiş sözcüğün tahmin hatası modele geri yayılır ve gömülü sözcüğe (kod çözücü ağırlığı ve gömme katmanı ağırlığı bağlama / denkliği) yayılır. Çıkarım modunda, yerleştirme, biçimlendirme metnini ve çıktı günlüğünü üstbilginin en üst düzeyinde temsil etmek için kullanılır.
Şekil 7. BERTin MLM kafası - 9 karakterli bir girişi ve modelin içinden akan MLM başlığını gösterir
Kod çözücü, gömme katmanındaki aynı vektörü kullanır (ağırlıklar kodda bağlıdır - ancak ayrı ayrı pytorch.bin dosyasında bulunur).
2. Yöntem performansı
Aşağıdaki cümle için:
BERT kullanan tipik bir denetim yönteminde, tüm cümleyi ince ayarlanmış bir BERT modeline tamamen girerek, aşağıda gösterildiği gibi NER çıktı etiketlerini (B_PER, I_PER, O ...) elde edebiliriz.
Bu makalede açıklanan denetimsiz NER yöntemi, John Doe, New York, RioDe Janiro ve Miami olmak üzere dört varlığı belirlemek için yukarıdaki cümlenin bir MLM'nin başına dört kez geçirilmesini gerektirir (yukarıda açıklandığı gibi, bu dört varlığın pozisyonları Bir POS etiketi ve bir yığınlayıcı tarafından tanınır).
Spesifik olarak, cümlenin aşağıdaki 4 işaretli versiyonu MLM modeline aktarılacaktır:
Her korumalı sözcük konumunun içeriğe duyarlı özelliklerini alın ve ardından aşağıda gösterildiği gibi her konum için varlık tahminleri oluşturmak için bunları içeriğe duyarlı olmayan özelliklerle eşleştirin.
Prensipte giriş cümlesindeki her bir tanımlayıcının MLM bağlamına duyarlı tanımlayıcısını bir seferde almak mümkün olsa da, aslında maskeli kelimeli cümle, varlık türünü belirlemek için MLM modeline ayrı olarak gönderilmelidir, çünkü cümlenin kullanılıp kullanılamayacağı net değildir. Ya da alt kelimelerin içeriğe duyarlı tahmini, tahminler yapmak için birleştirilir (orijinal cümlenin yalnızca bir kelime varlığı varsa ve bu kelimelerin etiketli versiyonu BERT sözlüğünde de mevcutsa, hassas tanımlama tek geçişte çıkarılabilir).
Örneğin: New York gibi sözcük grupları ve Imatinib - I ## mat ## ini ## b gibi alt sözcüklerin tümü BERT sözlüğünde görünür. Bir alt kelime birden fazla varsayılan anlam içeriyorsa, sorun karmaşık hale gelir: Örneğin: Imatinib-I ## mat ## ini ## b'de I, yüksek varyanslı içeriğe duyarlı bir tanımlayıcı üretir. Yeni bir güvenilir tek etiket oluşturmak için alt kelimeler üzerinde ışın araması gerçekleştirmek mümkündür, ancak bu temel kelime dağarcığının bir parçası olmayabilir ve bu da bağlama duyarlı etiketlerde daha büyük sapmalara neden olabilir. SpanBERT'i tahmin aralığını artırma seçeneği olarak düşünebilirsiniz, ancak yalnızca maskelenmiş tümceciklerin her bir etiketini tahmin eder ve maskelenmiş tümcecik için bir tahmin vermez.
Birden çok korumalı sözcük içeren cümleleri tahmin etmek, cümlenin tüm korumalı sürümlerini paralel olarak tahmin ederek çözülebilir. Yukarıdaki örnekte, engellenen terimler cümledeki toplam terim sayısının% 50'sini oluşturur, ancak gerçek projelerde genellikle bu ortalamanın altındadır. ___ (Nonenbury___)MLM
3.
4.
BERT64771399 592872
Orjinal başlık:
Unsupervised NER using BERT
Orijinal bağlantı:
https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a
Editör: Huang Jiyan
Redaksiyon: Lin Yilin
Çevirmen Profili
Chen Zhiyan, Pekin Jiaotong Üniversitesi'nden iletişim ve kontrol mühendisliği alanında yüksek lisans derecesi ile mezun olmuştur. Great Wall Computer Software and System Company'de mühendis ve Datang Microelectronics'te mühendis olarak hizmet vermiştir. Şu anda Beijing Wuyichaoqun Technology Co., Ltd.'nin teknik destekçisidir. Şu anda akıllı çeviri öğretim sistemlerinin işletimi ve bakımı ile uğraşmaktadır ve yapay zeka derin öğrenme ve doğal dil işleme (NLP) konusunda belirli deneyimler edinmiştir. Boş zamanlarımda çeviri yaratmayı seviyorum. Başlıca çeviri çalışmaları arasında şunlar yer alıyor: IEC-ISO 7816, Irak Petrol Mühendisliği Projesi, Yeni Mali İşler Beyannamesi, vb. Çince-İngilizce "New Fiscalism Declaration" adlı eser resmi olarak GLOBAL TIMES'te yayınlandı. Boş zamanımı, sizinle iletişim kurmak, paylaşmak ve birlikte ilerleme kaydetmek umuduyla THU Data Pie platformundaki çeviri gönüllüleri grubuna katılmak için kullanabilirim.
-Bitiş-
Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.