58 aramada Çince kelime segmentasyon teknolojisi ve uygulaması

Metin ve dil, bilginin kaydedilmesi ve yayılması için önemli taşıyıcılardır ve bunun etkili bir şekilde anlaşılması her zaman insanların endişesi olmuştur. Modern elektronik bilgisayarların ortaya çıkışından bu yana, bilgisayarlar pek çok konuda insanlardan daha iyi performans göstermiştir.Bilgisayarlar ve dil işleme arasındaki karşılaşma, Doğal Dil Süreci (NLP) teknolojisinin ortaya çıkmasıyla sonuçlanmıştır. NLP'nin popüler anlayışı, metni analiz etmek ve işlemek için bilgisayarları kullanmaktır.

Çince dil işleme, Çince için bir dil işleme teknolojisidir. Temel teknolojisi genel olarak şu seviyeleri içerir: sözcüksel analiz (kelime bölümleme, konuşma parçası etiketleme, varlık tanıma), sözdizimsel analiz, anlambilimsel analiz ve pragmatik analiz. Çince kelime segmentasyonu en temel ve en çok kullanılan analiz teknolojisidir.Çince kelime segmentasyonu bilgi alma, metin sınıflandırması, makine çevirisi, soru cevaplama sistemleri, otomatik özetleme vb. Alanlarda kullanılır. Kelime segmentasyonunun Çince dil işleme teknolojisinin temeli olduğu söylenebilir.

Neden Çince kelime segmentasyonu

Genel olarak, bir kelimenin bağımsız hareket edebilen en küçük anlamlı dil bileşeni olduğuna inanılır (tek bir karakter, tek karakterli bir kelime ise anlamsızdır). Çince, İngilizce'den farklıdır.İngilizce, küçük bir karakter setinde yer alan bir kelime dizisidir.Metinde kelimeler arasında doğal ayırıcılar (boşluklar) vardır. Çince, büyük bir karakter kümesindeki bir karakter dizesidir ve kelimeler arasında belirgin bir ayırıcı yoktur. Çince kelime segmentasyonu, sürekli Çince metni bir dizi bağımsız ve anlamlı temel kelimeye bölme işlemidir. Aşağıda, Çince kelime segmentasyonunun önemini göstermek için arama senaryosunu örnek olarak alıyoruz.Diğer senaryolarda da benzer hususlar olmalıdır.

Arama motorlarında kullanılan önemli bir yapının, bir indeks anahtarı ve bu anahtarı içeren tüm belgelerin kimlik bilgilerinden oluşan ters çevrilmiş bir zincirden oluşan tersine çevrilmiş bir indeks olduğunu biliyoruz. Arama süreci, ters çevrilmiş zincir üzerinde Boole işlemleri yapma sürecidir (genellikle bir kesişim işlemi). Çince kelime segmentasyonu yoksa, ters çevrilmiş bir satır oluşturmak için genellikle indeks anahtarı olarak yalnızca tek bir karakter kullanılabilir. Bir belgenin başlığı "Tianhebei Bir Ev Kiralamak" ve "Tian", "O", "Kuzey", "Kira" ve "Ev" ayrı ayrı indekslenmişse, belge kimliği bu 5 anahtarın ters çevrilmiş zincirinde görünecektir. içinde. Bu yaklaşımla ilgili ilk sorun, arama doğruluğunun iyi olmaması ve ilgisiz belgelerin geri çağrılabilmesidir.Örneğin, "Hebei Bir Ev Kiralamak" ararsanız, belge de geri çağrılacaktır. Daha ciddi bir sorun da hesaplamalardaki artış. Örneğin, mevcut 58 ana web sitesi 1 milyar düzeyindeki belgeleri arar. Belge başlığı 10 sözcük uzunluğundaysa (metin, metin, kategori vb. Dikkate alındığında metin daha uzun olacaktır) ve yaygın olarak kullanılan Çince karakterler 3000 ise, o zaman her bir dizin anahtarı ters çevrilir Ortalama zincir uzunluğu 3 milyondan fazladır. Her bir sorgunun uzunluğu 4 ise, bir sorgunun hesaplama miktarı aynı anda 4300w + ters çevrilmiş zincirdir. Günde milyarlarca sorgu karşısında, bu indeksleme yöntemi bir felaket gibi görünüyor. Arama doğruluğu ve arama verimliliği sorununu çözmek için doğru kelime segmentasyonu gereklidir.

Çince kelime segmentasyonundaki temel problemler

Belirli yöntemleri tanıtmadan önce, Çince kelime bölümlemesinin karşılaştığı birkaç temel sorunu anlayalım. Tanımdan, Çince kelime segmentasyonunun aslında kelimenin sınırını belirlediği, yani sürekli metindeki kelimeler arasındaki ayırıcının genellikle bir boşluk veya bölü "/" olduğu bilinebilir. Bu soru basit görünüyor, ancak nesiller boyu bilim adamlarını iç geçirdi. Örnekler şu şekildedir: "Evli ve bekar", "Üst düzey yetkilileri kesinlikle koruyun", "Nanjing Yangtze Nehri Köprüsü", "Qin Bing Keng, Zhao'yu öldürdü Haz 400.000 Yu Changping". Makinelerin bu metinleri bölümlere ayırması oldukça zordur.

Aslında özetlemek gerekirse, Çince kelime bölümlemesinin temel zorlukları üç yönden kaynaklanmaktadır: kelime bölümleme standardı, belirsizlik bölümlemesi ve kayıtsız kelime tanıma. Kelime bölümleme kuralı, "kelime nedir" (bir kelimenin soyut tanımı) ve "kelime nedir" (kelimelerin, kelimelerin ve kelime öbeklerinin sınırlandırılması dahil, bir kelimenin belirli bir tanımı) tartışır. Bu iki konu biraz düzensizdir ve başarısızdır Tanınmış ve yetkili bir kelime listesi oluşturun, burada listelenmemiştir. Ancak kelime bölümleme sürecinde bu sorun kaçınılmaz ve zahmetlidir. Örneğin, kelime dağarcığının oluşturulması, kelime verilerinin etiketlenmesi vb.

Belirsizlik bölümleme sorunu

Belirsizlik bölümleme aynı cümleyi ifade eder, Çince metinlerde yaygın olan iki veya daha fazla bölümleme yöntemi olabilir. Mevcut belirsizlik genellikle iki türe ayrılabilir: kesişim tipi ve kombinasyon tipi. Çince karakter dizisi AJB, AJ ve JB'nin aynı zamanda sözcükler olduğunu doğrularsa (A, J ve B'nin tümü Çince karakter dizeleridir), bu durumda AJB'ye farklı anlamlara sahip bir kesişim adı verilir. Örneğin, "birleştirilmiş", "üniversite öğrencileri", "gerçekten mantıklı". Çince karakter dizisi AB, AB, A ve B'nin aynı anda kelimeler olduğunu doğrularsa, AB'ye farklı anlamların bir kombinasyonu denir. Örneğin, "insan gücü", "gelecek", "öğrenci birliği". Bu tür bir belirsizlik bölümleme problemiyle başa çıkmak için, sözlük eşlemesi tek başına iyi sonuçlar elde edemez ve genellikle karmaşık bağlam analizi yoluyla çözülmesi gerekir.

Kayıtsız sözcük sorunu

Sözde bilinmeyen kelimeler veya bilinmeyen kelimeler, mevcut kelime dağarcığına dahil olmayan veya mevcut eğitim külliyatında görünmeyen kelimelere atıfta bulunur. İkinci durumda, kayıtsız kelimeler de kelime dağarcığından (OOV), yani eğitim veri setinin dışındaki kelimeler olarak adlandırılır.

Kayıtsız kelimelerin durumu daha karmaşıktır ve kabaca aşağıdaki durumlara ayrılabilir: 1) Yeni ortaya çıkan yaygın kelimeler, özellikle İnternet terimleri, "Aote", "Shenma", "Bilinmeyen Jue Li" vb. Gibi popüler kelimeler 2) "Wang Erxiao", "Jinshi", "58" vb. Gibi kişi, yer, kuruluş, tarih, saat, yüzdelerin adları dahil özel isimler. 3) "Melamin", "kuş gribi", "yalnızca beş sigorta", "beş sigorta ve bir konut fonu" gibi alan terimleri. 4) Yeni ürünlerin, filmlerin, kitapların vb. Adları dahil diğer özel isimler. Bazı bilim adamları, kayıtsız kelimelerin yaklaşık% 90'ının, yukarıdaki ikinci kategori olan özel isimler olduğunu hesapladılar. Büyük ölçekli gerçek metinlerde, kayıtsız kelimelerin kelime segmentasyonunun doğruluğu üzerindeki etkisi belirsizlik segmentasyonunu (10-20 kat) çok aşmaktadır.Bir kelime segmentasyon sistemi için, kelime veya eğitim külliyatının zamanında güncellenememesi durumunda, Sözcük, bölümlere ayrılacak metinde görünüyorsa, bölümleme sonucu temelde yanlıştır, bu da üst düzey uygulamayı etkiler. Bu nedenle, kayıtsız kelimelerin tanınması, kelime segmentasyonu çalışanlarının karşılaştığı en büyük zorluktur.

Çince kelime bölümleme yöntemi

Yıllarca süren geliştirmeden sonra, Çince kelime segmentasyonu, kabaca iki kategoriye ayrılabilen birçok kelime segmentasyon yöntemi ortaya çıkmıştır. Bunlardan biri, kelime dağarcığına dayalı kelime segmentasyon yöntemidir ve aynı zamanda mekanik kelime segmentasyonu veya kurala dayalı kelime segmentasyon metodu olarak da adlandırılır. İleri maksimum eşleştirme, ters maksimum eşleştirme, iki yönlü eşleştirme, en az bölümleme sözlüğü vb. Dahil. Diğeri, n-gram dil modelleri, HMM, CRF, RNN ve diğer modelleri içeren istatistiksel modellere dayalı kelime bölümleme yöntemleridir. Aşağıdakiler, Çince kelime segmentasyonunun gelişim yolu boyunca birkaç tipik kelime segmentasyon yöntemini tanıtacaktır ve 58 aramanın kelime segmentasyonu temel olarak bu yolu takip edecektir.

Kelime segmentasyonu

Adından da anlaşılacağı gibi, bu yöntemin ana fikri, en uzun eşleşmeyi bulmak için kelime dağarcığına bakmak, bölümlere ayrılmış metni soldan sağa taramak ve bir bileşik kelime ("Tsinghua Üniversitesi" gibi) ile karşılaştığınızda kelime haznesindeki kelimeleri tanımlamaktır. , Bilmediğiniz bir dizeyle karşılaştığınızda, tek karakterli kelimelere bölünecek ve böylece basit kelime segmentasyonu tamamlanmış olacaktır. Bu yöntemin avantajı açıktır, yeterince basittir, basit olmasına rağmen, kelime bölütleme problemlerinin yüzde yedi ila seksenini çözebilir. Ve eksiklikleri de açıktır, yani çok basittir Yukarıda bahsedilen belirsizlik bölümleme problemini etkili bir şekilde çözemez, tamamen "kişilik" bölümlemesine bağlıdır ve kayıtsız kelimeleri tespit etmek güçsüzdür. Kelime temelli yöntemin de farklı eşleştirme stratejileri olmasına rağmen, yalnızca sınırlı belirsizlik kategorilerini bir dereceye kadar çözebilir.Yeni kelimeleri tanımlamak için, kelime dağarcığına daha fazla kelime eklenmesi gerekir, bu da segmentasyonu artıracaktır. Belirsizlik sorunları. Bu tür sorunları sistematik bir şekilde çözmek için yeni fikirlere ihtiyaç vardır.

Kelime ve istatistiği birleştiren kelime bölümleme yöntemi (n-gram dil modeli)

Muğlaklık bölümleme, bölümlere ayrılmış metnin çoklu bölümleme yöntemlerinden türetilir, örneğin "bu ifade gerçekten mantıklıdır", burada "gerçekten", "gerçekten", "gerçeklik" ve "mantıklı" ifadelerinin tümü sözcük haline gelebilir. Peki hangi kelimelerin çıkarılacağına nasıl karar verilir? Bazı insanlar kelime sıklığı bilgisini kullanmayı, yani hangi kelimenin gerçek külliyatta daha sık göründüğünü veya ortaya çıkma olasılığının P (w) daha büyük olduğunu düşünebilir, o zaman bölümlere ayrılmalıdır. Örneğin, P (of) ve P'yi (gerçekten) "of" mi yoksa "gerçekten" mi keseceğimizi belirlemek için hesaplayabiliriz, ancak bu yöntem bağlamı bozar. Daha sonra, P (bu söyleme) hesaplayabiliriz, P (gerçekten | bu söz), sırasıyla, "bu kelime" nin ortak dizisinin görünmesi koşulu altında "of" ve "gerçekten" nin yanında görünme olasılığını temsil eder. Bağlamın geçiş olasılığını dikkate alan bu kelime bölütlemesini belirleme yöntemi açıkça daha doğrudur. Daha fazla düşünün ve tüm cümlenin olası tüm bölümlemelerini düşünün. Aslında, tüm olası bölümleme yöntemlerinden bir cümle oluşturma olasılığı en yüksek olan bölümü bulmak istiyoruz. Parçalanacak T metninin n tipte bölütleme yöntemine sahip olabileceğini varsayarsak, örneğin, üç:

Bunlar arasında A, B ve C alt simgelerinin tümü Çince kelimelerdir.En iyi bölümleme yöntemi, kelime dizisinin oluş olasılığının en büyük olmasını sağlamalı, yani ilk bölümleme yöntemi en iyiyse, karşılamalıdır.

Ve

Segmentasyon dizisinin meydana gelme olasılığını hesaplamak için, kelime tabanlı bir dil modeli kullanılır. Genellikle, bir ikili dil modeli kullanılır. Formül aşağıdaki gibidir:

onların arasında, < s > Bir cümlenin başlangıcını gösterir, < / s > Bir cümlenin sonunu gösterir Formüldeki koşullu olasılık, kelime sıklığı ve korpustaki birlikte görülme sıklığı sayılarak hesaplanabilir.

Sözcük dağarcığının sözcük bölümlemesi artı ikili dil modelinin temel fikri tam olarak şu şekilde ifade edilir: İlk olarak, mümkün olan tüm sözcükleri bulmak için bölümlere ayrılmış metni sözcük dağarcığına göre eşleştirin (yani tam bölümleme), böylece olasılık kaçırılmasın Doğru segmentasyon yöntemi. Daha sonra bunları ve tüm tek kelimeleri düğüm olarak kullanın ve aşağıdaki şekilde gösterildiği gibi bölümlere ayrılmış yönlendirilmiş çevrimsiz grafiği oluşturun. Grafikteki düğümler olası aday kelimeleri temsil eder, kenarlar yolları temsil eder ve kenardan önce ve sonra aday kelimeler arasındaki ikili geçiş olasılığı kenar ağırlığını temsil eder. Son olarak, en büyük ağırlığa sahip yolu bulmak için ilgili bir arama algoritması (Viterbi algoritması gibi) kullanılır.Yola karşılık gelen bölümleme, en yüksek olasılığa sahip bölümleme yöntemidir. Bu istatistiksel bilgi ekleme yöntemi, belirsizlik bölümleme problemini nispeten iyi bir şekilde çözebilir ve bağımsız kayıtsız kelime tanıma modülü ile tüm kelime bölümleme sistemi temelde mükemmeldir.

58 erken aramada kullanılan kelime segmentasyon sistemi bu yönteme dayanmaktadır ve temel olarak iki sorunu çözmektedir: başlangıç dil modelinin eğitimi ve kayıtsız kelime tanıma modülünün oluşturulması. N-gram dil modelinin kendisi büyük bir yöndür. Daha derine inin ve kelime dağarcığı genişletme, kelime eşleme algoritması, uygun isim tanıma, konuşma etiketlemenin bir parçası gibi etkiyi iyileştirmek için (belirsizlik bölümleme problemini çözme) birçok noktada çok çalışın Vb. Kullanımı Ancak daha önce kayıtsız kelimelerin tanınmasının kelime bölütlemenin doğruluğunu etkileyen en önemli faktör olduğundan bahsedilmiş, bu nedenle dil modelinin optimizasyonu için çok fazla çaba harcanmamıştı. Orijinal külliyatı bölümlere ayırmak için yalnızca kelime temelli ters maksimum eşleştirme algoritması kullanırız ve ardından dil modelini elde etmek için sözcük sıklığını ve sözcükler arasındaki geçiş olasılığını sayarız. Kayıtsız sözcük tanıma modülünde, yeni sözcükleri incelemek ve bunları sözcük dağarcığına eklemek için temel olarak büyük ölçekli külliyat tabanlı yeni sözcük keşfi ve manuel incelemeden yararlanıyoruz. Yeni kelimelerin keşfi, madencilik için kelime frekansı, kelime iç katılaşması (karşılıklı bilgi ile hesaplanır) ve sol ve sağ serbestlik derecelerini (sol ve sağ bilgi entropisi ile hesaplanır) kullanır. Bunları birleştirerek, kelime segmentasyon etkisi temelde endüstriyel kullanım düzeyine ulaşabilir.

Kelime dizisi etiketleme yöntemi - CRF modeli

Karakterlere göre kelime oluşturma fikri ilk olarak 2002 yılında ortaya atılmıştır. Bundan sonra buna dayalı kelime bölütleme yöntemi çeşitli değerlendirme ve yarışmalarda iyi performans göstermiş ve kayıtsız kelimelerin tanınmasında birinci sırada yer almış ve kayıtsız kelime tanımanın doğruluğundan daha önce bahsedilmiştir. Etkisi belirsizlik segmentasyonunun 10 katıdır, bu nedenle insanlar en yüksek kayıtsız kelimelerin hatırlanma oranına sahip bu segmentasyon yöntemini tercih eder. Kelime oluşumunun kelime segmentasyon yöntemi, kelime segmentasyon sürecini dizideki karakterlerin sınıflandırılması olarak ele almaktır.Her karakter, kelimenin başlangıcı (B), kelimenin ortası (M) gibi belirli bir kelime oluştururken belirli bir kelime oluşturma pozisyonunu işgal eder. ), sonek (E) ve tek kelime (S). Aşağıdaki örnek, orijinal metin, karakter etiketleme ve kelime segmentasyonu sonuçlarının karşılaştırmasını gösterir:

orijinal: Bu doğru

Kelime işareti: Bu / S kelimeler / S konuşuyor / Sler / S doğru / B gerçek / E / B rasyonel / E

Kelime segmentasyonu sonucu: Bu gerçekten makul

Kelime segmentasyon sonucu karakter etiketleme şeklinde ifade edildikten sonra, kelime segmentasyon problemi bir sekans etiketleme problemi haline gelir. Sözlük yöntemi ile karşılaştırıldığında, problemin perspektifi ve kullanılan yöntem değişmiş olsa da amaç benzerdir: İlki en yüksek olasılığa sahip kelime dizisini bulmak (dil modeli ile hesaplanır), ikincisi ise en yüksek olasılığa sahip kelime etiketini bulmaktır. Sıra, matematiksel formu aşağıdaki gibidir:

X, bölümlenecek metni temsil ettiğinde, GEN (X) tüm olası etiket dizileri ve Y, olası bir etiketi (BMEBE gibi) temsil eder.

Şu anda en yaygın kullanılan sekans etiketleme yöntemleri Gizli Markov Modeli (HMM) ve Koşullu Rastgele Alan'dır (CRF) HMM, CRF modelinden çok daha küçüktür, bu nedenle model eğitimi ve tahmini çok daha hızlıdır. Göreli CRF modeli daha büyüktür ve etiketleme sırasında mevcut konumdan önceki ve sonraki gözlem dizisinin (kelime dizisi) özelliklerini daha çok dikkate alır Kısaca, bağlam bilgisini daha iyi kullanır, dolayısıyla işlevi daha güçlüdür. Şu anda, 58 arama tarafından kullanılan kelime segmentasyon sisteminin özü, CRF modelidir.

Koşullu rasgele alan, Markov rasgele alanının belirli koşullar altındaki anlamıdır ve bir tür olasılık grafiği modelidir (düğümler rasgele değişkenleri temsil eder ve bağlantılı kenarlar değişkenler arasındaki olasılık bağımlılığını temsil eder). Adından, bu grafikteki düğüm kümesi, X (bölünecek sözcük dizisine ikame edilebilen) ve Y (sözcük dizisine karşılık gelen) gibi iki rastgele değişken grubuna (biri bir koşul ve diğeri rastgele bir alandır) bölünmelidir. Mark dizisi), eğer Y belirli bir X koşulu altında Markov rasgele alanını karşılarsa, buna koşullu rasgele alan denir. Öyleyse Y, Markov rasgele alanını nasıl tatmin ediyor? İki koşulun karşılanması gerekir: Biri Markov özelliğidir Bir sonraki andaki (işaretli) değişken değerinin olasılık dağılımı, yalnızca önceki andaki değişkenin değeri ile ilgilidir. Diğeri ise rastgele bir alandır.Her pozisyona belirli bir dağılıma göre faz uzayında (B, M, E, S) rastgele bir değer atanır, bütüne rastgele alan denir. Sıralı etiketleme senaryosunda, doğrusal zincir koşullu rasgele alan kullanılır, yani X ve Y, aşağıdaki şekilde ifade edilebilen doğrusal zincir tarafından temsil edilen rasgele değişken dizilerdir.

X, aynı zamanda giriş gözlem dizisi olarak da adlandırılan kelime dizisidir ve Y işaret dizisidir, ayrıca çıkış işareti dizisi veya durum dizisi olarak da adlandırılır. Bu koşulu sağlayan olasılık grafiğinin ortak olasılığı aşağıdaki forma sahiptir:

Formülde, x ve y sırasıyla X ve Y rastgele değişkenlerinin değerleridir, Z (x) normalleştirme faktörüdür, f karakteristik fonksiyondur ve karşılık gelen karakteristiğin ağırlığıdır. Karakteristik fonksiyonun değeri genellikle 0 veya 1'dir ve karakteristik görünüm 1'dir, aksi takdirde 0'dır. Örnek olarak "bu ifade gerçekten mantıklı" ifadesini ele alalım. Etiket dizisi "SSSSBEBE" ise ve bağlam penceresi 3'ü seçerse, i = 5 olduğunda (yani, "onayla" kelimesinin konumu) ortaya çıkan özellikleri göz önünde bulundurun:

Yukarıdaki formülde listelenen özniteliklerin ilk 6 özelliği, durum öznitelikleri olarak adlandırılan düğümde (Y dizisi) tanımlanan özniteliklerdir. Yedinci özellik, geçerli konuma ve önceki konuma bağlı olan ve geçiş özelliği adı verilen kenarda tanımlanan özelliktir. CRF modelinin özellikleri genellikle yapılandırılmış özellik şablonları aracılığıyla çıkarılır, bu özelliklerin nispeten düzenli ve anlaşılmasının kolay olduğu görülebilir. CRF model eğitimi, ortaya çıkan tüm özelliklerin ağırlıklarının çözülmesi sürecidir.Özellik ağırlıkları ile her bir düğümün değerlerinin olasılık dağılımı kolaylıkla hesaplanabilir, yani B, M, E, S olarak işaretlenme olasılığı ve son olarak Kenarlardaki geçiş ağırlıkları göz önüne alındığında, sadece en yüksek olasılığa sahip etiket dizisini bulmamız gerekiyor. Aşağıdaki şekilde gösterildiği gibi, her düğüm ve kenarın bir ağırlığı vardır ve optimal etiket dizisi, tam olarak bağlı grafikteki en büyük ağırlığa sahip yola karşılık gelir Viterbi algoritması, genellikle optimum yolu aramak için kullanılır.

Yukarıdaki girişten, CRF modelinin metni bölümlere ayırmak için bağlam bilgisini tam olarak kullanabildiği, böylece belirsizlik bölümleme ve kayıtsız kelime tanıma sorununu verimli bir şekilde çözebileceği ve kelime bölümleme doğruluğunun% 95'ten fazlasına ulaşabileceği görülebilir. . Ancak aynı zamanda tutarsız kelime bölümlemesi gibi eksiklikleri de vardır. Aşağıdaki boşluk, CRF kelime bölümleme yönteminde 58 aramanın pratik deneyimini tanıtacaktır.

58 arama CRF kelime segmentasyonu uygulaması

Bu bölüm esas olarak CRF modelinin eksikliklerine ve uygulamamızdaki modelin dışındaki çalışmaların bir kısmını tartışmak için kelime segmentasyonu için 58 arama senaryosunun daha fazla talebine odaklanmaktadır. Şu anda 58 arama tarafından kullanılan CRF modeline dayalı kelime segmentasyon sistemi aşağıdaki şekilde gösterilmektedir. Şekildeki modelin dışındaki modüller, esas olarak CRF modelinin eksikliklerini ve kelime segmentasyonu için daha fazla talep için 58 arama senaryosunu gidermeyi hedeflemektedir. Tartışma aşağıda başlayacak.

Tutarsız kelime segmentasyonu

Tutarsız kelime segmentasyonu, farklı bağlamlarda, modelin aynı metin segmenti için farklı sonuçları segmentlere ayırması anlamına gelir. Örneğin, belge başlığı "Erkek giyim mağazası dekorasyonu ve dekorasyonu", model katılımcısı "Erkek giyim mağazası, anne ve çocuk mağazası dekorasyonu", kullanıcı sorgusu "Erkek giyim mağazası dekorasyonu" ve model katılımcısı "Erkek giyim mağazası dekorasyonu" şeklindedir. Bu şekilde, sorgulama sırasında hedef gönderi geri çağrılamaz. Kelime segmentasyonunun tutarsızlığı esas olarak iki nedenden kaynaklanır: Birincisi, kelime verilerini etiketlerken tutarsızlıklar olacağıdır. Manuel etiketlemede, farklı insanlar aynı cümleyi farklı bölümlere ayırabilir ve hatta aynı kişi, aynı cümle hakkında farklı zamanlarda farklı fikirlere sahip olabilir. Bu nedenle, kelime segmentasyonu için nispeten açık bir spesifikasyon gereklidir ve daha sonra, segmentasyon verilerinde "erkek giyim mağazası" ve "erkek giyim mağazası" nın aynı anda mevcut olup olmadığı gibi işaretli kelime segmentasyon verilerinin tutarlılığını kontrol etmek gerekir. Doğrulamanın sonucu, düzeltme için açıklama kontrolüne geri beslenir Bu işlemin tekrarlanması, kelime bölütleme modelinin tutarsız bölümleme problemini hafifletebilir. Tutarsızlığın bir başka nedeni, modelin içsel kusurudur: Bağlam değiştiğinde, tüm optimal yolun arama süreci değişir ve yerel metin işaretlerinin tutarsızlığından kaçınmak zordur. Bu soruna yanıt olarak, metinde noktalama işaretleri, deyimler, alana özgü sözcükler ve url, e-posta, telefon numarası, tarih vb. Gibi çok bariz özelliklere sahip sözcükleri tanımlamak için özellik sözlüğünü ve kural eşleştirmesini yapılandırıyoruz. Kısa metinlerin bir listesini almak için kesin ve ardından modeli her kısa metin için sözcükleri kesmek için kullanın. Bu, tutarsız bağlam olasılığını bir dereceye kadar zayıflatabilir ve tutarsız bölümleme sorununu hafifletebilir. Tabii ki, bu aynı zamanda bölümleme sürecinde bağlam bilgisinin kullanım verimliliğini zayıflatacak ve bölümlemenin doğruluğunu etkileyecektir. Bu süreç, sıkı değerlendirme ve ödünleşmeler gerektirir. Özellikle arama senaryolarında, kelime bölümleme tutarlılığı gereksinimlerinin doğruluk gereksinimlerinden aşağı olmadığını düşünüyorum.

Kelime segmentasyonu ayrıntı düzeyi

"58 aynı şehrin" "58" ve "aynı şehir" olarak kesilip kesilmeyeceği, "Jiangfu Jiayuan" ın "Jiangfu" ve "jiayuan" ve "Jiuxianqiao North" olarak kesilip kesilmeyeceği gibi, kelime segmentasyonu genel olarak kaba ayrıntı ve ince ayrıntı olarak bölünmüştür. Yolun "jiuxianqiao" ve "kuzey yolu" olarak kesilip kesilmeyeceği. Spesifik uygulama senaryoları için karşılık gelen tanecikliliğe sahip bir jetonlaştırıcı oluşturulabilir. Daha fazla durumda, bir jetonlaştırıcı aynı anda farklı tanecikliklerin segmentasyonunu destekler. Arama senaryolarında, büyük taneli kelime segmentasyonu, daha doğru ve alakalı arama sonuçlarıyla sonuçlanacaktır, ancak daha az olması ve sonuç olmaması muhtemeldir. Ayrıntılı kelime segmentasyonu, yeterli hatırlamayı sağlayabilir ve ardından daha alakalı sonuçların en üstte görünmesini sağlamak için etkili bir alaka puanlama stratejisiyle işbirliği yapabilir. Bu nedenle, daha ince taneli bir kelime segmentasyon spesifikasyonu benimsiyoruz.Tabii ki, indeks kelime segmentasyon modunda, hatırlama oranını daha da iyileştirmek için aşağıdaki modülde tanıtılan genişletilmiş kelime segmentasyonu eklememiz gerekiyor.

Dizin bölümleme genişletmesi

Dizin kelime bölümleme genişletmesi, dizin sözcüğü bölümleme modu altında mümkün olduğunca çok sayıda etkili sözcük bölümlemesinin kesilmesi ihtiyacını ifade eder. Stratejimiz şu anda eşanlamlı genişletme, ima sözcük genişletme ve kural genişletmeyi içermektedir. Eşanlamlı genişletmenin anlaşılması daha kolaydır ve eşanlamlı sözlük eşleştirmesi yoluyla yapılabilir. Dolaylı kelimeler, başka bir kelime içeren kelimelerdir. Örneğin, "spor salonu", "uygunluk" anlamına gelir, "berber dükkanı", "saç kesimi" anlamına gelir, vb. Bu, ortaya çıkarılan ima edilen sözlüğün eşleştirilmesiyle de yapılır. Kural genişletme aşağıdaki durumları çözmelidir. Örneğin, "Nth Hospital" (N bir sayıdır) "N Hospital" dışında genişletilmeli ve "Jiuxianqiao D Road" (D doğu, güney, batı, kuzeyi ve merkezi temsil eder) genişletilmelidir. "Jiuxian Köprüsü", "Jiuxian Köprüsü Yolu", "Jiuxian Köprüsü Caddesi" vb. Bu bölüm, kural şablonunun yapılandırılmasıyla çözülür.

Derlem toplama ve açıklama

NLP uygulamasında zamanın% 60 -% 70'inin bütünlük toplama ve veri işlemeye harcandığı sık sık söylenir (normalleştirme ve tutarlılık kontrolü ve yukarıda belirtilen kelime bölümleme ayrıntı düzeyinin ayarlanması dahil). Bu doğrudur. Ve daha fazlası. İşte külliyat toplama ile ilgili bazı ipuçları. Orijinal külliyatın birikimi iki bölümden oluşur: Biri, Halkın Günlük külliyatı ve Sogou külliyatı gibi açık kaynak açıklamalı külliyat, diğeri ise 58 sahnelik metin külliyatıdır. Bu kısım manuel açıklama gerektirir ve biriktirme hızı yavaştır. Belli bir miktar başlangıç ek açıklamalı külliyat biriktirdikten sonra, daha önce olduğu gibi ayrım gözetmeksizin açıklama eklemek için orijinal çevrimiçi külliyat toplayamayız. Ek açıklamanın odak noktası, mevcut külliyatta kapsanmayan şeylere odaklanmalıdır, aksi takdirde mevcut külliyat üzerinde eğitilen model bunu yapamaz. Daha iyi tahminlerle orijinal külliyatta.

İşte kullandığımız iki strateji: Biri çevrimiçi analiz. Model çevrimiçi tahmin, etiketli yolu en yüksek olasılıkla çözme sürecidir. Ham külliyat (etiketlenmemiş külliyat) tahmin edilirken en uygun yolun olasılığını tahmin edebiliriz Belli bir eşikten küçük olan ham külliyat aday külliyat olarak toplanır. Diğeri çevrimdışı analizdir.İlk olarak, büyük ölçekli bir ham külliyat çevrimdışı olarak toplanır ve mevcut model kelime bölütleme için kullanılır. Daha sonra, her bir kelime segmentasyonunun kelime oluşum puanını değerlendirmek için kelime sıklığını, iç katılaşma derecesini, tüm kelime segmentasyon korpusundaki her kelimenin sol ve sağ serbestlik derecelerini sayın (yukarıda bahsedilen yeni kelime keşfi de bu göstergeleri kullanır) (bu iyi bir kelimedir, Yine de kötü sözler) ve daha sonra bir cümlenin bölümleme puanını hesaplayabilir, böylece mevcut model tarafından iyi bölümlere ayrılmamış bir grup külliyatın madenciliği yapılabilir ve manuel etiketleme için etiketleme platformuna eklenebilir.

Sonuç

Özet olarak, kelime bölütleme teknolojisinin gelişimi boyunca, sözlük sözcüğü bölümleme, sözlük ve istatistiksel sözcük bölümleme ve istatistiksel model tabanlı sözcük bölümleme dahil olmak üzere çeşitli temsili sözcük bölümleme yöntemlerini tanıttık. Tüm gelişim yolunun sözlükten (kural) istatistiğe evrim olduğu görülebilir, ancak bu yöntemlerde kullanılan istatistiksel özellikler temel olarak kelime frekansı, geçiş olasılığı ve CRF özellik şablonları gibi insan bilgisi tarafından belirlenir. NLP'deki daha zengin ve daha derin anlamsal özellikler genellikle sezgisel olarak algılanamaz. O zamandan beri, sinir ağlarına veya derin öğrenme modellerine dayalı kelime segmentasyon yöntemleri ortaya çıktı.İnsan bilgisine güvenmeden özellikleri çıkarabilirler, ancak külliyattan zengin anlamsal özellikler öğrenebilirler, bu da onlara daha büyük potansiyel verir. Bundan sonra, büyük ölçekli etiketlenmemiş korpus ön eğitim modeline ve özel görev ince ayarına dayalı bir yöntem ortaya çıktı ve bu, az miktarda etiketli külliyatla iyi kelime bölümleme etkileri elde edebilir. Derin öğrenme ve eğitim öncesi dil modelleri doğrultusunda da denedik ve bazı sonuçlar elde ettik.Yer kısıtlılıkları nedeniyle daha ileriye gitme fırsatımız olacak.

Yoksulluğun Azaltılması ve Demokratik Denetim Çalışma Grubu Demokratik İlerici Merkez Komitesi, Xinshao İlçesinin yoksulluğun azaltılmasını araştırıyor
önceki
Çince kelime segmentasyon teknolojisi derin öğrenme makaleleri
Sonraki
Alimama: E-ticaret tahmin modellerinin gelişimi ve zorlukları
Kuaishou Druid'in hassas veri tekilleştirmesinin tasarımı ve uygulaması
Ses içeriğini anlamanın temel teknolojisi
Alibaba, DIN ve Google WDL'den daha iyi olan Taobao e-ticaret önerisi için Transformer kullanıyor
KNN optimizasyon algoritması 1: mesafe ağırlıklandırma
Başkan Xinin ordu için yetenek geliştirme sorumluluğunu aklınızda bulundurun
Genişletilmiş Evrişim (Genişletilmiş Evrişim): Karlı olan, ancak yararlı olmayan nedir
GOTCHA! Dolandırıcılık Tespitinde Kişiselleştirilmiş PageRank Uygulaması
Ev yapımı köpek pirinci hızlı, lezzetli ve besleyicidir, bu nedenle köpekler bırakamaz ~
Pony.ai altyapı zorlukları ve uygulamaları
Kuru mal paylaşımı | Alibaba'nın PB seviyesi Kubernetes günlük platformu inşaat uygulaması
Yaz geliyor, köpeğimde sıcak çarpması varsa ne yapmalıyım?
To Top