Özel Doğal dil işleme NLP'yi anlamak için bir makale (öğrenme materyalleri ile)

(Daha büyük resmi görmek için tıklayın)

Önsöz

Doğal dil işleme, metin madenciliğinin araştırma alanlarından biridir ve yapay zeka ve dilbilimin bir dalıdır. Bu alanda doğal dili nasıl işleyeceğinizi ve kullanacağınızı keşfedin.

Doğal dil işlemenin gelişimi için felsefeden öğrenebiliriz Deneycilik ile Akılcılık Bahsederken. İstatistik temelli doğal dil işleme, felsefede deneyciliktir ve kural tabanlı doğal dil işleme, felsefede rasyonalizmdir. Felsefe alanında Deneycilik karşı Akılcılık "Doğal Dil İşleme" mücadeleleri gelgitler halindedir ve bu çelişki ve mücadele, doğal dil işleme gibi belirli bilimlere de yansımıştır.

Erken doğal dil işlemenin farklı bir deneysellik rengi vardır. Örneğin, 1913'te Markov, Markov rastgele süreci ve Markov modelinin temelinin "manuel frekans kontrolü" olduğunu öne sürdü, özellikle, Eugen Onegin'in uzun şiirindeki ünlülerin ve ünsüzlerin sıklığını sayar. ; 1948'de Shannon, ayrık Markov olasılık modelini dil otomatlarına uyguladı ve aynı zamanda İngilizce harflerin sıklığını saymak için manuel yöntemler kullandı.

Ancak, bu deneycilik Chomsky olduğunda değişti.

1956'da Chomsky, Shannonın çalışmasından ödünç aldı ve sonlu durum makinelerini dilbilgisini tanımlamak için bir araç olarak kullandı ve doğal dilin sonlu durum modelini kurdu. Özellikle, dili sembolik dizilere dönüştürmek için "cebir" ve "kümeler" i kullandı. Dilbilgisi ile ilgili birçok matematiksel model oluşturulmuştur. Bu çalışmalar çok güzel, doğal dil ve biçimsel dil için birleşik bir matematiksel betimleme kuramı buldular ve "biçimsel dil kuramı" adlı yeni bir alan doğdu. Bu çağda "ampiriklik" tamamen reddedildi ve "akılcılık" tam bir zafer olarak kabul edilebilir.

Ancak 1950'lerin sonlarından 1960'ların ortalarına kadar deneycilik yeniden canlandı. Çoğu bilim insanı genellikle yalnızca ayrıntılı tarihsel verilerin güvenilir sonuçlar getirebileceğine inanır. Böylece Bayes Yöntemi, Gizli Markov, Maksimum Entropi, Viterbi Algoritması, Destek Vektör Makinesi gibi bazı iyi bilinen teoriler ve algoritmalar doğdu. Dünyanın ilk çevrimiçi külliyatı da o sırada Brown Üniversitesi'nde doğdu. Ancak genel olarak, bu dönem hala kural temelli rasyonalizmdir ve ampirizm etkileyici sonuçlar elde etmesine rağmen, hala çok fazla ilgi görmemiştir. Ama altın her zaman parlayacak.

1990'lardan beri istatistiksel tabanlı doğal dil işleme parlamaya başladı. İlki, birçok külliyat temelli yöntemin (Hutchins, ünlü bir İngiliz bilim insanı) tanıtılması nedeniyle makine çevirisi alanında bir atılımdır. 1990 yılında Helsinki, Finlandiya'da düzenlenen 13. Uluslararası Hesaplamalı Dilbilim Konferansı'nın teması "Büyük ölçekli gerçek metinlerin işlenmesine yönelik teoriler, yöntemler ve araçlar" idi. Herkesin odağı büyük ölçekli gerçek metinlere kaymaya başladı. Geleneksel olanlar yalnızca kurallara dayanıyordu. Doğal dil işleme tabi ki çok zayıf. Bilim adamları, büyük ölçekli külliyatın en azından kural tabanlı yöntemlere etkili bir tamamlayıcı olduğuna inanıyor. 1994'ten 1999'a kadar, ampirizm eşi görülmemiş bir şekilde gelişmeye başladı . Sözdizimi analizi, konuşma parçası etiketleme, referans çözünürlüğü ve konuşma işleme gibi algoritmalar, standart yöntemler olarak neredeyse "olasılık" ve "veri" kullanır ve doğal dil işlemenin ana akımı haline gelmiştir.

Kısacası rasyonalizm, doğal dil işlemenin gelişim tarihinde önemli bir konuma sahiptir. Onlarca yıldır görkemli olmuştur.Tarihsel şeyler genellikle alçalır ve akıp gider. Kimin iyi kimin kötü olduğu konusunda sabit değildir. Farklı dönemlerdeki farklı tarihsel görevlere bağlıdır. Genel olarak, kural temelli rasyonalizmden daha az bahsedildi ve bu çağda, esas olarak aşağıdaki eksiklikler nedeniyle daha az kullanıldı:

  • Sağlamlık zayıftır ve çok katı kurallar, temel olmayan hatalar için sıfır toleransa yol açar (bu, bazı yeni yeni analiz tekniklerinde geliştirilmiştir);

  • Araştırma yoğunluğu yüksek ve genelleme yeteneği zayıf. Bir çalışma, çeşitli alanlarda dilbilimciler, fonetikler ve uzmanların işbirliğini gerektirir ve bu, mevcut büyük ölçekli metin işleme süresi ve kaynak gereksinimleri altında uygun maliyetli değildir. Ve makine öğrenimi yöntemlerinin uygulanması ve yaygınlaştırılması zordur;

  • Kötü pratiklik. İstatistiklere dayalı deneysel yöntem, parametreleri veri setine göre sürekli olarak optimize edebilirken, kurallara dayalı yöntem yapamaz.Bu, çok büyük veri hacminin mevcut durumunda ölümcüldür, çünkü ilkine genellikle eğitim setini artırarak ulaşılabilir. Daha iyi sonuçlar elde etmek için, ikincisi çok daha katıdır ve sonuçlar genellikle tatmin edici değildir.

Ancak akılcılığın hala birçok avantajı vardır ve deneyciliğin de birçok kusuru vardır.Her birinin kendine özgü güçlü ve zayıf yanları olduğu düşünülebilir. Farklı disiplinlerin farklı araştırma bakış açıları vardır, ancak belli bir tarihsel dönemde üretkenliği artırmak için belirli bakış açılarının "daha faydalı" olduğu, dolayısıyla daha fazla insanın buna dikkat ettiği söylenebilir. Ancak "faydalı" zafer demek değildir ve geçici "yararsızlık" bilimsel düzeyde "başarısızlık" olarak söylenemez. Özellikle Çin doğal dil işlemenin gelişiminin henüz olgunlaşmamış olduğu bu dönemde, istatistiksel temelli yöntemlerin pek çok açıdan mükemmel olmadığına ve "rasyonalizmin" hâlâ çok fazla eylem alanı olduğuna ve daha fazla dikkat ve yardıma ihtiyaç duyduğuna inanılıyor.

Zong Chengqing, "İstatistiksel Doğal Dil İşleme"

Doğal dil işleme ile ilgili kategoriler aşağıdaki gibidir (Wikipedia):

  • Çince kelime segmentasyonu (Çince kelime segmentasyonu)

  • Konuşma bölümü etiketleme

  • Ayrıştırma

  • Doğal dil üretimi (Doğal dil üretimi)

  • Metin kategorizasyonu

  • Bilgi erişim (Bilgi erişim)

  • Bilgi çıkarma

  • Metin sağlama

  • Soru cevaplama sistemi

  • Makine çevirisi (Makine çevirisi)

  • Otomatik özetleme

Bu makale, makaleler, bloglar ve diğer materyaller aracılığıyla birkaç ana alanın araştırma durumuna ve ilerlemesine, basit bir giriş yapmak için kendi öğrenimim ve pratik deneyimlerimle birlikte odaklanmaktadır. Kişisel pratik deneyim eksikliği nedeniyle, Çince kelime segmentasyonu, otomatik özetleme, metin sınıflandırması, duygu analizi ve konu modellemesine ek olarak, fiili iş uygulamaları gerçekleştirdi ve diğer yönler eksik. Herhangi bir uygunsuzluk varsa, çocuk ayakkabıları eleştirilebilir ve düzeltilebilir!

içindekiler

1. Çince kelime segmentasyonu

Çince kelime segmentasyonu temel olarak kelime belirsizliği segmentasyonu ve kayıtsız kelime tanımayı içerir. Sözlüğe dayalı ve istatistiksel temelli yöntemlere ayrılabilir. En son yöntem, birden fazla yöntemin bir karışımıdır. Çince kelime segmentasyon araştırmasının mevcut genel seviyesinden yola çıkarak, F1 değeri yaklaşık% 95'e ulaştı ve ana kelime segmentasyon hatalarına yeni kelimeler, özellikle de alana zayıf uyarlanabilirlik neden oluyor. Aşağıdakiler esas olarak Çince kelime bölümlemesinin ana problemlerini ve yöntemlerini tanıtmaktadır.

1. Sorun

1.1 Belirsizlik segmentasyonu

Uyuşmazlıkların işlenmesi iki bölümden oluşur:

  • Kayıtsız tespit;

  • Tüm farklılıkları çözün.

İki parça mantıksal olarak nispeten bağımsız iki adıma bölünebilir.

  • Çeşitli tespit. "Maksimum eşleştirme yöntemi" (tam olarak "en uzun sözcük ilk eşleştirme yöntemi" olarak adlandırılır), en eski ve en temel Çince otomatik sözcük bölütleme yöntemidir. Tarama cümlelerinin yönüne göre iki tür vardır: ileri maksimum eşleşen MM (soldan sağa) ve ters maksimum eşleşen RMM (sağdan sola). Maksimum eşleştirme yöntemi aslında, iki bölümleme algılama ve çözümleme sürecini tek bir süreçte birleştirir ve giriş cümlesine tek bölümleme olanağı verir ve bunu bir çözüm olarak kullanır. Maksimum eşleştirme yönteminden başlayarak, "iki yönlü maksimum eşleştirme yöntemi", yani MM + RMM türetilir. İki yönlü maksimum eşleştirme yöntemi, farklı anlamları tespit etmek için kör noktaya sahiptir.

Belirsizlik tespiti dilimleme için, diğer iki değerli çalışma "en az bölümleme yöntemi" dir. Bu yöntem, iki yönlü maksimum eşleştirme yönteminden daha güçlü belirsizlik algılama yeteneğine sahiptir ve olası bölümleme sayısı yalnızca biraz artırılır ve "tam kesim" "Segmentasyon yöntemi", bu yöntem tüm olası bölümlendirmeyi tüketir ve kör alanlar olmadan bölümleme algılamasını gerçekleştirir, ancak büyük miktarda bölümleme "çöpüne" neden olma pahasına.

  • Tüm farklılıkları çözün. Tipik yöntemler, sözdizimsel istatistikleri ve bellek tabanlı modelleri içerir. Sözdizimsel istatistikler, otomatik kelime segmentasyonunu ve Markov zincirine dayalı otomatik konuşma bölümü etiketleme teknolojisini birleştirir ve farklı anlamları çözmek için manuel etiketleme korpusundan çıkarılan kelime bölümünün ikili istatistiksel yasasını kullanır ve bellek tabanlı model, sözde belirsizlikler için yüksek frekanslı kesişme belirsizliklerine sahiptir. Segmentasyon için, doğru (benzersiz) segmentasyon formları önceden bir tabloya kaydedilebilir ve belirsizlik doğrudan tabloya bakılarak çözülebilir.

1.2 Kayıtsız kelime tanıma

Kayıtsız kelimeler kabaca iki kategori içerir:

  • Yeni ortaya çıkan yaygın kelimeler veya profesyonel terimler, vb .;

  • Uygun isimler. Çince isimler, yabancı isimler, yer isimleri, organizasyon isimleri (ajanslara, organizasyonlara ve diğer işletme ve kurumlara atıfta bulunur) vb.

Önceki kayıtsız kelimeler teorik olarak tahmin edilebilirdir ve önceden kelime hazinesine manuel olarak eklenebilir (ancak bu sadece ideal bir durumdur ve gerçek bir ortamda yapılması kolay değildir); son kayıtsız kelimeler tamamen tahmin edilemez. Kelime ne kadar büyük olursa olsun, dahil edilemez. Gerçek metinde (genel kamu malı olsa bile), kayıtsız kelimelerin kelime segmentasyonunun doğruluğu üzerindeki etkisi, belirsizlik segmentasyonunu aşmaktadır. Kayıtsız kelimelerin işlenmesi, pratik kelime bölümleme sisteminde önemli bir rol oynar.

  • Yeni ortaya çıkan genel kelimeler veya teknik terimler. Bu tür kayıtsız kelimelerin işlenmesi genellikle büyük ölçekli bir külliyat tarafından desteklenir Makine, belirli bir algoritmaya göre (denetimsiz makine öğrenimi stratejisi) otomatik olarak aday kelimelerin bir listesini oluşturur ve ardından yeni kelimeleri yapay olarak tarar. Ve onu kelime dağarcığına ekleyin. On milyonlarca hatta milyarlarca kelimeden oluşan rafine Çince kelime külliyatının hala suyun aynası olduğu gerçeği göz önüne alındığında, bu yöndeki mevcut araştırma, son derece büyük ölçekli ham külliyattan çıkarılan tüm n-gram Çince karakter dizileridir. Dağılıma göre (n2). Bunlar arasında, Çince karakterler arasındaki bağlayıcı kuvvet, karşılıklı bilgi, t-testi farkı, ki-kare istatistikleri ve karakter dizisi frekansı dahil olmak üzere küresel istatistiklerle temsil edilir.

  • Uygun isimler. Özel isimlerin kayıtsız kelimelerinin işlenmesi, ilk olarak çeşitli özel isim veri tabanlarından özetlenen istatistiksel bilgilere (soyadı karakterleri ve sıklıkları gibi) ve yapay olarak özetlenen özel isimlerin bazı yapısal kurallarına dayanmaktadır. Giriş cümlesinde özel isimler haline gelebilecek Çince karakter dizisini tahmin edin ve güvenlerini verin ve ardından uygun isimlerin tanımlayıcı anlamlarına sahip anlık bağlam bilgisini (unvan gibi), ayrıca genel istatistikleri ve yerel istatistikleri (yerel İstatistikler, daha fazla tanımlama için mevcut makaleden elde edilen istatistiklere atıfta bulunan ve etkili aralığı genellikle makalenin istatistikleri, genellikle dizgi sıklığı) ile sınırlı olan küresel istatistiklerle ilgilidir. Mevcut çalışma, dört ortak özel isim içermektedir: Çince isimlerin tanımlanması, yabancı tercüme edilmiş isimlerin tanımlanması, Çince yer isimlerinin tanımlanması ve organizasyon isimlerinin tanımlanması. Çeşitli şirketler tarafından bildirilen deneysel sonuçlara göre, yabancı çevrilen isimlerin tanınma etkisi en iyisidir, ardından Çince isimler, yine Çince yer isimleri ve en kötüsü kurum isimleri takip etmektedir. Görevin kendisinin zorluğu da bu sırada küçükten küçüğe doğru artar. Shen Dayang ve Sun Maosong (1997b) özellikle kayıtsız kelimelerin işlenmesinde yerel istatistiklerin değerini vurguladılar.

2. Yöntem

2.1 Sözlüğe dayalı yöntem

Sözlüğe dayalı yöntemde, belirli bir kelime için yalnızca sözlükteki kelimeler tanınabilir. En popüler yöntem maksimum eşleştirme yöntemidir (MM). Bu yöntemin etkisi sözlüğün kapsamına bağlıdır, bu nedenle Yeni kelimeler görünmeye devam ettikçe, bu yöntemin bariz eksiklikleri vardır.

2.2 İstatistiğe dayalı yöntemler

İstatistik tabanlı yöntemler, metni bölümlere ayırmak için sözlükler yerine olasılık veya puanlama mekanizmalarını kullandıkları için yaygın olarak kullanılmaktadır. Bu yöntemin üç ana dezavantajı vardır: Birincisi, bu yöntemin yalnızca OOV (kelime dışı) kelimeleri tanıyabilmesi, ancak kelimelerin türünü tanımamasıdır, örneğin, yalnızca bir karakter dizisi olarak tanınabilir, ancak bir kişinin adı olarak tanınamaz; İstatistiksel yöntemlerin dil bilgisini kelime segmentasyon sistemine entegre etmesi zordur, bu nedenle dil spesifikasyonunu karşılamayan sonuçlar için ek manuel analiz gereklidir; üçüncü olarak, mevcut birçok kelime segmentasyon sisteminde OOV kelime tanıma genellikle kelime segmentasyon işleminden bağımsızdır.

2. Konuşma bölümü etiketleme

Konuşma parçası etiketleme, belirli bir cümledeki her kelimeye doğru morfolojik etiketler atamayı ifade eder. İyi bir kelimeye sahip bir cümle verildiğinde, konuşma bölümü etiketlemesinin amacı, her kelimeye bir kategori atamaktır. Bu kategoriye konuşma bölümü etiketi (bölüm konuşma etiketi), örneğin, isim (isim), fiil (fiil), sıfat (sıfat) vb. Doğal dil işlemede önemli ve temel araştırma konularından biridir ve diğer birçok akıllı bilgi işleme teknolojisinin temelidir.Makine çevirisi, metin tanıma, konuşma tanıma ve bilgi erişiminde yaygın olarak kullanılmaktadır.

Konuşma parçası etiketleme, sonraki doğal dil işleme için çok yararlı bir ön işleme sürecidir ve doğruluğu, bir dizi sonraki analiz ve işleme görevinin etkisini doğrudan etkileyecektir. Uzun bir süredir, eşzamanlı kelimelerin konuşma parçası belirsizliği çözümü ve bilinmeyen kelimelerin konuşma parçası tanıması, konuşma parçası etiketleme alanında çözülmesi gereken sıcak sorunlar olmuştur. Konuşma parçası belirsizliğini çözme zorlaştığında, konuşma parçası etiketlemesinde belirsizlik sorunu vardır. Sözlüğün kapsamı dışında kalan kelimelerin veya yeni ortaya çıkan kelimelerin konuşma parçası çıkarımı, aynı zamanda eksiksiz bir etiketleme sisteminin yeteneğidir.

1. Konuşma etiketleme yönteminin parçası

Konuşma etiketlemesinin bir kısmı, çok tipik bir sıra etiketleme problemidir. Benimsenen ilk yöntem, Gizli Markov Üretken Modeli, ardından Ayrımcı Maksimum Entropi Modeli ve Destek Vektör Makinesi Modeli olmuştur Şu anda, akademik çevreler genellikle yapısal algılayıcı modeli ve koşullu rastgele alan modelini benimsemektedir. Son yıllarda, derin öğrenme teknolojisinin gelişmesiyle birlikte araştırmacılar, derin sinir ağlarına dayalı konuşma parçası etiketlemenin birçok etkili yöntemini de önerdiler.

Şimdiye kadar, konuşma etiketlemenin bir kısmı temelde Kural tabanlı Toplam İstatistiklere göre Yöntemler.

  • Kural yöntemi Konuşma eşdizimlerinin bölümleri arasındaki belirli fenomeni doğru bir şekilde tanımlayabilir, ancak kuralların dil kapsamı sınırlıdır, büyük kural tabanının derlenmesi ve sürdürülmesi çok ağırdır ve kurallar arasındaki öncelik ve çatışmaların tatmin edici bir şekilde çözülmesi kolay değildir. .

  • istatistiksel yöntemler Konuşmanın bir kısmının makro bir perspektiften bağımlılığı göz önüne alındığında, dil olaylarının çoğunu kapsayabilir ve genel olarak yüksek bir doğruluk ve kararlılığa sahiptir, ancak konuşma eşdiziminin bir bölümünü belirleme olgusunun açıklama doğruluğu, normal yöntem kadar iyi değildir. Bu durum göz önüne alındığında, istatistiksel yöntemlerin ve kural işleme yöntemlerinin kullanımının nasıl daha iyi birleştirileceği, böylece konuşma etiketleme görevlerinin bir kısmının sadece dilbilimciler tarafından özetlenen dil kurallarını etkin bir şekilde kullanabilmesi için değil, aynı zamanda istatistiksel işlemenin avantajlarına tam anlamıyla nasıl yer verileceği konuşma etiketlemenin bir parçası haline gelmiştir. odak.

2. Konuşma parçası etiketlemede araştırma ilerlemesi

  • Konuşma bölümü etiketleme ve sözdizimsel analizin ortak modellemesi: Araştırmacılar, konuşma parçası etiketleme ve sözdizimsel analizin yakından ilişkili olması nedeniyle, konuşma parçası etiketlemesinin ve sözdizimsel analizin ortak modellemesinin aynı anda iki görevin doğruluğunu önemli ölçüde artırabileceğini buldular.

  • Heterojen veri füzyonu: Çin verilerinde şu anda birden çok manuel olarak etiketlenmiş veri vardır, ancak farklı veriler farklı etiketleme özelliklerine uygundur, bu nedenle buna çok kaynaklı heterojen veriler denir. Son yıllarda, bilim adamları, model doğruluğunu iyileştirmek için çok kaynaklı heterojen verilerin nasıl kullanılacağına dair birçok etkili yöntem önerdiler; örneğin, kılavuz özelliklerine dayalı yöntemler, çift sıralı açıklamaya dayalı yöntemler ve sinir ağı paylaşımlı gösterime dayalı yöntemler.

  • Derin öğrenmeye dayalı yöntemler: Geleneksel konuşma parçası etiketleme yöntemlerinin özellik çıkarma işlemi, esas olarak kelimeleri sabit bir bağlam penceresinde yapay olarak birleştirmektir, derin öğrenme yöntemleri ise bu hedefi gerçekleştirmek için otomatik olarak doğrusal olmayan etkinleştirme işlevlerini kullanabilir. Ayrıca, iki yönlü bir LSTM gibi tekrarlayan bir sinir ağı ile birleştirilirse, çıkarılan bilgi artık sabit bir pencere tarafından kısıtlanmaz, ancak tüm cümleyi dikkate alır. Ek olarak, derin öğrenmenin bir başka avantajı, ilk kelime vektör girişinin kendisinin kelimeler arasındaki benzerlik bilgisini tasvir etmesidir ki bu, konuşma parçası etiketlemesi için çok önemlidir.

3. Sözdizimsel analiz

Dil grameri çalışmasının çok uzun bir tarihi vardır ve bu, Mesih'ten önceki dilbilimcilerin çalışmalarına kadar uzanabilir. Farklı sözdizimsel analiz türleri, sözdizimsel yapının farklı temsillerinde yansıtılır ve gerçekleştirme sürecinin karmaşıklığı da farklıdır. Bu nedenle araştırmacılar, her dilbilgisinin özelliklerine uyan sözdizimsel analiz sistemleri oluşturmak için farklı yöntemler kullanırlar. Ana kategoriler aşağıdaki şekilde gösterilmektedir:

Aşağıdakiler temel olarak sözdizimsel analizin teknik yöntemlerini ve araştırma durumunu özetler ve analiz eder:

1. Bağımlılık Sözdizimsel Analizi

Bağımlı dilbilgisinin ortak bir temel varsayımı vardır: sözdizimsel yapı temelde kelimeler ve kelimeler arasındaki bağımlılık (değiştirme) ilişkisini içerir. Bağımlılık ilişkisi iki kelimeyi birbirine bağlar, yani temel kelime (baş) ve bağımlı kelime (bağımlı). Bağımlılık ilişkisi, iki kelime arasındaki belirli sözdizimsel ilişkiyi temsil edecek şekilde farklı türlere bölünebilir. Mevcut araştırma esas olarak veriye dayalı bağımlılık sözdizimi analizi yöntemine odaklanmaktadır, yani bağımlılık sözdizimi analizörü, bağımlılık dilbilgisi teorisinin araştırmasını içermeden eğitim örneklerinden öğrenilir. Veriye dayalı yöntemin temel avantajı, daha büyük ölçekli bir eğitim verisi verildiğinde, aşırı manuel müdahale olmadan daha iyi bir modelin elde edilebilmesidir. Bu nedenle, bu tür bir yöntemin yeni alanlara ve yeni dil ortamlarına uygulanması kolaydır. Veriye dayalı bağımlılık ayrıştırması için iki ana yöntem vardır: Grafik tabanlı analiz yöntemi ile Geçiş tabanlı analiz yöntemi.

2.1 Grafik tabanlı bağımlılık sözdizimi analizi yöntemi

Grafik tabanlı yöntem, bağımlılık çözümleme sorununu, tam olarak yönlendirilmiş bir grafikten maksimum genişleme ağacını bulma sorunu olarak görür. Bir bağımlılık ağacının puanı, bağımlılık ağacını oluşturan birkaç alt ağacın puanlarının toplanmasıyla elde edilir. Bağımlılık ağacı puanlarına dahil edilen alt ağaçların karmaşıklığına göre, grafik tabanlı bağımlılık analizi modelleri basitçe birinci dereceden ve yüksek dereceden modellere ayrılabilir. Daha yüksek sıralı modeller daha karmaşık alt ağaç özelliklerini kullanabilir, bu nedenle analiz doğruluğu daha yüksektir, ancak kod çözme algoritmasının verimliliği de azalacaktır. Grafik tabanlı yöntemler genellikle dinamik programlamaya dayalı kod çözme algoritmaları kullanır ve bazı bilim adamları ayrıca verimliliği artırmak için ışın araması kullanır. Özellik ağırlıklarını öğrenirken, genellikle ortalama algılayıcılar gibi çevrimiçi eğitim algoritmaları kullanılır.

2.2 Geçiş tabanlı bağımlılık sözdizimi analiz yöntemi

Transfer tabanlı yöntem, bağımlılık ağacının oluşum sürecini bir eylem dizisi olarak modeller ve bağımlılık analizi problemini bir optimal eylem dizisini bulma problemine dönüştürür. İlk günlerde, araştırmacılar bir sonraki eylemi belirlemek için yerel sınıflandırıcılar (destek vektör makineleri vb.) Kullandılar. Son yıllarda, araştırmacılar bir sonraki eylemi belirlemek için küresel doğrusal bir model benimsemişlerdir.Bir bağımlılık ağacının puanı, her eylemin puanının karşılık gelen eylem dizisinde toplanmasıyla elde edilmektedir. Özellik gösterimi açısından, aktarıma dayalı yöntem, bir sonraki eyleme karar vermesi için modele rehberlik edecek zengin özellikler oluşturmak için oluşturulmuş alt ağaç bilgilerinden tam olarak faydalanabilir. Model, açgözlü arama veya sütun araması gibi kod çözme algoritmaları aracılığıyla yaklaşık olarak optimal bağımlılık ağacını bulur. Grafik tabanlı yöntemlere benzer şekilde, aktarım tabanlı yöntemler genellikle özellik ağırlıklarını öğrenmek için çevrimiçi eğitim algoritmalarını kullanır.

2.3 Çok modelli füzyon bağımlı sözdizimi analizi yöntemi

Grafik tabanlı ve transfer tabanlı yöntemler sorunları farklı bakış açılarından çözer ve her birinin kendine göre avantajları vardır. Grafiğe dayalı model genel arama gerçekleştirir ancak yalnızca sınırlı alt ağaç özelliklerini kullanabilirken, aktarım tabanlı model sınırlı arama alanına sahiptir, ancak zengin özellikler oluşturmak için oluşturulmuş alt ağaç bilgilerinden tam olarak faydalanabilir. Ayrıntılı bir karşılaştırma, iki yöntemin farklı hata dağılımlarına sahip olduğunu ortaya koymaktadır. Bu nedenle, araştırmacılar iki modelin avantajlarını birleştirmek için farklı yöntemler kullanırlar. Yaygın yöntemler şunlardır: yığılmış öğrenme; birden çok modelin sonuçlarını ağırlıklandırma ve yeniden ayrıştırma; eğitim derlemesinden birden çok örneği eğitme Model (torbalama).

2. İfade yapısının sözdizimsel analizi

Kelime bölütleme, konuşma parçası etiketleme teknolojisi genellikle yalnızca cümlenin yerel kapsamını analiz etmeye ve işlemeye ihtiyaç duyar ve temelde olgunlaşmıştır.İşaret, metin alma, metin sınıflandırma, bilgi çıkarma ve diğer uygulamalarda başarıyla kullanılmış olmalarıdır. Sözdizimsel analiz, anlambilim Analiz teknolojisi, cümlelerin küresel bir analizini gerektirir Şu anda, derin dil analizi teknolojisi henüz tam olarak pratik bir düzeye ulaşmamıştır.

İfade yapısı sözdizimi analizinin araştırması Bağlamdan Bağımsız Dilbilgisine (CFG) dayanmaktadır. Bağlamdan bağımsız dilbilgisi, T'nin terminal semboller setini (yani kelime setini) temsil ettiği, N terminal olmayan semboller setini (yani dilbilgisi etiketleri ve konuşma parçası etiketleri setini) ve S sözdizimi ağacının kök düğümünü temsil ettiği bir dört demet olarak tanımlanabilir. Özel terminal olmayan semboller ve R, her gramer kuralının Ni®g olarak ifade edilebildiği bir gramer kuralları koleksiyonunu temsil eder, burada g, terminal olmayan semboller ve terminal semboller dizisini temsil eder (boş olarak izin verilir).

Farklı gramer kuralları kaynaklarına göre, sözdizimsel çözümleyicilerin yapım yöntemleri iki kategoriye ayrılabilir:

  • Manuel yazım kuralları

  • Verilerden otomatik olarak kurallar öğrenin

Manuel olarak yazılan kurallar, kural kümesinin boyutuyla sınırlıdır: Yazılan kuralların sayısı arttıkça, kurallar ve kurallar arasındaki çelişki yoğunlaşarak kural eklemeye devam etmeyi zorlaştırır.

Manuel yazmanın ölçeğiyle karşılaştırıldığında, otomatik öğrenme kuralları yöntemi, kısa geliştirme döngüsü ve güçlü sistem sağlamlığı nedeniyle sözdizimsel bir analiz haline geldi ve Pennsylvania Üniversitesi'nin çok dilli ağaç bankası gibi büyük ölçekli manuel veri etiketlemesi ile birleşti. Yaygın yöntem. Veriye dayalı yöntem, sözdizimsel analiz alanında çok sayıda istatistiksel yöntem uygulamasını teşvik etmiştir. İstatistiksel bilgileri sözdizimsel analize dahil etmek için, bağlamdan bağımsız dilbilgisinin, Olasılıksal Bağlamdan Bağımsız Dilbilgisine (PCFG) genişletilmesi gerekir, yani her dilbilgisi kuralı için bir olasılık değeri belirtilir.

Olasılıksal bağlamdan bağımsız dilbilgisi, hala dörtlü olarak ifade edilen olasılıksız bağlamdan bağımsız dilbilgisi ile aynıdır.Aradaki fark, olasılıklı bağlamdan bağımsız gramerdeki gramer kurallarının bir olasılık değerine sahip olması gerektiğidir. Olasılıklı bağlamdan bağımsız dilbilgisi elde etmenin en kolay yolu, kuralları doğrudan ağaç kümesinden okumak ve her kuralın olasılık değerini hesaplamak için Maksimum Olabilirlik Tahminini (MLE) kullanmaktır. Bu yöntem kullanılarak elde edilen dilbilgisi, basit bir olasılık bağlamından bağımsız dilbilgisi olarak adlandırılabilir. Kod çözme aşamasında, CKY 10 gibi kod çözme algoritmaları, optimum sözdizimi ağacını aramak için öğrenilmiş olasılık bağlamından bağımsız grameri kullanabilir.

Basit olasılık bağlamından bağımsız gramerlere dayalı sözdizimsel çözümleyicilerin uygulanması nispeten basit olsa da, bu tür çözümleyicilerin performansı tatmin edici değildir. Yetersiz performansın ana nedeni, bağlamdan bağımsız dilbilgisinin çok güçlü bağımsızlık varsayımları benimsemesidir: bir dilbilgisi kuralı seçimi, yalnızca kuralın sol tarafındaki terminal olmayan sembollerle ilgilidir ve herhangi bir bağlamsal bilgiyle hiçbir ilgisi yoktur. Dilbilgisindeki diğer bilgilerin eksikliği, kural seçimini netleştirmek için kullanılır. Bu nedenle, sonraki araştırma çalışmalarının başlangıç noktası, çoğunlukla bağlamdan bağımsız dilbilgisinde örtük bağımsızlık varsayımının nasıl zayıflatılacağına dayanmaktadır.

3. Özet

Kelime bölütleme, konuşma parçası etiketleme teknolojisi genellikle yalnızca cümlenin yerel kapsamını analiz etmeye ve işlemeye ihtiyaç duyar ve temelde olgunlaşmıştır.İşaret, bunların metin alma, metin sınıflandırması, bilgi çıkarma ve diğer uygulamalarda başarıyla kullanılmış olmasıdır. Sözdizimsel analiz, anlambilim Analiz teknolojisi, cümlelerin küresel bir analizini gerektirir Şu anda, derin dil analizi teknolojisi henüz tam olarak pratik bir düzeye ulaşmamıştır.

4. Metin sınıflandırması

Metin sınıflandırması, metin madenciliğinin temel görevidir ve her zaman akademi ve endüstriden büyük ilgi görmüştür. Metin Sınıflandırmanın görevi, belirli bir belgenin içeriğine veya konusuna göre önceden tanımlanmış kategori etiketlerini otomatik olarak atamaktır.

Belgeleri sınıflandırmak için genellikle iki adım gereklidir:

  • Metin gösterimi

  • Öğrenme sınıflandırması

Metin gösterimi, yapılandırılmamış metin içeriğinin, sınıflandırma modelinin girdisi olarak yapılandırılmış bir özellik vektör biçimine dönüştürülmesini ifade eder. Metne karşılık gelen özellik vektörü elde edildikten sonra, özellik vektörüne göre sınıflandırıcı veya kümeyi eğitmek için çeşitli sınıflandırma veya kümeleme modelleri kullanılabilir. Bu nedenle, ana araştırma görevleri ve bunlara karşılık gelen metin sınıflandırması veya kümelemenin temel bilimsel sorunları aşağıdaki gibidir:

1. Misyon

1.1 Metin özellik vektörünün oluşturulması

Metin özellik vektörünü oluşturmanın amacı, bilgisayarın işleyemediği yapılandırılmamış metin içeriğini bilgisayarın işleyebileceği özellik vektör formuna dönüştürmektir. Metin içeriği özellik vektörünün oluşturulması, metin sınıflandırma ve kümeleme performansını belirlemenin önemli bir parçasıdır. Metin içeriğine göre öznitelik vektörleri oluşturmak için önce bir öznitelik uzayı oluşturulması gerekir. Tipik temsilci, kelimelerin metin çantası (Kelime Çantası) modelidir Her belge bir özellik vektörü olarak temsil edilir ve özellik vektörünün her bir boyutu bir terimi temsil eder. Tüm terimlerden oluşan vektörün uzunluğu genellikle onbinlerce hatta milyonlarca mertebesine ulaşabilir.

Böylesine yüksek boyutlu bir özellik vektörü, çok fazla fazla gürültü içeriyorsa, sonraki sınıflandırma ve kümeleme modelinin hesaplama verimliliğini ve etkisini etkileyeceğini gösterir. Bu nedenle, genellikle özellik seçimi (Özellik Seçimi) ve özellik çıkarma (Özellik Çıkarma) gerçekleştirmemiz, bir özellik alanı oluşturmak için en ayırt edici ve ifade edici özellikleri seçmemiz ve özellik alanı boyutluluğunu azaltmamız gerekir; veya özellik dönüşümü (Özellik Dönüşümü) gerçekleştirmemiz gerekir, Yüksek boyutlu özellik vektörünü düşük boyutlu vektör uzayına eşleyin. Özellik seçimi, ayıklama veya dönüştürme, etkili metin özelliği vektörleri oluşturmada temel konulardır.

1.2 Bir sınıflandırma veya kümeleme modeli oluşturun

Metin özellik vektörünü elde ettikten sonra, bir sınıflandırma veya kümeleme modeli oluşturmalı ve sınıflandırma veya Kümeleme .

onların arasında, Sınıflandırma modeli En iyi sınıflandırma etkisini elde etmek için özellik vektörü ile sınıflandırma etiketi arasındaki ilişkiyi öğrenmeyi amaçlar; Kümeleme modeli Metinler arasındaki anlamsal benzerliği öznitelik vektörlerine göre hesaplamayı ve metin koleksiyonunu birkaç alt gruba bölmeyi amaçlamaktadır. Sınıflandırma ve kümeleme, makine öğrenimi alanındaki klasik araştırma problemleridir.

Genel olarak, metin sınıflandırması veya kümeleme problemlerini çözmek için doğrudan klasik modelleri veya algoritmaları kullanabiliriz. Örneğin, metin sınıflandırması için Naive Bayes, Decision Tree, k-NN, Logistic Regression, Support Vector Machine (SVM) gibi sınıflandırma modellerini kullanabiliriz. Metin kümeleme için, k-araçları, hiyerarşik kümeleme veya spektral kümeleme gibi kümeleme algoritmalarını kullanabiliriz. Bu model algoritmaları, farklı veri türlerine uygulanabilir ve metin verileriyle sınırlı değildir.

Bununla birlikte, metin sınıflandırma veya kümeleme, büyük miktarda etiketlenmemiş metin verilerinden tam olarak nasıl yararlanılacağı, metin odaklı bir çevrimiçi sınıflandırma veya kümeleme modelinin nasıl uygulanacağı, kısa metnin neden olduğu seyrek temsil sorunu ile nasıl başa çıkılacağı ve nasıl yapılacağı gibi birçok benzersiz sorunla karşı karşıya kalacaktır. Büyük ölçekli bir hiyerarşik sınıflandırma sisteminin sınıflandırma işlevini, dizilim bilgilerinin ve metnin sözdizimi ve anlamsal bilgilerinin tam olarak nasıl kullanılacağını, harici dil bilgi tabanının bilgilerinden tam olarak nasıl yararlanılacağını, vb. Anlayın. Bu sorunlar, metin sınıflandırma ve kümeleme modellerinin oluşturulmasında karşılaşılan temel konulardır.

2. Model

2.1 Metin sınıflandırma modeli

Son yıllarda, özellikle derin öğrenmenin gelişmesiyle birlikte metin sınıflandırma modelleri üzerine sayısız araştırma yapılmıştır, derin sinir ağı modelleri de metin sınıflandırma görevlerinde büyük ilerleme kaydetmiştir. Metin sınıflandırma modellerini aşağıdaki üç kategoriye ayırıyoruz:

  • Kural tabanlı sınıflandırma modeli

Kurala dayalı sınıflandırma modeli, veri kategorilerini yargılamak için bir dizi kural oluşturmayı amaçlamaktadır. Bu kurallar, eğitim örneklerinden otomatik olarak oluşturulabilir veya manuel olarak tanımlanabilir. Bir test örneği verildiğinde, belirli kuralların koşullarını karşılayıp karşılamadığına karar vererek kurala karşılık gelen kategoriye ait olup olmadığını belirleyebiliriz.

Tipik kural tabanlı sınıflandırma modelleri arasında Karar Ağacı, Rasgele Orman, RIPPER algoritması vb. Bulunur.

  • Makine öğrenimine dayalı sınıflandırma modeli

Tipik makine öğrenimi sınıflandırma modelleri arasında Naïve Bayes, doğrusal sınıflandırıcı (lojistik regresyon), Destek Vektör Makinesi (SVM), maksimum entropi sınıflandırıcı vb. Bulunur.

SVM, bu sınıflandırma modelleri arasında daha etkili ve yaygın olarak kullanılan sınıflandırma modelidir. Eşit olmayan örnek dağıtımı, fazlalık ve aşırı uyum gibi sorunların etkin bir şekilde üstesinden gelebilir ve farklı sınıflandırma görevleri ve senaryolarında yaygın olarak kullanılır. Çekirdek işlevini tanıtarak SVM, orijinal özellik uzayının doğrusal ayrılmazlık sorununu da çözebilir.

Yukarıdaki tek sınıflandırma modeline ek olarak, Boosting tarafından temsil edilen sınıflandırma modeli birleştirme yöntemi, birden çok zayıf sınıflandırma modelinin sınıflandırma yeteneklerini etkin bir şekilde entegre edebilir. Bu zayıf sınıflandırma modellerini aynı anda belirli bir eğitim veri seti üzerinde eğitmek ve ardından birden fazla sınıflandırıcının tahmin sonuçlarını oylama ve diğer mekanizmalar yoluyla sentezlemek, test örnekleri için daha doğru kategori etiketlerini tahmin edebilir.

  • Sinir ağı tabanlı yöntem

Yapay sinir ağları tarafından temsil edilen derin öğrenme teknolojisi, bilgisayarla görme, konuşma tanıma ve diğer alanlarda büyük başarı elde etti.Doğal dil işleme alanında, özellik öğrenimi ve doğal dil metin bilgisi üzerinde metin sınıflandırması gerçekleştirmek için sinir ağlarının kullanılması da bir metin sınıflandırması haline geldi. ileri teknoloji.

İleri sinir ağı: Çok Katmanlı Algılayıcı (MLP), tipik bir ileri sinir ağıdır. Otomatik olarak çok katmanlı bir sinir ağını öğrenebilir ve giriş özelliği vektörünü ilgili kategori etiketine eşleyebilir. Doğrusal olmayan bir aktivasyon katmanı getirerek model, doğrusal olmayan sınıflandırma ayırt edicilerini gerçekleştirebilir. Çok katmanlı algılayıcıları içeren metin sınıflandırma modellerinin tümü, kelime torbası model varsayımlarını kullanır, metin içindeki kelime sırasını ve yapılandırılmış bilgileri göz ardı eder. Çok katmanlı algılayıcı modeli için, yüksek kaliteli ilk özellik gösterimi, etkili bir sınıflandırma modeli için gerekli bir koşuldur.

Metnin kelime sırası bilgilerini daha tam olarak ele almak ve sinir ağlarının otomatik özellik öğrenmesinin özelliklerinden yararlanmak için, araştırmacılar daha sonra metin sınıflandırması için Evrişimli Sinir Ağı (CNN) ve Tekrarlayan Sinir Ağı'nı (RNN) önerdiler. CNN ve RNN'ye dayalı metin sınıflandırma modelinin girdisi, orijinal kelime dizisidir ve çıktı, metnin tüm kategorilerdeki olasılık dağılımıdır. Burada, kelime dizisindeki her bir terim, girdi olarak bir kelime vektörü şeklini alır.

Evrişimli Sinir Ağı (CNN): Evrişimli sinir ağı metin sınıflandırma modelinin ana fikri, kelime vektörleri biçiminde metin girdisi üzerinde evrişim işlemleri gerçekleştirmektir. CNN, orijinal olarak görüntü verilerini işlemek için kullanıldı. Görüntü işlemede evrişim için iki boyutlu bir alan seçmekten farklı olarak, sabit bir kayan pencerede terimlere göre metin yönelimli bir evrişim işlemi gerçekleştirilir. Evrişimli katman, havuzlama katmanı ve doğrusal olmayan dönüşüm katmanından sonra CNN, sınıflandırma öğrenimi için metin özellik vektörleri elde edebilir. CNN'nin avantajı, metin özellik vektörlerinin hesaplanması sürecinde yararlı kelime sırası bilgilerini etkili bir şekilde muhafaza etmektir. CNN metin sınıflandırma modelinde, karakter düzeyinde CNN'ye dayalı metin sınıflandırma modeli, kelime vektörüne kelime konumu bilgisi ekleyen birçok geliştirme vardır.

Tekrarlayan Sinir Ağı (RNN): Döngüsel sinir ağı, metni bir karakter veya kelime dizisi olarak kullanır {0,,}. İlk anda girilen karakterler veya kelimeler için, uygun şekilde yeni bir düşük boyutlu özellik vektörleri üretilecektir. Şekil 3'te gösterildiği gibi, s'nin değeri her ikisinden de etkilenecektir ve önceki zamanda s 1 özellik vektörü, 0'dan metin dizisine kadar anlamsal bilgiyi içerir. Bu nedenle, metin sınıflandırma öğrenimi için metin dizisinin özellik vektörü olarak s kullanabiliriz. CNN ile karşılaştırıldığında, RNN, metnin kelime sırası bilgisini daha doğal bir şekilde değerlendirebilir ve son yıllarda metin gösterimi için en popüler çözümlerden biridir.

RNN'nin metin dizileri için anlamsal temsil yeteneklerini geliştirmek için, araştırmacılar birçok genişletilmiş model önerdiler. Örneğin, uzun-kısa süreli bellek ağı (LSTM), metin dizisindeki uzun menzilli bağımlılığı daha iyi idare edebilen ve tekrarlayan sinir ağının gradyanının kaybolması sorununun üstesinden gelebilen bir bellek birimi yapısı önerir. Şekil 4, giriş ve çıkışın ve bellek hücresinin güncellenip güncellenmediğini kontrol etmek için üç geçit (giriş geçidi, çıkış geçidi, unutma geçidi) sunan LSTM biriminin şematik bir diyagramıdır.

RNN'nin metin dizileri için anlamsal temsil yeteneğini geliştirmek için bir başka önemli çözüm, modelin belirli görev gereksinimlerine göre metin dizisindeki kelimelere farklı dikkat vermesini sağlayan seçici bir dikkat mekanizması (Seçici Dikkat) sunmaktır.

3. Uygulama

Metin sınıflandırma teknolojisi, akıllı bilgi işleme hizmetlerinde geniş bir uygulama yelpazesine sahiptir. Örneğin, çoğu çevrimiçi haber portalları (Sina, Sohu, Tencent vb. Gibi) her gün çok sayıda haber makalesi üretir.Bu haberlerin manuel olarak sıralanması çok zaman alıcı ve emek yoğun ise ve bu haberlerin otomatik sınıflandırılması haber olarak sınıflandırılacaktır. Ve takip eden kişiselleştirilmiş öneriler vb. Çok yardımcı olur. İnternet ayrıca web sayfaları, makaleler, patentler ve e-kitaplar gibi çok sayıda metin verisine sahiptir.Metin içeriğinin sınıflandırılması, bu içeriğin hızlı taranması ve geri alınması için önemli bir temel oluşturur. Ek olarak, fikir madenciliği, istenmeyen posta tespiti, vb. Gibi birçok doğal dil analizi görevi, metin sınıflandırması veya kümeleme tekniklerinin özel uygulamaları olarak da kabul edilebilir.

Belgeleri sınıflandırmak için genellikle iki adım gerekir: (1) metin gösterimi ve (2) öğrenme. Metin gösterimi, yapılandırılmamış metin içeriğinin, sınıflandırma modelinin girdisi olarak yapılandırılmış bir özellik vektör biçimine dönüştürülmesini ifade eder. Metne karşılık gelen öznitelik vektörü elde edildikten sonra, sınıflandırıcıyı öznitelik vektörüne göre eğitmek için çeşitli sınıflandırma veya kümeleme modelleri kullanılabilir.

V. Bilgi Erişimi

Bilgi Erişimi (Information Retrieval, IR), bilgilerin belirli bir şekilde organize edilmesi ve kullanıcıların bilgi ihtiyaçlarını karşılamak için bilgi arama sürecini ve teknolojisini ifade eder. 1951'de, Calvin Mooers ilk olarak "bilgi erişim" kavramını önerdi ve bilgi erişiminin ana görevini verdi: bilgi ihtiyaçlarını bir belge kaynakları listesine dönüştürmek için potansiyel bilgi kullanıcılarına yardımcı olmak ve bu belgeler yararlı bilgiler içerir. bilgi. Bilgiye erişim bilimi, bilgisayarlar doğduktan ve yaygın olarak kullanıldıktan sonra gerçekten büyük ilerleme kaydetti.Belge sayısallaştırma, bilginin büyük ölçekli paylaşımını ve korunmasını gerçeğe dönüştürdü ve erişim, bilgi yönetimi ve uygulamasında vazgeçilmez bir bağlantı haline geldi.

İnternetin ortaya çıkışı ve bilgisayar donanımının iyileştirilmesi, insanların bilgiyi saklama ve işleme becerilerini büyük ölçüde geliştirdi, böylece bilgi erişim araştırmalarının ilerlemesini hızlandırdı ve araştırma nesnelerini kitaplardan ve ticari verilerden insanların yaşamlarının tüm yönlerine genişletti.

2016 5.66

1.

1.1

1.2

1.3

1.4

2.

, ile .

3.

Semantic Search Web

.

Information Extraction/ Örneğin:

1.

ile .

onların arasında F1 90%

2.

mention 1 2 1 2

ACE

ile .

onların arasında CEOCTO

3.

1893 { 1893 }

ile

{ }{,}

4.

ile

// CEO ·

.

Question Answering, QA

1950 Alan M. TuringMindComputing Machinery and Intelligence Imitation GameTuring Test

2011 Etzioni Nature Search Needs a Shake-Up 20 IBM Watson Jeopardy Watson

SiriGoogle Now Cortana

1.

1.1

Named Entity RecognitionTerm ExtractionLexical Answer Type Recognition Entity DisambiguationKeyword Weight EstimationFocused Word Detection

1.2

1.3

?

2.

  • ;

2.1

1999 TREC QA TREC QA WEB

ile .

  • Language Computer Corporation LCC Logic FormLCC TREC QA Track 2001 ~ 2004 2011 IBM Watson Jeopardy!

    Watson

  • 90 IBM

  • 2

  • DeepQA

Watson

2.2

Web2.0 User-Generated Content, UGC Yahoo! Answers 2010 Yahoo! Answers 10 2011 3

q0,SQ,A = {(q1 , a1 ), (q2 , a2 )}, , (qn, an)}}SQ,Aq0(qi , ai )

IBM

2.3

Knowledge Graph

DBpediaFreebaseYAGO --SQLSPARQL

DCS-Tree Category Compositional Grammar, CCG Dependency-based Compositional Semantics, DCS

.

1.

machine translationMTsource languagetarget language

+

60 44 53

2.

WMT 2006 2016 BLEU 0.3 0.4BLEU 0.4

CWMT CWMT

.

2013 3000 Summly

DUC TAC ISI NeATS NewsBlaster NewsInEssence

1.

extractive summarization abstractive summarization

1.1

- TF-IDF

bigram

HMMCRFStructural SVM

1.2

2.

2015 CCF NLPCC

(TRS)

.

1.

1.1

1.1

2.

cs224d

3.

ACL 2015:

ACL 2016:

EMNLP 2015:

4.

https://github.com/carpedm20/lstm-char-cnn-tensorflow

https://github.com/zoneplus/DL4NLP

https://github.com/HIT-SCIR/scir-training-day

.

https://www.microsoft.com/en-us/research/wp-content/uploads/2017/01/cl-05.gao_.pdf

Redaksiyon: Min Li

Editör: Huang Jiyan

yazar hakkında

-THU

Özel | Yapay zeka alanında 66 seçkin bilim insanını araştırırken bulduk ki ...
önceki
İlk profesyonel sözleşmesini 16 yıl önce imzaladı ve daha sonra Barcelona'da hayatının galibi oldu!
Sonraki
Anakara film pazarı yükseliyor, "Venom" Anakara ilk haftada 770 milyon çekiyor
Özel | 2017 Yunqi Konferansı'nda yayınlanan veri bilimi topluluğu hakkında ne güzel haberler var?
Hedeflenen yoksulluğun azaltılmasını sağlamak için büyük veri nasıl kullanılır?
inci! Pato göndermeye devam etti: gerçek geç kalacak, ama asla olmayacak!
Binlerce oyunculu oyun takımı ortaya çıktı ve 5 yıl içinde oyunlar ve hayat birleşmeye başlayacak
Büyük veri, otel endüstrisinin en yoğun seyahat dönemiyle başa çıkmasına nasıl yardımcı olabilir?
Bilgisayar fidye yazılımı dünya çapında yaygınlaşıyor ve 90 ülke etkileniyor. Nasıl önlenir?
Milli futbol takımının kaptanı olmaya layık olmadığını söylemeye kim cüret ediyor! 38 yaşındaki Zheng Zhichuang 1 mucizesini geride bırakan 3 kilit cezanın kurtarıcısı
R ile belirteç oluşturmayı (kod, öğrenme materyalleri, derlemeyle) uygulamayı öğretin
Avrupa futbolunda garip bir hata daha var! 32 metrelik bir serbest vuruş geçti ve kaleci bunun taban çizgisinin dışında olduğunu düşündü
500 kilometre menzile sahip bu saf elektrikli otomobilin fiyatı sadece 100.000'in biraz üzerinde
Şok edici! WeChat'teki siyah endüstri zincirinin gizemini çözmek, platform sağlığının istilasını hızlandırıyor
To Top