g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Makine öğrenmiyor: derin öğrenmeye dayalı kişiselleştirilmiş ürün incelemesi etiketi çıkarma

Makine öğrenimi derin öğrenme kuru depo www.jqbxx.com

Ürün incelemesi etiketi çıkarma, ürün incelemelerinde ilginç bir sorudur. Yorum etiketi çıkarmanın ana görevi, kullanıcıların yorum yaptığı ürün özelliklerinin ve özniteliklerinin yorumlarından öğrenmek ve kısa ve etkili bilgiler çıkarmaktır.

Anahtar Kelime Çıkarma ve Yorum Etiketi Çıkarma

Ürün etiketi çıkarma ve anahtar kelime çıkarma aynı NLP problemi değildir. Anahtar kelime çıkarma, makalenin veya yorumun kendisine daha çok odaklanır. Anahtar sözcükler tüm metnin temasına odaklanır. Deneyler, TextRank, TFIDF vb. Gibi geleneksel yöntemlerin çıkarıldığını kanıtlar. Anahtar kelimeler ve yorumlar çok farklı.

Şu anda, çıkarma işleminin iki versiyonunu denedik: V1.0 temelde derin öğrenme TextCNN sınıflandırma modeline dayalıdır ve V2.0, temelde yarı denetimli kişiselleştirilmiş etiket çıkarma olarak tanımladığımız yapay güçlü kural + TextCNN modelidir. Hahaha, isim daha aptalca ...

Etiket çıkarma, çoklu sınıflandırma problemi olarak anlaşılabilir. İlk önce şu anda en popüler derin öğrenme modeli olan FastText veya TextCNN'yi düşündük.Sınıflandırma doğruluğu yüksektir ve hız garanti edilmelidir. Bununla birlikte, bu süreçte çok sayıda numuneye ihtiyaç duyulmaktadır ve bunları kendi başlarına etiketlemek gerçekçi görünmemektedir. Öncelikle arkadaşların yorum verilerini düşündük ve arkadaşlarımızın katkı sağladığı ek açıklama verileri için teşekkür ederiz. Yaklaşık 700 w etiketlenmiş yorum verisini taradık ve gereksinimlerimizi karşılamayan verilerin bir kısmını kaldırdık. Ayırdıktan sonra, çoklu sınıflandırma işlemi için TextCNN modelini (TextCNN sonraki makalede tanıtılacaktır) kullanıyoruz.

Örnek muhtemelen: "Ekspres teslimat hızlı ve tatmin edici. Klima atmosferik ve güzel görünüyor, çok beğendim ve eşim çok iyi olduğunu düşünüyor. Kurulum yeri de çok uygun ve dekorasyon tarzı ile çok iyi görünüyor. Kurulumdan sonra, Temizledim ve bir başparmak gösterdim! "İlgili etiket: güzel ve güzel.

Genel olarak konuşursak, doğruluk ve etki iyidir, ancak arkadaşlar ve iş adamları da kaba davranır ve kötü eleştiriler sağlamaz. Bu arada, bir şey satın aldığınızda ve incelemeleri okuduğunuzda, daha çok olumsuz ya da olumlu eleştiriler görüyor musunuz?

Her neyse, böyle bir üçüncü sınıf kod çiftçisinin kötü yorumları okumasını bekliyorum, ha ha ...

Ve sonuçta başkalarının evlerinin ürün etiketleri kendi ürünleri için ... Kendi SKU ürünlerimiz daha akıllı cihazlara ve elektronik ürünlere sahip ve bunları kullanmak mantıklı görünmüyor. Bunlara dayanarak, kendi kişiselleştirilmiş etiketlerimizi tanımlamamız gerekiyor. Kendi kişiselleştirilmiş etiket çıkarma sürecimizden bahsedelim:

1. Konuşma + kuralı parçası: Bu, uygulaması daha kolay olan en basit yöntemdir.Örneğin, konuşmanın özne kısmı genellikle bir isim veya isim tümceciktir ve değiştirici genellikle bir sıfat veya ulaçtır. Belirlenen kurallara göre, cümleyi bölümlere ayırabilir, konuşma kısmını işaretleyebilir ve ardından isimleri ve sıfat ulaçlarını çıkarabiliriz.Burada doğal bir dil işleme paketi olan HanLp kullanıyoruz. Başlangıçta CoreNLP'yi kullanmak istiyorduk, ancak işlem hızı biraz yavaş. . Muhtemelen işlem akışı ilk önce kelime segmentasyonudur - > Konuşma etiketlemesinin bir parçası-- > Etiketleri çıkarmak için kuralları kullanın.

Bu yöntemin avantajı basit ve hızlıdır, ancak dezavantajı açıktır - doğruluk yüksek değildir. Çıkarılan isimler ve sıfatlar birbirleriyle ilişkili olmayabileceğinden, konuşma parçası etiketlemesinin yanlış olması (konuşma parçası etiketlemesi% 100 doğru olamaz) ve yanlış bir şekilde hatırlanması da mümkündür. Örneğin, bu yöntemi kullanarak "Xiaomi yakında açılacak", "Xiaomi" (isim) ve "yakında" (sıfat) anlamına gelecektir, ki bu açıkça yanlıştır. Aşağıdaki şekilde gösterildiği gibi, "Xiaomi" ve "Yakında" nın birbirleriyle hiçbir ilgisi yoktur.

2. Bağımlılık + konuşma bölümü + kuralları: Yukarıdaki yöntemlerin sorunları göz önünde bulundurulduğunda, cümle bileşenleri arasındaki ilişkiyi doğrulamak için sözdizimsel analizi uygulamak doğaldır. Yaklaşık yaklaşım, cümle bağımlılığını yukarıdakilere dayanarak analiz etmektir. İhtiyacımız olan etiket türünün muhtemelen şöyle olduğunu bulduk: iyi görünüm, iyi kalite, mükemmel işçilik, vb. Bu tür kısa etiket cümlelerinin tümü özne-fiil-nesne yapılarıdır.

Başka bir örnek: Xiaomi telefonun görünümü hala çok kızgın görünüyor

Kurallara göre, ana isim "görünüm" olarak çıkarılır ve sıfat "atmosfer" dir. "Görünüşler", "durgun" ve "çok", ADV'yi (eyalet-çin ilişkisi), "görünüm" ve "değiştirilmiş" atmosfer "dir. "Atmosfer" SBV'yi (özne-fiil ilişkisi) oluşturur Açıkçası, sözdizimsel bileşen doğrulaması sorun değil.Son yorum etiketi: görünüm + atmosfer.

3. Etiket normalleştirme

Cümle etiketlerini çıkarma sürecinde, kaliteli, iyi kalite, iyi şeyler, mükemmel işçilik, mükemmel işçilik, iyi işçilik, işçilik vb. Gibi birçok cümleyi çıkarmak için yukarıdaki kuralları kullanabiliriz. Buna benzer bir dizi söz, Şu anda, "iyi kalite, iyi kalite, iyi şeyler" gibi değerlendirme kelimelerini / görüş kelimelerini normalleştirmek gerekebilir, "iyi kalite", "mükemmel işçilik, mükemmel işçilik, işçilik" etiketine göre normalleştirilir. Evet, işçilik tamam, mükemmel işçiliğe "normalleştirildi", sonra nasıl normalleştirilecek? Şu anda, 21. yüzyılda doğal dil işleme dünyasındaki en büyük icatlardan biri olan word2vec'i ve aday etiketler için DBSCAN + Word2Vec'i kullanmamız gerekiyor Hiyerarşik kümeleme yapın ve ardından her kategori için en iyi 20 etiketi manuel olarak gözden geçirin Spesifik süreçten bahsedilmemiştir ve ilgilenenler aşağıda tartışmak için bir mesaj bırakabilirler.

4. Denetimli öğrenime geri dönün

Tamam mıyız? Yukarıdaki işlem boyunca işlendikten sonra, etiket çıkarmanın doğruluğu temelde çok yüksektir, ancak geri çağırma hala nispeten zayıftır. Böyle bir sorunla nasıl başa çıkılır? Yukarıdaki yöntemlerin temelde güçlü kurallara sahip manuel tanım süreçleri olduğunu hatırlayabiliriz. Denetlenen yorum etiketine dönmek için bu işlenmiş verileri kullanabiliriz: 1. Etiketleri çıkarmak ve bir dizi örnek tanımlamak için güçlü kurallar kullanın; 2. Bu örnekler üzerinde başka bir TextCNN modeli eğitimi gerçekleştirin; 3. Yapmak için eğitimli TextCNN modelini kullanın Sınıflandırma işlemi. Yukarıdaki yöntemlerden sonra çok iyi sonuçlar alınmıştır.