Makine öğrenmiyor: derin öğrenmeye dayalı kişiselleştirilmiş ürün incelemesi etiketi çıkarma

Makine öğrenimi derin öğrenme kuru depo www.jqbxx.com

Ürün incelemesi etiketi çıkarma, ürün incelemelerinde ilginç bir sorudur. Yorum etiketi çıkarmanın ana görevi, kullanıcıların yorum yaptığı ürün özelliklerinin ve özniteliklerinin yorumlarından öğrenmek ve kısa ve etkili bilgiler çıkarmaktır.

Anahtar Kelime Çıkarma ve Yorum Etiketi Çıkarma

Ürün etiketi çıkarma ve anahtar kelime çıkarma aynı NLP problemi değildir. Anahtar kelime çıkarma, makalenin veya yorumun kendisine daha çok odaklanır. Anahtar sözcükler tüm metnin temasına odaklanır. Deneyler, TextRank, TFIDF vb. Gibi geleneksel yöntemlerin çıkarıldığını kanıtlar. Anahtar kelimeler ve yorumlar çok farklı.

Şu anda, çıkarma işleminin iki versiyonunu denedik: V1.0 temelde derin öğrenme TextCNN sınıflandırma modeline dayalıdır ve V2.0, temelde yarı denetimli kişiselleştirilmiş etiket çıkarma olarak tanımladığımız yapay güçlü kural + TextCNN modelidir. Hahaha, isim daha aptalca ...

Etiket çıkarma, çoklu sınıflandırma problemi olarak anlaşılabilir. İlk önce şu anda en popüler derin öğrenme modeli olan FastText veya TextCNN'yi düşündük.Sınıflandırma doğruluğu yüksektir ve hız garanti edilmelidir. Bununla birlikte, bu süreçte çok sayıda numuneye ihtiyaç duyulmaktadır ve bunları kendi başlarına etiketlemek gerçekçi görünmemektedir. Öncelikle arkadaşların yorum verilerini düşündük ve arkadaşlarımızın katkı sağladığı ek açıklama verileri için teşekkür ederiz. Yaklaşık 700 w etiketlenmiş yorum verisini taradık ve gereksinimlerimizi karşılamayan verilerin bir kısmını kaldırdık. Ayırdıktan sonra, çoklu sınıflandırma işlemi için TextCNN modelini (TextCNN sonraki makalede tanıtılacaktır) kullanıyoruz.

Örnek muhtemelen: "Ekspres teslimat hızlı ve tatmin edici. Klima atmosferik ve güzel görünüyor, çok beğendim ve eşim çok iyi olduğunu düşünüyor. Kurulum yeri de çok uygun ve dekorasyon tarzı ile çok iyi görünüyor. Kurulumdan sonra, Temizledim ve bir başparmak gösterdim! "İlgili etiket: güzel ve güzel.

Genel olarak konuşursak, doğruluk ve etki iyidir, ancak arkadaşlar ve iş adamları da kaba davranır ve kötü eleştiriler sağlamaz. Bu arada, bir şey satın aldığınızda ve incelemeleri okuduğunuzda, daha çok olumsuz ya da olumlu eleştiriler görüyor musunuz?

Her neyse, böyle bir üçüncü sınıf kod çiftçisinin kötü yorumları okumasını bekliyorum, ha ha ...

Ve sonuçta başkalarının evlerinin ürün etiketleri kendi ürünleri için ... Kendi SKU ürünlerimiz daha akıllı cihazlara ve elektronik ürünlere sahip ve bunları kullanmak mantıklı görünmüyor. Bunlara dayanarak, kendi kişiselleştirilmiş etiketlerimizi tanımlamamız gerekiyor. Kendi kişiselleştirilmiş etiket çıkarma sürecimizden bahsedelim:

1. Konuşma + kuralı parçası: Bu, uygulaması daha kolay olan en basit yöntemdir.Örneğin, konuşmanın özne kısmı genellikle bir isim veya isim tümceciktir ve değiştirici genellikle bir sıfat veya ulaçtır. Belirlenen kurallara göre, cümleyi bölümlere ayırabilir, konuşma kısmını işaretleyebilir ve ardından isimleri ve sıfat ulaçlarını çıkarabiliriz.Burada doğal bir dil işleme paketi olan HanLp kullanıyoruz. Başlangıçta CoreNLP'yi kullanmak istiyorduk, ancak işlem hızı biraz yavaş. . Muhtemelen işlem akışı ilk önce kelime segmentasyonudur - > Konuşma etiketlemesinin bir parçası-- > Etiketleri çıkarmak için kuralları kullanın.

Bu yöntemin avantajı basit ve hızlıdır, ancak dezavantajı açıktır - doğruluk yüksek değildir. Çıkarılan isimler ve sıfatlar birbirleriyle ilişkili olmayabileceğinden, konuşma parçası etiketlemesinin yanlış olması (konuşma parçası etiketlemesi% 100 doğru olamaz) ve yanlış bir şekilde hatırlanması da mümkündür. Örneğin, bu yöntemi kullanarak "Xiaomi yakında açılacak", "Xiaomi" (isim) ve "yakında" (sıfat) anlamına gelecektir, ki bu açıkça yanlıştır. Aşağıdaki şekilde gösterildiği gibi, "Xiaomi" ve "Yakında" nın birbirleriyle hiçbir ilgisi yoktur.

2. Bağımlılık + konuşma bölümü + kuralları: Yukarıdaki yöntemlerin sorunları göz önünde bulundurulduğunda, cümle bileşenleri arasındaki ilişkiyi doğrulamak için sözdizimsel analizi uygulamak doğaldır. Yaklaşık yaklaşım, cümle bağımlılığını yukarıdakilere dayanarak analiz etmektir. İhtiyacımız olan etiket türünün muhtemelen şöyle olduğunu bulduk: iyi görünüm, iyi kalite, mükemmel işçilik, vb. Bu tür kısa etiket cümlelerinin tümü özne-fiil-nesne yapılarıdır.

Başka bir örnek: Xiaomi telefonun görünümü hala çok kızgın görünüyor

Kurallara göre, ana isim "görünüm" olarak çıkarılır ve sıfat "atmosfer" dir. "Görünüşler", "durgun" ve "çok", ADV'yi (eyalet-çin ilişkisi), "görünüm" ve "değiştirilmiş" atmosfer "dir. "Atmosfer" SBV'yi (özne-fiil ilişkisi) oluşturur Açıkçası, sözdizimsel bileşen doğrulaması sorun değil.Son yorum etiketi: görünüm + atmosfer.

3. Etiket normalleştirme

Cümle etiketlerini çıkarma sürecinde, kaliteli, iyi kalite, iyi şeyler, mükemmel işçilik, mükemmel işçilik, iyi işçilik, işçilik vb. Gibi birçok cümleyi çıkarmak için yukarıdaki kuralları kullanabiliriz. Buna benzer bir dizi söz, Şu anda, "iyi kalite, iyi kalite, iyi şeyler" gibi değerlendirme kelimelerini / görüş kelimelerini normalleştirmek gerekebilir, "iyi kalite", "mükemmel işçilik, mükemmel işçilik, işçilik" etiketine göre normalleştirilir. Evet, işçilik tamam, mükemmel işçiliğe "normalleştirildi", sonra nasıl normalleştirilecek? Şu anda, 21. yüzyılda doğal dil işleme dünyasındaki en büyük icatlardan biri olan word2vec'i ve aday etiketler için DBSCAN + Word2Vec'i kullanmamız gerekiyor Hiyerarşik kümeleme yapın ve ardından her kategori için en iyi 20 etiketi manuel olarak gözden geçirin Spesifik süreçten bahsedilmemiştir ve ilgilenenler aşağıda tartışmak için bir mesaj bırakabilirler.

4. Denetimli öğrenime geri dönün

Tamam mıyız? Yukarıdaki işlem boyunca işlendikten sonra, etiket çıkarmanın doğruluğu temelde çok yüksektir, ancak geri çağırma hala nispeten zayıftır. Böyle bir sorunla nasıl başa çıkılır? Yukarıdaki yöntemlerin temelde güçlü kurallara sahip manuel tanım süreçleri olduğunu hatırlayabiliriz. Denetlenen yorum etiketine dönmek için bu işlenmiş verileri kullanabiliriz: 1. Etiketleri çıkarmak ve bir dizi örnek tanımlamak için güçlü kurallar kullanın; 2. Bu örnekler üzerinde başka bir TextCNN modeli eğitimi gerçekleştirin; 3. Yapmak için eğitimli TextCNN modelini kullanın Sınıflandırma işlemi. Yukarıdaki yöntemlerden sonra çok iyi sonuçlar alınmıştır.

Makine öğrenimi derin öğrenme kuru depo www.jqbxx.com

68.000'e satılan 3D baskılı elektrikli arabalar: sıradan arabalardan 4 kat daha güçlü, sadece 450kg
önceki
Üreticiler madencilik madenciliğine dayanamaz: grafik kartı madenciliği garanti edilmez!
Sonraki
Paranızın tam karşılığı olan MSI Z170 Krait GAMING anakartın sınırlı bir zaman artışı var
Alüminyum levha + cam, istifleme de moda! Jinhetian 21+, V10'un yandan kasa ekranını öngörüyor
Makineler öğrenmiyor: Yapay zekayı çıplak kızları bikiniyle otomatik olarak "giydirmek" için kullanın ve annem artık benim için endişelenmiyor
"Tembel insanların" favorisi, Korbel Smart Tek Bardak İçme Makinesi CBK02S'nin kullanım ekranı
Makine öğrenmiyor: e-ticaret platformu öneri sistemi mimarisinin evrimi
Kullanışlı ve daha akıllı Kobel Smart Tek Bardak İçme Makinesi CBK02S kutudan çıktı
Makineler öğrenmez: OPPO reklamcılık iş uygulamalarında TO tahmin modeli
Kurulum, yapı taşları kadar basittir! Size uygun bir bilgisayar nasıl yapılır?
Samsung, Note8 "takas" politikasını tanıttı, ancak bu fiyat ...
Bellek göndermek daha pratik, MSI Z170 Krait anakartlar su soğutma gönderiyor
Ben bilgisayar gazetesi bir ödül aldım, katılmaya geldim
Double Eleven'dan sonra donanım fiyatları çok arttı! 4,500 yuan evde oyun yapılandırma ekranı
To Top