Vipshop Kamuoyu İzleme Sistemi

Arka plan ve mevcut durum

Çin'de hızla gelişen büyük ölçekli e-ticaret şirketlerinden biri olan Vipshop, Weibo, WeChat, Tieba ve uygulama pazarı gibi büyük çevrimiçi kanallarda Vipshop hakkında çok sayıda kamuoyu bilgisine sahiptir. üretmek. Ve bu kamuoyu bilgileri genellikle şirkete yönelik çeşitli öneriler, kullanıcı sesleri ve deneyim geri bildirimleri gibi yararlı bilgiler içerir. Bu nedenle, kullanıcıların yorumlarını ve geri bildirimlerini toplamak ve analiz etmek, işletmelerin kullanıcıların seslerini ve ihtiyaçlarını anlamalarına, kullanıcı deneyimini iyileştirmelerine ve operasyonel verimliliği artırmalarına büyük yardımcı olacaktır.Ayrıca ürün gereksinimleri için de önemli bir referanstır. Bununla birlikte, mevcut kullanıcı geri bildirimi, yorum toplama ve yorum analizi aşağıdaki ana problemlere sahiptir:

  • Çeşitli kanallardan gelen kullanıcı geri bildirimleri ve yorumları dağınık ve önemsizdir, bu da toplama için elverişli değildir Yorumların manuel olarak taranması yavaş ve maliyetlidir;
  • Yorumların sayısı büyük ve yapılandırılmamış, sınıflandırma ve anlamsal analiz manuel verimsizliğe dayanıyor;
  • Erken uyarının hızı yavaştır, bir sorun varsa zamanında erken uyarı olamaz, keşfedildiğinde kayıp neden olmuştur;
  • Çevrimiçi kamuoyu, zayıf okunabilirlik ve zayıf kullanıcı deneyimi için uzun vadeli etkili bir izleme oluşturulamıyor.

İnternet kamuoyu izleme sistemi yukarıdaki sorunları iyi bir şekilde çözebilir.İnternette ilgili bilgileri otomatik olarak toplamak ve işlemek için tarayıcıları, arama motorlarını, metin madenciliğini ve diğer teknolojileri, akıllı küme sınıflandırmasını, istatistiksel analizi vb. Kullanır. Çevrimiçi kamuoyu gözetimi ve yönetimi ihtiyaçları ile ilgili olarak nihai kamuoyu analizi raporu, kamuoyu uyarısı ve diğer bilgiler, ilgili personele kamuoyu dinamiklerini kapsamlı bir şekilde kavramasını sağlamak, kullanıcıların sesini anlamak, kılavuz ve politikaları ayarlamak ve formüle etmek ve analiz temeli sağlamak için zamanında oluşturulur.

Genel Tanıtım

Şu anda, Tencent Penguin News, Baidu Public Opinion ve Qimai Data gibi kamuoyu izleme sistemleri bulunmaktadır. Bu sistemler, piyasadaki ana uygulama uygulamaları için dağıtılmış tarayıcılar aracılığıyla büyük uygulama pazarlarını, ana forumları, Weibo'yu vb. Yakalayabilir. Kullanıcı yorumlarını kanalize edin ve taranan bilgilerin çıktılarını özetleyin, akıllıca sınıflandırın, raporlayın vb. Bu kamuoyu analiz sistemleri, operasyonları ve kullanıcılardan ürün itibarlarının toplanmasını basitleştirebilir ve profesyonel operasyon kalite analizi sağlarken proje insan gücünden tasarruf edebilir. Piyasadaki bu sistemler bize bazı analiz ve referans verileri sağlayabilseler de, sınırlı veri kaynakları gibi belirli sınırlamaları da vardır (genellikle yalnızca Weibo, uygulama uygulama pazarı, forumlar ve diğer kanallarda kullanıcı yorumu bilgileri sağlar), Özel gereksinimlere ulaşmak için, zengin veri kaynaklarına ve çeşitli özelleştirilmiş işlevsel gereksinimlere ulaşmak için Vipshop'a ait bir kamuoyu izleme sistemi geliştirmek çok gereklidir.

Mevcut Vipshop kamuoyu sistemi yorum verisi abonelik kaynakları temel olarak büyük Uygulama pazarının kullanıcı incelemelerini, WeChat herkese açık hesap yorumlarını ve Vipshop dahili müşteri hizmetleri mesajlarını içerir. Bu üç veri parçasını elde ettikten sonra, Şekil 1'de gösterildiği gibi daha sonraki metin madenciliği analizi için kalıcı olarak depolanacaktır.

Şekil 1: Veri kaynağı

Sistem, elde edilen yorum bilgileri üzerinde duygu yargısı, metin bölümleme, yorum sınıflandırma ve kelime frekansı analizi gibi hesaplama ve analiz çalışmalarını gerçekleştirecektir. Kamuoyu sisteminin genel mimari tasarımı Şekil 2'de gösterilmektedir. Kamuoyu toplama, kamuoyu analizi, kamuoyu uygulaması Üç modül. Şekil 3, başlattığımız kamuoyu sistemidir Bu makale, kamuoyu analizi modülündeki birkaç önemli işlevsel modüle odaklanacaktır.

Şekil 2: Kamuoyu sisteminin ana modülleri

Şekil 3: Sistem ekranı

sistem yapısı

Vipshopun kamuoyu sisteminin ana modülleri yukarıda kısaca tanıtıldı ve bu modüller etrafında tüm sistemi hayata geçirdik. Temel yapısı aşağıda ayrıntılı olarak açıklanacak olan Şekil 4'te gösterilmektedir. Duygu analizi, metin bölümleme, kelime frekans analizi, sınıflandırma analizi Dört çekirdek sistem işlev modülünün gerçekleştirilmesi.

Şekil 4: Sistem mimarisi şeması

  • duygu analizi

Geleneksel metin duyarlılığı sınıflandırması, genellikle, Şekil 5'te gösterildiği gibi, insan hafızasının ve düşünme yargısının basit bir simülasyonu olan duygu sözlüğüne dayanır. Öncelikle, olumlu, olumsuz ve olumsuz sözcükler gibi bazı temel bütün sözcükleri ezberlemeyi öğrenin.Bu temel sözcükler, insanların beyinlerinde temel bir külliyat oluşturur. Daha sonra, ezberlenmiş sözcük dağarcığında karşılık gelen sözcükler olup olmadığını görmek için girdi cümlesini böleriz ve son olarak duyguyu bu belleklerdeki sözcük kategorilerine göre değerlendiririz.

Şekil 5: Geleneksel duyarlılık analizi

Yukarıdaki fikirlere dayanarak, kendi sözlük tabanlı duygu analizi modülümüzü esas olarak aşağıdaki gibi tasarladık:

1. Duygu sözlüğü tasarımı

Geleneksel yöntemden farklı olarak, duygu sözlüğümüz üç bölüme ayrılmıştır: Şekil 6'da gösterildiği gibi, olumlu olumlu duyarlılık bütünü, olumsuz olumsuz duygu külliyatı ve müdahale külliyatı. Daha eksiksiz bir duygusal sözlük elde etmek için, İnternet'ten birkaç duygusal sözlük topladık ve tekilleştirme entegrasyonu ve ayarlama yaptık. Toplanan sözlükler basitçe entegre edilmez, ancak sözlükler mümkün olan en yüksek doğruluğu elde etmek için hedeflenen bir şekilde kaldırılır ve güncellenir. Örneğin, e-ticaret sektörümüzle ilgili bazı endüstri sözcükleri doğruluğu artırmak için eklenmiştir. Buna ek olarak, girişim külliyatını tanıtmanın amacı, olumlu pozitifler veya olumsuz olumsuzlar olarak yanlış değerlendirilebilecek "yapabilirim" ve "yapabilirim" gibi bazı kelimeleri dışlamaktır.

Şekil 6: Duygusal Sözlük

2. Temel algoritma

Duygu sözlüğüne dayalı metin duyarlılık sınıflandırma kurallarının algoritması nispeten basittir.Her bir duyarlılık kelimesine belirli bir ağırlık değeri atar: w

w (Ağırlık değerinin belirli sektöre, işletmeye vb. göre ayarlanması gerekir.) Genel olarak, olumlu olumlu kelimelere pozitif bir değer atanır, kullanırız: w

p

wp anlamına gelir ve negatif kelimeler kullandığımız negatif değerleri verir: w

n

wn dedi ve duygusal ağırlık değeri, doğrusal süperpozisyon ilkesini tatmin ediyor. Her yorum için girişim sözcükleri kaldırıldıktan sonra, sırasıyla olumlu onaylama ve olumsuz olumsuz ağırlıkları hesaplanır. Örneğin, bir inceleme hem olumlu olumlu sözcükler hem de olumsuz olumsuz sözcükler içeriyorsa, yorum isabetinin olumlu olumlu ağırlık değeri, yorumun olumlu olumlu ağırlık değerini elde etmek için doğrusal olarak üst üste getirilir:

Ve isabetin negatif negatif ağırlık değeri, negatif negatif ağırlık değerini elde etmek için doğrusal olarak üst üste getirilir:

Kapsamlı polarite yargısı, elde edilen pozitif ağırlık değerini ve negatif ağırlık değerini doğrusal olarak üst üste getirir ve ardından kullanıcı tarafından ayarlanan yorum polarite ağırlık eşiğine göre, yorumun polaritesi nihayet belirlenir.Tüm duygu değerlendirme mantığı Şekil 7'de gösterilmiştir.

Şekil 7: Duygu analizi mantık diyagramı

3. Etkiyi anlayın

Yukarıdaki mimariye dayalı olarak, kamuoyu sisteminin duyarlılık analizi modülü uygulanır. Her yorumu otomatik olarak beş kutup düzeyine (son derece olumlu, olumlu, orta, olumsuz ve son derece zayıf) böler ve 5-1'e karşılık gelir. Puan puanı. Belirli bir dönemdeki tüm yorumların puanlarını değerlendirdikten sonra, sistem, bazı uygulama pazarlarının beş yıldızlı derecelendirmesine benzer şekilde, dönem içindeki tüm incelemelerin kapsamlı ortalama puanını (1-5 puan, bir ila beş yıldız) hesaplayacaktır. Şu anda, bu modül, Şekil 8'de gösterildiği gibi, uygulama pazarındaki yorumlar için temel olarak beş duygu seviyesine ayrılmıştır. Duygusal bölünme sayesinde, Vipshop uygulamamızla kullanıcıların genel memnuniyetini görebiliriz. Manuel tarama ve bölme ile karşılaştırıldığında, manuel tarama süresini ve iş yükünü büyük ölçüde azaltabilir.

Şekil 8: Uygulama pazarı yorumlarının beş yıldızlı değerlendirmesi

  • Metin bölümleme

Genel olarak, metin madenciliği için ilk ön işleme kelime bölümlemedir. İngilizcede, İngilizce kelimelerin doğal alanları, bilgisayarların kelimeler arasındaki sınırları hızla tanımalarına yardımcı olur. Çince'de boşluk olmadığı için bilgisayar oldukça karışık ve işlenmesi zor olduğundan, Çince kelime segmentasyonu özel olarak çözülmesi gereken bir sorundur.

1. Kelime segmentasyonunun mevcut durumu

Mevcut Çince kelime bölümleme yöntemleri kabaca üç kategoriye ayrılabilir: dizge eşlemeye dayalı sözlük sözcük bölümleme yöntemleri, anlamaya dayalı sözcük bölümleme yöntemleri ve istatistiklere dayalı sözcük bölümleme yöntemleri. Örneğin, dize eşleştirmeye dayalı ileri maksimum eşleştirme yöntemi, ters maksimum eşleştirme yöntemi, istatistiksel N-gram modeli fikirleri vb. Şu anda daha popüler Çince kelime bölümleme araçları jieba, SnowNLP, THULAC, HanLP ve benzerleridir.

2. Algoritmayı uygulayın

Kamuoyu sistemimizin metin bölümlemesi, sözlük tabanlı N en kısa yol algoritmasını benimser. N en kısa yol algoritması, Çin Bilimler Akademisi kelime bölütleme aracı NLPIR tarafından kelime bölütleme için kullanılan önemli bir algoritmadır Zhang Huaping ve Liu Qun, "N-en kısa yol yöntemine dayalı Çince kelime kaba bölütleme modeli" adlı makaleyi daha ayrıntılı olarak yayınladılar. Bu algoritmanın temel fikri, işlenecek bir Çince karakter dizisi vermek ve ardından sözlüğe göre sözlükteki olası tüm kelimeleri bulmak ve DAG (Directed Acyclic Graph) olarak da adlandırılan karakter dizisinin yönlendirilmiş çevrimsiz grafiğini oluşturmaktır. Baştan sona tüm yollar arasında en kısa ilk N yolu hesaplayın. Her olası kelime segmentasyonu, DAG'nin bir kenarına karşılık gelir ve her kenar, kelimenin oluşma olasılığını gösteren belirli bir ağırlık değerine sahiptir. En basit yol, kelime frekansını ağırlık olarak kullanmak veya düşük frekanslı kelimeler için kelime segmentasyonunun doğruluğunu artırmak için ağırlık olarak TF-IDF değerini kullanmaktır. Bu nedenle, kelime bölütleme problemi, DAG'de başlangıç noktasından bitiş noktasına kadar en kısa yolu bulma problemine dönüşür.

Örnek olarak "meslektaşlarımız günü ve öğleden sonra tatilini açıklar" ı ele alalım. İnsanların anlayışına göre, genellikle iki kelimelik bölümleme yöntemi bulabiliriz: "meslektaşlar / konuşma / yarın / öğleden sonra / tatil" ve "meslektaşlar / talimatlar / dünya / öğle yemeği / tatil", şekilde gösterildiği gibi 9 gösterilmektedir. Peki bilgisayar bu fikri nasıl gerçekleştiriyor? İlk olarak, dizgiyi ayrı kelimelere böler.Her bir kelime şekilde iki bitişik düğüm tarafından temsil edilir.Bu nedenle, n uzunluğundaki bir dizi için n + 1 düğüm gereklidir. İki düğüm arasında bir kenar varsa iki düğüm arasında bulunan tüm düğümlerden oluşan kelime anlamına gelir, örneğin şekildeki 3, 4 ve 5 numaralı düğümler "yarın" kelimesini oluşturur. Mevcut sözlüklerle karşılaştırılarak, döngüsel olmayan bir grafik oluşturulur, grafik oluşturulduktan sonra, grafik için çeşitli yollar arasındaki en kısa yol hesaplanır. N-en kısa yol, Dijkstra algoritmasına dayanan basit bir uzantıdır ve her düğümde en kısa N yol değerini ve düğümün öncülünü kaydeder. İnternette ve ders kitaplarında bu algoritmanın açıklamasıyla ilgili birçok ayrıntılı giriş var, bu yüzden burada tekrar etmeyeceğim.

Şekil 9: Kelime segmentasyon analizi örneği

Ek olarak, gerçekte, her bir kenarın ağırlığı 1 olarak ayarlanamaz, çünkü aksi takdirde tel uzunluğu n ve en kısa yol N arttıkça, aynı uzunluktaki yolların sayısı keskin bir şekilde artacaktır. Yöntem yeterince doğru değil. Bu sorunu çözmek için, yönlendirilen grafiğin kenarlarını ağırlıklandırmak için belirli bir strateji kullanmamız gerekiyor.Önceki makalede bahsedildiği gibi, aslında kelimenin oluşma olasılığı, yani kelimenin oluşma olasılığıdır. Bu olasılık nasıl hesaplanır? Girdiğimiz dizgenin C olduğunu varsayarsak, olası kelime dizgileri: w

ben

wi, burada i = 1,2, ..., m, C dizgisinin m olası bölümlerinin olduğunu gösterir. Bu nedenle, ihtiyacımız olan şey olasılıktır: P (w

ben

| C)

P (wi | C) en büyük N'dir ve ardından Bayes teoremine ve eğitim külliyatına göre olasılık elde edilebilir. Tabii ki, bu olasılık doğrudan bazı açık kaynak eğitim kurumları aracılığıyla da elde edilebilir. Sonra tüm yönlendirilmiş grafiğin yolunu bulabiliriz ve son olarak, en kısa yolla kelime bölütlemesini bulmak için N çeşit dizi bölünmesinin sonuçlarını alabiliriz. Metin bölümlemenin sonucu, kelime frekans analizi gibi sistemimizdeki diğer modüllerin temelini oluşturur.

  • Kelime sıklığı analizi

Kelime frekansı analizi modülü, Vipshop'un kamuoyu izleme sisteminin önemli bir parçasıdır.Yukarıda tanıtılan metin bölümleme sonuçlarına dayalı bir analizdir.Temel algoritma ve kelime frekansı uygulaması daha sonra tanıtılacaktır.

1. Temel kavramlar

İlk olarak, birkaç kavramı tanıtıyoruz - kelime frekansı ve ters belge frekansı. Terim Sıklığı (TF), belirli bir kelimenin dosyada kaç kez göründüğünü ifade eder. Bu sayı, uzun olmasını önlemek için genellikle normalleştirilir (genellikle makaledeki toplam kelime sayısına bölünen kelime frekansı) dosya. TF söz konusu olduğunda, Ters Belge Frekansını (IDF) anlamalısınız. Ana fikri şudur: w terimini içeren daha az belge varsa, IDF ne kadar büyükse, bu, w teriminin iyi bir sınıflandırmaya sahip olduğu anlamına gelir. kabiliyet. Belirli bir kelimenin IDF'si, toplam belge sayısının kelimeyi içeren belge sayısına bölünmesi ve ardından elde edilen bölümün logaritması alınarak elde edilebilir. Ve bunların birleşimi TF-IDF, bir belge seti veya bir külliyat içindeki bir belge için belirli bir terimin önemini değerlendirmek için istatistiksel bir yöntemdir. TF-IDF'nin anlamının özeti şudur: Bir sözcük bir makalede ne kadar çok görünürse ve tüm belgelerde ne kadar az görünürse, makaleyi o kadar çok temsil edebilir. Bu nedenle, TF-IDF yaygın kelimeleri filtreleme ve önemli kelimeleri saklama eğilimindedir. TF-IDF algoritması hakkında pek çok bilgi var, bu yüzden burada ayrıntılı olarak açıklamayacağım.

2. Algoritmayı uygulayın

Vipshop'un kamuoyu sisteminin kelime frekans algoritması da yukarıda bahsedilen TF-IDF algoritma fikrine dayanmaktadır ve sistemimizin ihtiyaçlarını karşılayacak şekilde geliştirilmiştir. Kullanıcı incelemelerinin sıklık analizi terimi, farklı dönemlerdeki (bir hafta, bir ay gibi) hangi terimlerin cari dönemde önceki döneme göre önemli ölçüde arttığını ve önemli ölçüde artan bu anahtar kelimelerin genellikle kullanıcı olduğunu analiz etmektir. Bazı problemler veya yoğun geri bildirimin sıcak noktaları yüksek madencilik değerine sahiptir. Elbette, anahtar kelimelerin yükselişi, sadece belirli sayıda terimin mutlak sayısı veya önceki döneme göre bir artışla sıcak bir kelime olarak değerlendirilemez. Kelime segmentasyon girişlerinin örnek sayısı her periyotta farklı olduğundan, sadece bir kelimenin mutlak sayısına bakmak sorunu açıklamaz.TF-IDF algoritmasında açıklandığı gibi, ortak kelimeleri filtrelemek ve önemli kelimeleri saklamak gerekir. .

Şekil 10, kelime frekans analizi algoritmamızın mantık uygulama diyagramıdır.Öncelikle, kelime segmentasyon sonuçlarına göre cari dönemdeki ve önceki dönemdeki her kelime segmentinin oranını hesaplar.Örnek değer, ilgili dönemdeki tüm kelime segmentasyon girişlerinin sayısıdır. Mevcut döngüdeki toplam çubuk sayısı şu şekilde ifade edilir: NP

şimdi

NPnow, son döngü şu şekilde ifade edilir: NP

son

NPlast, bu nedenle cari dönemdeki ve önceki dönemdeki her bir katılımcının oranı ayrı ayrı kullanılabilir:

ile

İ = 1,2,3,, N, j = 1,2,3,, M, burada N ve M sırasıyla cari dönemdeki ve önceki dönemdeki tüm katılımcıların sayısıdır.

Daha sonra, her bir katılımcının iki dönemdeki oranı P

ben

Pi ve P

j

Pj ayrı ayrı sıralanır ve her döngüde en büyük orana sahip n (n (100, 200, 500 vb. Gibi kendi koşullarınıza göre ayarlanabilir) girişler seçilir ve filtrelenen girişler ve ilgili oranlar şu şekilde ifade edilir: $ (W_ {i}, P_ {i}) {x} ve

Ve (W {j}, P_ {j}) _ {y} $, burada x, y = 1,2,3,, n.

Farklı dönemlerdeki ilk n terimin oranı $ (W_ {i}, P_ {i}) {x} ve

Ve (W {j}, P_ {j}) _ {y} $, cari dönemdeki her kelime segmentinin oranındaki artışı hesaplamak için bir fark algoritması kullanır ve bunları azalan sırada düzenler, böylece biz Mevcut döngüde en yüksek popülerlik değerine sahip ve önceki döngüye göre önemli ölçüde geliştirilmiş anahtar kelime çubuklarını öğrenebilirsiniz.

Şekil 10: Kelime frekans analizi mantığı

3. Etkiyi anlayın

Şekil 11, kullanıcı geribildiriminden hesaplanan son kelime frekans sonucunun bir örneğidir. Ayrıca, kelime sıklığı analizi, kullanıcılar tarafından belirlenen farklı yorum kategorilerinin boyutlarına göre ayrı ayrı hesaplanacak, böylece her kategorideki bazı popüler kelime dağarcığı bulunabilecek ve önemli konuların, kullanıcıya duyarlı sorunların, çevrimiçi hataların vb. Zamanında keşfedilmesi için referans sağlayabilecektir. Şekil 11'de görüldüğü gibi, sağ tarafta yer alan kategorileri değiştirerek karşılık gelen kelime frekans analizi sonuçlarını görüntüleyebiliriz. Ek olarak, kullanıcıların Şekil 12'de gösterildiği gibi sorunları sorgulaması ve bulması için uygun olan, girişe karşılık gelen belirli yorum bilgilerini görüntülemek için kelime bölümleme girişine karşılık gelen histograma tıklayın. Şu anda, sistem Uygulama uygulama pazarından gelen yorumların kelime sıklığını ve müşteri hizmetleri mesajlarını analiz edecek ve kelime frekansı analizi yoluyla, Uygulama geri dönüş sorunları, üyelik kulübüne girememe ve çevrimiçi müşteri hizmetini açamama gibi bazı çevrimiçi hatalar bulduk.

Şekil 11: Kelime frekans analizi sonuçları

Şekil 12: Kelime sıklığı anahtar kelimelerine karşılık gelen yorum bilgilerinin ayrıntıları

  • Sınıflandırma analizi

Kullanıcı yorumu bilgileri, kullanıcıların farklı ihtiyaçlar için görüntülemesi ve ilgili bilgi istatistiklerini görebilmesi için uygun olan set sınıflandırmasına göre sınıflandırılır. İnceleme bilgisi miktarı büyük olduğunda, manuel sınıflandırma daha doğrudur, ancak verimlilik çok düşüktür. Bu nedenle, incelemeleri otomatik olarak sınıflandırmamız gerekir, bu da manuel sınıflandırma ve tarama maliyetini büyük ölçüde azaltabilir.

1. Sınıflandırıcıların mevcut durumu

Şu anda, Çince metin sınıflandırması için yaygın olarak kullanılan sınıflandırıcılar şunları içerir: Naive Bayes, karar ağaçları, derin öğrenme, yapay sinir ağları, KNN, SVM, Adaboosting, Rocchio algoritması, LDA modeli vb. Bu sınıflandırıcıların yapay sinir ağları gibi kendi avantajları ve dezavantajları vardır.Avantajları, yüksek sınıflandırma doğruluğu, güçlü paralel dağıtılmış işleme yetenekleri, güçlü dağıtılmış depolama ve öğrenme yetenekleri ve gürültü sinirlerine karşı güçlü sağlamlık ve hata toleransıdır. Ve bunun gibi, ağ topolojisi, ağırlıkların ve eşiklerin başlangıç değerleri gibi çok sayıda parametre gerektirmesi, öğrenme süresi çok uzun ve öğrenme amacına bile ulaşamayabilir gibi kendi eksiklikleri de vardır.

2. Uygulama mantığı

E-ticaret ürünlerimizin bazı özelliklerinden dolayı, kullanıcı incelemeleri ve geri bildirim bilgileri genellikle satın alma süreci, ödeme, ürün kalitesi, lojistik, üyelik hakları ve pazarlama faaliyetleri gibi nispeten sabit birkaç kategoriye odaklanır.Sınıflandırma nispeten basittir. Bu nedenle, kendi ürünlerinin özelliklerini, sistem karmaşıklığını ve performansını ve diğer faktörleri göz önünde bulundurarak, Vipshop kamuoyu sistemi yukarıdaki sınıflandırma algoritmasını kullanmaz, ancak nispeten basit, kendi geliştirdiği bir algoritma kullanır.

Algoritma mantığı, sınıflandırma anahtar kelime (k) ayarı ve anahtar kelime ağırlığı w kullanılarak Şekil 13'te gösterilmiştir.

k

Wk hesaplama yöntemi, yorumun her kategorisinin ağırlığını hesaplar ve belirli bir kategoride yorumun isabet ettiği tüm anahtar kelimelerin ağırlığını alır:

Bunların arasında (i = 0,, n, j = 0,, m, burada n, yorumun vurduğu bir kategorideki anahtar kelimelerin sayısıdır ve m, ayarlanan kategorilerin sayısıdır) ve ardından her kategorinin ağırlığını toplayın:

Sıralama, ağırlık ve en büyük kategori:

Bu, incelemenin son sınıflandırmasıdır. Bu algoritma nispeten basit olmasına rağmen, çok sayıda yapılandırılmamış yorum için çok etkili bir sınıflandırma yöntemidir ve sınıflandırma doğruluğu nispeten yüksektir,% 90'dan fazlasına ulaşır. Sınıflandırma anahtar kelimelerinin ayarlanması ve yönetimi, sistem tarafından sağlanan iki işlevsel sınıflandırma yönetimi ve anahtar kelime yönetimi modülü aracılığıyla yönetilebilir. Şekil 14, sınıflandırmaya dayalı kullanıcı yorumlarının eğilim sonuçlarını göstermektedir ve kelime sıklığı analizinin sonucu, yukarıdaki Şekil 11'de gösterildiği gibi sınıflandırma boyutlarına da dayanmaktadır.

Şekil 13: Sınıflandırma analizi mantığı

Şekil 14: Yorum geri bildirimi sınıflandırma eğilimi

Ek olarak, kullanıcı yorum ayrıntıları sorgusu, kullanıcıların Şekil 15'te gösterildiği gibi ilgi kategorisine göre ilgili yorum ayrıntılarını sorgulaması ve araştırması için uygun olan, belirlenen kategorilere göre de görüntülenebilir.

Şekil 15: Yorum ayrıntıları kategoriye göre aranır

Pratik etki

Sistemin lansmanından bu yana, firmanın çeşitli departmanlarının kullanıcıların seslerini ve ihtiyaçlarını anlamaları, kullanıcı deneyimlerini iyileştirmeleri, ürün planlarını formüle etmeleri, çevrimiçi problemleri bulmaları için ürün, geliştirme, test etme, finans vb. Gibi çeşitli departmanlardan yaklaşık 300 dahili kullanıcı olmuştur. Belirli bir referans temeli sağlayın. Çevrimiçi kalite izleme açısından, kamuoyu sistemi, uygulama uyumluluğu sorunları, erişilemeyen üyelik kulüpleri, kullanılamayan çevrimiçi müşteri hizmetleri ve kelime sıklığı analizi ve sınıflandırma analizi gibi işlevler aracılığıyla görüntülenmeyen marka koleksiyonları gibi onlarca farklı çevrimiçi sorunu keşfetmiştir. Ve sorunun zamanında onarımı önemli bir referans sağlar, kullanıcı deneyimini iyileştirir ve bazı ekonomik kayıpları azaltır.

Proje Görünümü

Daha önce belirtildiği gibi, kamuoyu sistemi, kelime frekansı analizi yoluyla daha fazla çevrimiçi ve kullanıcı sıcak sorunları buldu. Bu nedenle, kelime frekansı erken uyarı işlevi sonraki yineleme planına eklenecek ve kullanıcılara e-postalar ve diğer kanallar aracılığıyla gerçek zamanlı kelime frekansı analizi sonuçları sağlanacak, böylece denetçiler, sıcak noktaları ve zamanında ilgilenilmesi gereken önemli sorunları bulup sorgulayabilecektir. Ayrıca sistem kullanıcıları, ilgi duydukları kelime frekansı anahtar kelimelerini kendi ihtiyaçlarına göre ayarlayıp abone olabilirler, kelime frekans analizi sonuçlarında bir eşleşme olduğunda, sorunları zamanında bulmak ve çözmek için ilgili kullanıcılara zamanında erken uyarı mailleri gönderebilirler.

Bu makale, VIP-Tech tarafından yetkilendirilen InfoQ Çince web sitesi tarafından yeniden basılmıştır.

37 yaşındaki Wang Xinling çok hassas, puantiyeli fırfırlı bir elbise giyiyor ve Li Qin'den 8 yaş küçük.
önceki
34 yaşındaki karartılmış "saf cariye" bir hit oldu ve bugünün eteği 10 kilo daha şişman, gerçekten güçlü
Sonraki
12 yaşındaki badminton güzelliği popüler oldu! Güzel görünümlü ve güçlü 6 Taylandlı oyuncu, kaç kişiyi tanıyorsunuz?
Shanghai Jiuye, HBase'e dayalı gerçek zamanlı veri ambarını araştırıyor ve uyguluyor
Mayıs ayından itibaren, kamu transferi, sosyal güvenlik, katma değer vergisi, vergi onayı ve kurumlar vergisi ile ilgili yeni düzenlemeleri sıkı bir şekilde araştıracağız!
220.000 hissedar "gök gürültüsüne bastı" ve bazı insanlar tüm net değerlerine bahse giriyor! Kangmei'nin patronu özür diledi ve 30 milyar "bir gecede buharlaşmaya" karşılık verdi
Guoyu, Sovyet Kupası'nı yeniden kazanabilir mi? Bu 1 proje önemli bir atılım haline geldi veya 2020 Olimpiyat Oyunlarını etkileyecek!
Mao Xiaotongun takımı, şortları ve yüksek topuklu ayakkabılar, ayağına yara bandı yapıştırdı, netizen: gerçekten kavga
Qi Wei'nin ceketi omuzsuz bir kıyafet olarak giyildi ve kot pantolon ters çevrildi, havaalanı anında "göz alıcı" oldu
Yerel Çin-Tayvan Stratejisi (3): Çin-Tayvan'ın Tanımı
Dünya Şampiyonalarının niteliklerini anlamak için 1 makale! 5 ulusal tüy endişesiz Li Zongwei ile dolu ve Li Xuerui ıskaladı!
Guli Nazha'nın aurası çok güçlü, kruvaze bir trençkot giyiyor ve gömleğin altında oynarken kayboluyor, havaalanı süper modelden çıkıyor
Yerel Çin-Tayvan Stratejisi (2): Çin-Tayvan neye benziyor?
Şiddetli yağmurda 95 dakika irfan! Art arda 5 galibiyet kazandılar ve en büyük favorisi serbest bırakıldı
To Top