g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

NLP veri bilimcilerinin size söylemeyeceği acımasız gerçekler

Tam metin 2044 Kelimeler, tahmini öğrenme süresi 6 dakika

Kaynak: Pexels

Son zamanlarda, Tractica'nın raporu, yapay zeka tarafından desteklenen NLP yazılım pazarının 2016'da 136 milyon ABD dolarından 2025'te 5,4 milyar ABD dolarına çıkmasının beklendiğini gösteriyor. 10 yılda yaklaşık 40 kat artış!

Öte yandan, Hesaplamalı Dilbilim dergisinin sponsoru olan Hesaplamalı Dilbilim Derneği (ACL) tarafından düzenlenen yıllık konferans, sonuçlarını sunmaları için birçok NLP bilim insanının ilgisini çekti. 2018 ile karşılaştırıldığında, 2019 yılında ACL tarafından sunulan makale sayısı% 75 artmıştır.

Bunu görünce, düşünebilirsiniz-vay! Yakın gelecekte, bir NLP veri bilimcisi olmaya çalışacağım! NLP'yi seviyorum!

Ama bu, bu alana sırf parlak bir geleceği olduğu için girmeniz gerektiği anlamına mı geliyor?

Gerçek şu ki, okuduğunuz her şey NLP'nin geleceğinin parlak ve harika olduğunu gösteriyor. Ancak, NLP veri bilimcilerinin çalışmalarını tam olarak anlamadan bu alana girilmemelidir.

Bu makale, NLP veri bilimcilerinin çalışmaları hakkındaki gerçeği paylaşacak. Umarım gerçek durumu dikkatlice anlarsınız, böylece NLP alanına girip girmemeye daha iyi karar verebilirsiniz.

NLP nedir?

Kısacası, insanın doğal dilini ve ifadesini analiz eden hesaplama tekniklerini içerir.

Hmm ... bu ne anlama geliyor?

Bu, farklı metin biçimlerinin işlenmesi gerektiği anlamına gelir. İşte NLP veri bilimcilerinin bazen karşılaştığı bazı durumlar.

Durum 1

Aşağıdaki tweet'e göz atın.

Bu metni analiz ettiğinizi varsayalım. Amaç metni anlamaktır. Varsayalım ki öznenin "mypants" olduğundan ve fiilin "eksik" olduğundan eminsiniz. Peki bu tweet'ten hangi bilgileri aldınız?

"Pantolon gitti." ...? ? !

Bu açıkça tweet'in anlamını temsil etmiyor, değil mi?

Durum 2

Duygu (olumlu veya olumsuz) ve hedef (görüş) dahil olmak üzere, yön temelli duyarlılık analizi yaptığınızı varsayalım.

Örneğin, "restoran iyi hizmet veriyor." Bunların arasında yönü "hizmet" ve duygu "olumlu".

Bu neden önemli? Çünkü restoran sahibi, müşterilerinin iyi bir deneyim yaşadığını bildiği gibi, iyi hizmet verdiklerini de bilir.

Veri kümesinde bu metni gördüğünüzü varsayalım.

"Bu elektrikli süpürge gerçekten berbat. (Bu elektrikli süpürge gerçekten berbat.)"

Buradaki nesne bir elektrikli süpürge, ama duygu nedir? "Emmek" kelimesi genellikle olumsuz bir duyguyu temsil eder, ancak bir elektrikli süpürge ile kullanıldığında anlamı değişebilir.

Elektrikli süpürge, emiş üreterek temizler. Yani buradaki "emmek" kelimesi aslında bu elektrikli süpürgenin çok faydalı olduğunu tanımlamak için değil mi?

Durum 3

Daha karmaşık bir durumu düşünün. Örneğin:

"Hey dostum, nerede güzel yemek yiyebilirim?"

Bu cümle yemeğin lezzetli olduğu anlamına mı geliyor? Hayır, bu aslında sadece bir soru.

Kaynak: Pexels

Durum 4

Diğer bir durum, metni işlerken ne anlama geldiğini bilmemenizdir. Örneğin, İngilizce, Çince ve Malaycayı biliyorsunuz. Ancak şirket Japonca bir metin sınıflandırma projesi üzerinde çalışıyor. Dolayısıyla modelde neyin yanlış gittiğini anlamaya çalışırken zorluklarla karşılaşacaksınız.

Çözümlerden biri, cümleyi bildiğiniz bir dile dönüştürmek için Google Translate'i kullanmaktır. Ancak, Google Çeviri mükemmel değil. Bazı durumlarda sağladığı çeviri anlamsızdır, bu durumda anadili Japonca olan birine danışmanız gerekir.

Durum 5

Bir metin sınıflandırma göreviyle uğraştığınızı varsayalım. Amaç, bir öğe adının şaraba veya meyve suyuna ait olup olmadığını tespit etmektir.

Belki ayırt edici bir özellik olarak bir anahtar kelime listesi kullanmayı düşüneceksiniz. Ayırmak için bazı yararlı anahtar kelimeleri aramak için birkaç saat harcadıktan sonra, işte düşünceleriniz:

İlk olarak, her kategori için bir anahtar kelime listesi sağlayın. Örneğin, şarap kategorisinin anahtar kelime listesi ve meyve suyu kategorisinin anahtar kelime listesi 'dir. Proje adında anahtar kelime listesinde bir eleman bulunursa, eleman modele özellik olarak girilecektir.

Bununla birlikte, bu modelin doğruluğu, temel doğruluktan (% 90) daha düşüktür.

nasıl yapmalıyım Her yanlış sınıflandırma için test verilerini sabırla kontrol edin. Şarabın birçok yazım hatası içerdiğini keşfettiğinizde şok oldunuz: wne, wyne, vb. Bu nedenle, doğruluğu artırmak için listenin güncellenmesi veya eğitim veri setinde bazı kontrollerin yapılması gerekir.

Ancak bu henüz bitmedi. Doğruluk gerçekten gelişti, ancak sonuçlardan hala memnun değilsiniz. Yanlış sınıflandırılmış verilere tekrar yakından baktığınızda, bu ilginç proje adını bulacaksınız:

"Fermente Üzüm Suyundan Yapılmış Pinot Noir"

İsimden çıkarılan anahtar kelime "meyve suyu" olduğundan model onu meyve suyu olarak sınıflandırır. Bu yanlış! Pinot Noir kırmızı bir şaraptır, bu yüzden şarap olarak sınıflandırılmalıdır!

Kaynak: Pexels

Bunu binlerce kez duyduğunu biliyorum, ama gerçekten çok çalışmak her zaman karşılığını verir. İyi bir insan olmak istiyorsanız, tekrar pratik yapmalı, pratik yapmalı ve pratik yapmalısınız. Bir şeyi sevmiyorsan, yapma.

Ray Bradbury (RayBradbury)

Metin hem ilginç hem de yorucu. Bu nedenle, çoğu zaman, NLP veri bilimcileri bu verilere bakıyor ve beyinlerini harap ediyor, modelin bağlamı anlamasını sağlamak için ellerinden gelenin en iyisini yapıyorlar.

Analiz, özellik mühendisliği veya model iyileştirme yapıyor olun, metin verilerini görüntülemek için zamanınızın% 80'ini harcamalısınız. Bu nedenle, verileri doğru anladığınızdan ve gelecekte meydana gelebilecek olası durumları öngördüğünüzden emin olun.

NLP veri bilimcilerinin sklearn'da .fit () dediklerini düşünüyorsanız, Xiaoxin yön değiştirmeyi düşünmenizi önerir.