g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Çocuğunuza bir isim verin ve bir bebek adı oluşturucu oluşturmak için derin öğrenme teknolojisini kullanın

Tam metin 4158 Kelimeler, tahmini öğrenme süresi 12 dakika

Kaynak: Pexels

İsmini seviyor musun? Veya adınızın özel anlamını biliyor musunuz?

Gençken Dale olarak adlandırılmaktan her zaman nefret ederdim. Bunun temel nedeni, "Dale" hakkındaki izlenimimin başından beri "The Happy Life of the Hillbilly Hill Family" filminde Dale Gobriel ve Amerikalı NASCAR yarışçısı Dale Earnhardt Jr. tarafından etkilenmiş olmasıdır.

Dale Gobriel Görsel / Kaynak: Costume Mall, Dale Earnhardt Jr. Görsel / Kaynak: Wikipedia

Bu Dell'lerden hiçbiri, yazarın hayalini kurduğu kişisel imaja uymuyor. Aksine, Sailor Moon olarak anılmayı umuyorum ("Sailor Moon" da bir rol).

Yazar, Dell adındaki her 15 kişiden bu "erkek ve kadın" isminden hoşlanmıyor, sadece biri kız. Ebeveynlerin kendilerine neden bu adı verdikleri sorulduğunda mantıkları şudur:

A. Bir kadının cinsiyeti isminden anlaşılamıyorsa, başarılı olma olasılığı daha yüksektir

B. Modaya uygun arkadaşları az önce kızlarına Dell adını verdiler, bu çok tatlı!

Bir yetişkin olarak özgeçmişte, Github'da veya e-posta imzasında olsun, erkek gibi davranmanın (doğrudan reddetmek yerine) faydalarını hissettiğimi belirtmekte fayda var.

Ama cinsiyetçilikten bahsetmeye gerek yok, ya aday determinizm - insanlar isimlerine uyan meslekleri ve yaşam tarzlarını seçerler Not 1 - doğruysa? İsimlerin insanların yaşamları üzerinde bir etkisi varsa, o zaman bir kişi için isim seçmek ağır bir sorumluluktur. Bu sorumluluğu tercihe, şansa veya eğilime vermeyeceğim. Şüphesiz derin öğrenme teknolojisine teslim edin!

Not 1: Nominatif determinizm mevcut olmayabilir ve bilimselliği takımyıldızlarınkine benzer. Ancak bu yine de ilginç bir sorudur!

Bu makale, bir kişinin (veya bir kişinin geleceği) açıklamasına dayalı bir ad verebilen bir bebek adı oluşturucu (daha doğrusu bir tahminci) oluşturmak için makine öğrenimi teknolojisinin nasıl kullanılacağını gösterecektir, örneğin:

Çocuğum New Jersey'de doğacak. Google'da yazılım mühendisi olmak için büyüdü ve bisiklet sürmekten ve kahve satın almaktan hoşlanıyor.

Karakter biyografisine göre, model olasılığa göre sıralanmış bir isim dizisi döndürecektir:

İsim: linda Puan: 0.04895663261413574 İsim: kathleen Puan: 0.0423438735306263 İsim: suzanne Puan: 0.03537878766655922 İsim: catherine Puanı: 0.030525485053658485 ...

Bu nedenle, teoride yazarın adı Linda olmalıdır, ancak şimdi Dell adını gerçekten çok seviyorum.

Okuyucular bu modeli kendileri tamamlamak istiyorlarsa bu makaleye göz atabilirler.

veri seti

Bir isim oluşturucu oluşturmak istesem de, nihai sonuç bir isim belirleyiciydi. Bir sürü karakter tanımı (biyografi) bulmayı, isimleri engellemeyi ve bu (engellenen) isimleri tahmin etmek için bir model oluşturmayı planlıyorum.

Neyse ki, burada bu tür bir veri seti buldum Bu, Github'da David Grangie tarafından oluşturulan Wikipedia Biyografik Veri Kümesi adlı bir depo. Bu veri seti, Wikipedia kişi sütununun ilk paragrafını, toplam 728.321 biyografi ve meta veriyi içerir.

Doğal olarak, Wikipedia'dan elde edilen biyografiler seçici önyargılardır (kadın elektronik dergisi "TheLily" nin verilerine göre Wikipedia'daki kadınların biyografileri yalnızca% 15'tir ve renkli insanların durumunun benzer olduğu tahmin edilmektedir). Ayrıca Wikipedia'da biyografisi olan kişilerin isimleri daha eskidir, çünkü pek çok ünlü insan son 30 yılda değil, son 500 yılda doğmuştur.

Yukarıdaki faktörleri göz önünde bulundurarak, isim üreticisinin popüler isimler üretebilmesi için ABD Nüfus Sayımından elde edilen en popüler yeni doğan isimlerini indirdim ve ardından Wikipedia veri setini sayımda sadece popüler isimleri içerecek şekilde indirdim. Aynı zamanda, 50'den az biyografisi olan kişilerin isimleri hariç tutuldu. 764 isim kaldı, çoğu erkek isimleri.

Veri setinde en popüler isim 10092 Wikipedia biyografisine karşılık gelen (şok edici!) "John", ardından William, David, James, George ve İncil'den diğer erkek isimler geliyor. En popüler olanlar (ancak hala 50 biyografi var) Clark, Logan, Cedric ve her biri 50 biyografiye sahip diğerleridir. Çok fazla önyargıdan kaçınmak için, yazar veri setini tekrar kesti ve her isim için rastgele 100 biyografi seçti.

Eğitim modeli

Veri örneğini alır almaz yazar karar verdi: Wikipedia biyografisinin ilk paragrafını veren ve biyografinin adını tahmin edebilen bir model eğitmeye.

Belki de okuyucular Wikipedia'nın biyografilerini uzun süredir okumamışlardır. Genellikle şöyle başlarlar:

Dale Alvin Gobriel, Fox'un yapımcılığını üstlendiği "Hillbilly Hill Ailesinin Mutlu Hayatı" adlı animasyon dizisindeki sanal bir karakterdir. Johnny Hardwick (Bill ve aktörü seslendiren Steven Rutter) tarafından seslendirilmiştir. Daniel Stern, rol için seçmelere katıldı). "Cep gizli kum" un devrim niteliğindeki savunma mekanizmasını yarattı. Haşere kontrolörü, ödül avcısı, Dell Technology'nin sahibi, sigara içen, silah hayranı ve neredeyse tüm komplo teorilerine ve şehir efsanelerine paranoyak bir şekilde inanıyor.

Modelin "hile yapmasını" istemediğim için, yazar tüm ad ve soyadları yatay bir çizgi ile değiştirir: "___". Dolayısıyla yukarıdaki biyografiler şöyle olur:

___Alvin___, Fox tarafından üretilen bir animasyon dizisindeki sanal bir karakterdir ...

Bu, modele veri girişidir ve karşılık gelen çıkış etiketi "Dell" dir.

Veri setini hazırladıktan sonra, derin öğrenme dil modeli oluşturmaya devam edin. Bu görevi gerçekleştirmenin birçok yolu vardır (Tensorflow gibi), ancak yazar, metni analiz eden derin bir sinir ağının kod olmadan oluşturulabilmesi için AutoML doğal dilini seçti.

Veri kümesini, verileri otomatik olarak 36497 eğitim örneğine, 4570 doğrulama örneğine ve 4570 test örneğine bölen AutoML'ye yükleyin:

Adları ve soyadları silmeye çalışsam da, bazı ikinci adlar hala karışıktı!

Modeli eğitmek için "Eğitim" sekmesini açın ve "Eğitimi Başlat" ı tıklayın. Yaklaşık dört saat sonra eğitim tamamlanır.

İsim oluşturucuyu değerlendirin

Peki isim üreteci modeli üzerinde çalışma nasıl yapılıyor?

Daha önce bir model oluşturduysanız, kaliteyi değerlendirmek için tercih edilen göstergelerin genellikle doğruluk ve hatırlama olduğunu bilirsiniz (bu terimlere aşina değilseniz veya ilgili bilgileri gözden geçirmeniz gerekiyorsa, Chuck Aiqier tarafından oluşturulan etkileşimli demoya göz atabilirsiniz. Bu kavramları ayrıntılı olarak açıkladı!). Değerlendirmede modelin doğruluk oranı% 65,7'ye, hatırlama oranı ise% 2'ye ulaştı.

Ancak isim üreticileri için bu göstergeler o kadar ikna edici değil. Veriler çok gürültülü olduğundan - bir kişinin yaşam deneyimine dayalı "doğru yanıt" yoktur. İsim büyük ölçüde keyfi olarak seçilir, bu da hiçbir modelin gerçekten doğru tahminler veremeyeceği anlamına gelir.

Yazarın amacı, isimleri% 100 doğrulukla tahmin edebilen bir model oluşturmak değildir. Yazar sadece isimlerdeki belirli kuralları ve bunların insanların hayatlarını nasıl etkilediğini anlayabilen bir model oluşturmak istiyor.

Bir modelin öğrendiklerini daha derinlemesine incelemek için bir yol, modelin ne tür hatalar yaptığını gösterebilen, karmaşa matrisi adı verilen bir tabloya bakmaktır. Bu yöntem etkili bir şekilde hata ayıklayabilir ve mantıklılığı hızlı bir şekilde kontrol edebilir.

AutoML'nin "Değerlendirme" sekmesi bir karışıklık matrisi sağlar. Aşağıdaki resim bir köşedir (çünkü veri setinde çok fazla isim vardır, sadece bir kısmı yakalanmıştır).

Bu tabloda, satır başlıkları Doğru Etiketlerdir (Truelables) ve sütun başlıkları Öngörülen etiketlerdir. Satır başlıkları, birinin adının ne olması gerektiğini gösterir ve sütun başlıkları model tarafından tahmin edilen adları gösterir.

Örneğin, "Ahmed" etiketli satıra bakın. "% 13" etiketli açık mavi bir hücre göreceksiniz. Bu, veri setinde yer alan Ahmed isimli tüm kişilerin biyografilerinin% 13'ünün model tarafından "Ahmed" olarak işaretlendiğini göstermektedir. Aynı zamanda sağdaki hücreyi gördüğünüzde Ahmed isimli kişilerin biyografilerinin% 25'i hatalı olarak "Ahmed" olarak işaretleniyor. Ayrıca Ahmed adlı kişilerin% 13'ü yanlışlıkla "Alec" olarak etiketlendi.

Bu işaretler teknik olarak yanlış olsa da, bu işaretler modelin gerçekten de ismin belirli kurallarına hakim olabileceğini gösteriyor, çünkü "Ahmed" ve "Ahmed" birbirine çok yakın. Aynısı Alec isimli kişi için de geçerlidir. Modelin Aleks'i "Alexander" ile etiketleme şansı% 25, ancak telaffuza göre "Alec" ve "Alexander" da çok yakın isimler.

Olasılık testi

Ardından, modelin adların temel istatistiksel kurallarını anlayıp anlamadığına bakın. Örneğin, birini tanımlamak için "o" kelimesini kullanırsanız, model bir kadın adını tahmin eder mi, bunun tersine, model "ona" erkek adını mı verir?

"She is a foodie" cümlesi için en üst sıralarda yer alan isimler "Frances", "Dorothie" ve "Nina" ve ardından birkaç başka kadın ismi geliyor. Bu iyi bir işaret gibi görünüyor.

"O bir gurme" cümlesi için en önemli isimler "Gilbert", "Eugene" ve "Elmer". Bu nedenle, modelin bazı cinsiyet kavramlarını anladığı görülmektedir.

Daha sonra, modelin coğrafi faktörlerin isimler üzerindeki etkisini anlayıp anlamadığını test etmek istiyorum. Aşağıdakiler test için kullanılan cümleler ve model tarafından tahmin edilen isimlerdir:

"New Jersey'de doğdu" -Gilbert

"New Jersey'de doğdu" -Frances

"Meksika'da doğdu" -Armando

"Meksika'da doğdu" -Irene

"O Fransa'da doğdu" -Gilbert

"Fransa'da doğdu" -Edith

"O Japonya'da doğdu" -Gilbert

"Japonya'da doğdu" -Frances

Modelin her yerde popüler isimleri anlayabilmesi şaşırtıcı değil. Bu model, Asya ülkelerinin popüler isimlerini anlamak özellikle zor görünüyor.Asya ülkeleri söz konusu olduğunda, model sadece aynı isimleri döndürecektir (örneğin Gilbert ve Frances). Bu, eğitim veri setinin yeterli milliyet çeşitliliğine sahip olmadığını göstermektedir.

Model sapması

Kaynak: Pexels

Son olarak, test edilecek bir şey daha var. Modelin adilliğini biliyorsanız, önyargılı, ırksal olarak ayrımcı, cinsiyetçi, yaşa göre ayrımcı veya diğer ayrımcı bir model oluşturmanın çok kolay olduğunu duymuş olabilirsiniz, özellikle de model örnek popülasyonu yansıtmadığında. Daha önce de belirtildiği gibi, Wikipedia'daki biyografiler önyargılıdır, bu nedenle yazar veri setindeki erkek sayısının kadınları aşmasını beklemektedir.

Yazar, modelin eğitim için kullanılan verilerin özelliklerini yansıtmasını ve cinsiyet önyargısını öğrenmesini beklemektedir - örneğin, bilgisayar programcıları erkek ve hemşireler kadındır. Bakalım doğru tahmin ettim mi:

"Bilgisayar programcısı olacaklar" -Joseph

"Hemşire olacaklar" -Frances

"Doktor olacaklar" -Albert

"Astronot olacaklar" -Raymond

"Romancı olacaklar" -Robert

"Ebeveyn olacaklar" -Jos

"Model olacaklar" -Betty

Yeterince elbette, modelin mesleki işbölümünde cinsiyetlerin geleneksel rollerini gerçekten öğrenmiş olduğu görülüyor. (En azından yazar için) tek sürpriz, modelin "ebeveynlerin" rolünün kadın adı yerine erkek adı ("Jos") olacağını öngörmesidir. .

Bu nedenle, modelin insanların isimlendirilmesinin belirli kurallarına hakim olduğu, ancak yazarın ustalaşmasını umduğu kurallara hakim olmadığı açıktır. Geleceğin çocuğuna isim vermek söz konusu olduğunda, sanırım kendimle aynısını seçeceğim ... Belki de Little Dell?