"Denetimsiz Öğrenme" İnsan bebeklere öğrenmeyi nasıl öğretiriz ve yapay zekayı nasıl öğretiriz

1 Xinzhiyuan derlemesi

Derin öğrenmenin önemli bir bileşeni, sinir ağlarını eğitmek için kullanılan veri görüntüleri, videolar, e-postalar, sürüş kalıpları, konuşma, nesneler vb.

Şaşırtıcı bir şekilde, dünyamız neredeyse verilerle boğulmuş olsa da - şu anda her gün yaklaşık 2,5 trilyon bayt veri üretiliyor, çoğu etiketlenmemiş veya yapılandırılmamış, bu da mevcut denetimli öğrenme biçimlerinin çoğunun olduğu anlamına geliyor. Diğer bir deyişle, bu veriler mevcut değildir. Derin öğrenme özellikle iyi, yapılandırılmış ve etiketlenmiş verilere dayanır.

Bu makalede, yüksek kaliteli, etiketli verilerin neden bu kadar önemli olduğunu, bu verilerin nereden alınacağını, nasıl kullanılacağını ve kısa vadede makine öğreniminin hangi çözümleri bekleyebileceğini tartışacağız.

Denetimli öğrenme, denetimsiz öğrenme ve veriler

Veriler, verileri hızlı bir şekilde analiz edebilen ve hatta saflaştırabilen sinir ağlarına beslenir. Bu sürece denetimli öğrenme adı verilir çünkü makineye sağlanan büyük miktardaki veri önceden dikkatlice etiketlenmiştir. Örneğin, elma veya portakal görüntülerini tanıyan bir sinir ağını eğitmek için, sırasıyla elma veya portakal olarak işaretlenmiş görüntülerin beslenmesi gerekir. Elma veya portakal olarak işaretlenmiş tüm görüntülerin ortak özelliklerini bularak, makine verileri anlayabilir ve yeni görüntüleri tanımak için verilerde bulunan kalıpları kullanabilir. Ne kadar çok etiketli görüntüler elde ederlerse, veri kümesi ne kadar büyük ve çeşitli olursa, tahmin doğruluğu o kadar yüksek olur. Başka bir deyişle, pratik mükemmelleştirir.

Bu yöntem, makinelere görüntülerden, videolardan, grafiklerden, el yazısı yazı tiplerinden ve diğer verilerden herhangi bir şeyin nasıl tanınacağı gibi görme görevlerini öğretmede çok etkilidir. Bazı görevlerde, özellikle görüntü tanıma uygulamalarında, makinelerin insan seviyelerine ulaşması veya aşması artık yaygındır. Örneğin, Facebook'un yüz tanıma sistemi% 97 doğruluk oranına sahipken Google, bu yılın başlarında tıbbi görüntülerde kötü huylu tümörleri tespit etmek için patologlardan daha yüksek doğruluk oranına sahip bir sinir ağı yayınladı.

Denetimli öğrenmenin tersi denetimsiz öğrenmedir. Denetimsiz öğrenme fikri, makinenin veri okyanusuna dalmasına, kendi başına keşfetmesine ve deneyimlemesine, kalıpları ve çağrışımları aramasına ve bu sürecin insan rehberliği gerektirmediği sonucuna varmasına izin vermektir.

Bu teknoloji, bazı yapay zeka bilimcileri tarafından uzun süredir tercih edilmiyor, ancak 2012'de Google, çok sayıda etiketlenmemiş görüntüden kedileri, yüzleri ve diğer nesneleri tanıyabilen derin bir sinir ağı gösterdi. Bu teknik çok etkileyicidir ve bazı çok ilginç veya faydalı sonuçlar üretmiştir, ancak şimdiye kadar birçok görevdeki denetimsiz öğrenmenin doğruluğu ve etkinliği hala denetimli öğrenme kadar iyi değildir.

Veriler, veriler, veriler her yerde

Makineleri insan bebekleriyle karşılaştırmakta fayda var. Bir insan bebeği yönlendirilmese bile öğreneceğini biliyoruz, ancak öğrendiklerinin ille de bizim öğrenmesini istediğimiz şey olmadığını ya da bizim tahmin edebileceğimiz bir şekilde öğrenmediğini biliyoruz. Ama aslında, bebeklere talimat yoluyla öğrenmeyi öğretiyoruz, bebekleri çok sayıda nesneye ve kavramlara ve sınırsız konuya maruz bırakmamız gerekiyor.

Bebeklere yönelim, hayvanlar ve bitkiler, yerçekimi ve diğer fiziksel özellikler, okuma ve dil, yiyecek türleri ve unsurları ve benzeri varoluş kavramlarını öğretmemiz gerekiyor. Bebekler büyüdükçe tüm bu kavramlar "talimatlar-talimatlar" ile açıklanabilir ve çocuklara sonsuz soruları cevaplayarak öğretilebilir.

Bu çok zor bir görev, ancak çoğu ebeveyn ve çocukların etrafındaki insanlar bunu her gün yapıyor. Sinir ağları da insan bebekleriyle aynı ihtiyaçlara sahiptir, ancak odak noktası genellikle dardır.Onunla gerçekten etkileşime girmediğimiz için daha kesin etiketler gerektirir.

Şu anda, AI araştırmacıları ve bilim adamları, makinelerini eğitmek için çeşitli yollarla veri elde ediyor. İlk yol, verileri kendiniz toplamak ve çok büyük bir etiketli veri kümesi oluşturmaktır. Bu, Google, Amazon, Baidu, Apple, Microsoft, Facebook, vb. Gibi büyük şirketlerin uygulamasıdır. Hepsinin büyük miktarda işi vardır ve şaşırtıcı miktarda veri üretebilirler.

Buradaki her şeyi listelemeye çalışmak gerçekçi değil. Bu şirketlerin bulut depolama alanına yüklenen milyarlarca etiketli veya etiketli görüntünün yanı sıra tüm belgeleri, arama sorgularını (ses, metin, görüntü ve optik Karakter tanıma), konum verileri ve haritalar, derecelendirmeler, tercihler ve paylaşılan içerik, alışveriş bilgileri, teslimat adresi, telefon numarası, adres defteri ve sosyal ilişkiler vb.

Geleneksel gerçek mekanda faaliyet gösteren şirketler ve herhangi bir büyük ölçekli şirket, makine öğreniminde genellikle benzersiz avantajlara sahiptir çünkü büyük miktarda belirli veri türlerine sahiptirler (veriler değerli olabilir veya olmayabilir, ancak çoğu değerlidir).

Veri elde etmedeki zorluklar

Şirketiniz büyük miktarda veriye sahip bir Fortune 100 şirketi değilse, paylaşılan verileri kullanmak en iyisidir. Büyük miktarda farklı veri elde etmek, AI araştırmasının anahtarıdır. Neyse ki, artık halka açık ve ücretsiz olarak sunulan etiketli veri kümeleri çoğu kategoriyi kapsıyor.

İhtiyaçlarınıza göre yüz ifadeleri, vücut dilinden halka açık yüzlere kadar çeşitli veri setleri mevcuttur. Milyonlarca insan, orman veya evcil hayvan (çeşitli evcil hayvan türleri) resimlerini bulabilir ve çok sayıda kullanıcının veya alıcının incelemelerini filtreleyebilirsiniz. Ayrıca spam, çeşitli dillerde tweetler, blog gönderileri ve yasal vaka raporları içeren veri kümeleri de vardır.

Tıbbi sensörler, hareket sensörleri, akıllı cihazların jiroskopları, termal sensörler vb. Gibi çeşitli yeni veri türleri üreten sensörler giderek daha yaygın hale geliyor. Ek olarak, insanlar tarafından çekilmiş sayısız yemek, şarap etiketi veya slogan tabelası fotoğrafı var. Başka bir deyişle, saf biçimde veri sıkıntısı yoktur.

Peki sorun nedir?

Veriler her yerde olmasına rağmen, pratikte, bu verilerin toplanmasının tümüyle yararlı olmadığı ortaya çıktı. Ya çok küçükler, iyi etiketlenmemişler ya da sadece kısmen etiketlenmişler ya da ihtiyaçlarınızı karşılamıyorlar. Örneğin, makineye bir görüntüdeki Starbucks ticari markasını tanımayı öğretmek istiyorsanız, bulduğunuz görüntü veri kümesinde yalnızca "içecek" veya "kahve" etiketi olabilir. Doğru etiketler olmadan, bu veriler temelde işe yaramaz. Başka bir örnek olarak, bir hukuk firmasının veya köklü bir şirketin veri tabanında milyonlarca sözleşme veya başka belge olabilir, ancak bu veriler, basit etiketlenmemiş PDF biçiminde olabileceğinden işe yaramaz.

Diğer bir zorluk, kullanılan eğitim setinin geniş ve çeşitli olmasını sağlamaktır. neden? Verileri eğitme fikrini basit bir düşünme deneyiyle keşfedebiliriz. Bir çocuğumuz olduğunu hayal edin, ona Ned adını verelim ve görev kelime kartlarındaki İspanyolca kelimeleri tanımasına izin vermek. Ned'in yapması gereken tek şey "Evet, bu İspanyolca" veya "Hayır, bu İspanyol değil" yanıtını vermek.

Ned daha önce İspanyolca'yı hiç görmemişti, İspanyolca kelimelerin nasıl göründüğünü öğrenmesi için rastgele 10 kelime kartı verildi. Kartlardan beşi İspanyolca sözcükler içeriyor: niño, rojo, comer, uno ve enfermos ve diğer beş kart başka dillerde sözcükler içeriyor: cat, cat, céu, yötaivas ve . Ned'e, yeni bir kart setinden tüm İspanyolca kelimeleri seçebilirse, büyük bir fincan dondurma ile ödüllendirileceği söylendi. Bir saatlik öğrenmenin ardından, şimdi test etme zamanı.

İlk testte Ned'e İspanyolca bir kelime kartı gösterildi: azul. Önceki çalışmada, "a" harfi yalnızca İspanyolca olmayan kartlarda göründüğü için Ned, azul'un İspanyolca bir kelime olmadığına inanıyor. İkinci kart Portekizce "anne" kelimesidir: mãe, Ned hemen bağırdı: "İspanyolca!" Yine yanlış. Bunun nedeni, eğitim kartındaki yalnızca bir kelimenin tilde sembolü olması ve bu kelimenin İspanyolca olması. Üçüncü kartta "volkan" yazıyor Ned "o" ile bittiğini fark ettiğinden emin bir şekilde "İspanyolca" diyor Dördüncü kartta "" yazıyor, şekli eğitiminkine benziyor. İlk tip kartlar aynı değil ... Dondurmanın artık bulunmadığını gören Ned, adeta ağlıyor! Bu Ned'in muhakeme becerileriyle ilgili bir sorun mu yoksa eğitim verileriyle ilgili bir sorun mu?

Bir problem şudur: veri seti çok küçüktür. Ned'in tüm enerjisi 10 kartı ezberlemeye harcanıyor. Derin sinir ağları gibi karmaşık modelleri eğitirken, çok küçük bir veri kümesi kullanmak, makine öğreniminde yaygın bir kusur olan aşırı uyuma neden olabilir.

Temel olarak, aşırı uyum, çok sayıda öğrenilebilir parametreye sahip eğitim örneğinin sonucudur. Model, verilerden genel kavramları öğrenmek yerine tüm eğitim verilerini hatırlayabilir.

"Elmaları" ve "portakalları" tanımlama ağımıza geri dönelim. Büyük bir sinir ağını eğitmek için eğitim verisi olarak az sayıda elma görüntüsü kullanılırsa, ağın eğitim verilerinin belirli ayrıntılarını öğrenmesine neden olması muhtemeldir - cilt kırmızı, gövde kahverengi ve kavislidir - bu özelliklerin yalnızca eğitim verilerinde olması gerekir. Doğru bir ayrım yapın. Çok iyi olan bu özellikler eğitim sırasında elmanın görüntüsünü açıklamada iyi performans gösterebilir ancak test sırasında yeni, hiç görülmemiş bir elma ile karşılaşıldığında bu özellikler alakasız hatta yanlış olabilir.

Diğer bir sorun, veri çeşitliliğini korumanın önemli bir ilke olmasıdır. Ned, eğitim sırasında "o" ile biten İspanyolca olmayan bir kelime görürse veya daha çeşitli bir İspanyol aksanı işareti görürse, performansı daha iyi olacaktır. İstatistiksel bir bakış açısıyla, ne kadar benzersiz veri elde ederseniz, bu verilerin özellikleri o kadar çeşitli ve kapsam o kadar geniş olur. "Elmaları" ve "portakalları" tanıyan bir ağın eğitilmesi durumunda, eğitim setinde bu görüntülerin görünüp görünmediğine bakılmaksızın tüm elma ve portakal görüntülerinin tanınabilmesi için bu ağın daha genelleştirilmesini umuyoruz. Sonuçta, tüm elmalar kırmızı değildir. Ağımızı yalnızca kırmızı elma görüntüleriyle eğitirsek (bu tür çok sayıda görüntümüz olsa bile), ağ, test sırasında yeşil elmaları tanımlayamama riskini taşır. Bu nedenle, eğitim sırasında kullanılan veri türü önyargılıysa ve test sırasında beklenen verileri temsil etmiyorsa sorunlar ortaya çıkabilir.

Önyargı sorunu birçok yapay zekada ortaya çıkmaya başladı. Sinir ağını eğitmek için kullanılan veri seti, verileri toplayan kişilerin veya grupların önyargılarını yansıtır. Örneğin, elmaları ve portakalları tanıyan bir ağı eğitmek için yalnızca kırmızı elma resimlerini kullanırsak, ağımız "elmalar yalnızca kırmızı olabilir" eğilimini öğrenir. Ya yeşil elmalar, sarı elmalar ve karamel elmalar? Yüz tanıma gibi diğer uygulamalarda, veri önyargısının etkisi daha önemli olacaktır.

İyi etiketlenmiş veriler nasıl elde edilir? Ya veri etiketleme için insanları işe alın, ancak bunu yapmak pahalıdır ya da dünyadaki tüm şirketler birdenbire tüm özel veri setlerini açmayı ve dünya çapındaki bilim insanlarının bunları ücretsiz olarak kullanmasına izin vermeyi kabul eder. Aksi takdirde, eğitim verisi eksikliğini çözmenin tek yolu ona güvenmemektir. Evet, mümkün olduğunca çok eğitim verisi üretmeye çalışmak yerine, derin öğrenmenin geleceği denetimsiz öğrenmeye doğru olabilir. Bebeklere dünya hakkında çeşitli kavramları nasıl öğrettiğimizi hayal edin. Sonuçta, bebeklere öğrettiğimiz çok fazla bilgi olmasına rağmen, insan olarak öğrendiğimiz önemli şeylerin çoğu deneyim yoluyla, özellikle de denetimsiz deneyim yoluyla edinilir.

Orijinal: https://techcrunch.com/2017/07/21/why-the-future-of-deep-learning-depends-on-finding-good-data/

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

2018, askerler buna değer!
önceki
Gidiş-dönüş uçak bileti + 3 gecelik otel sadece 900'den fazla! Xiamen'e şimdi gitmezseniz, kesinlikle para kaybedeceksiniz!
Sonraki
110 milyon! Ar-Genin muhteşem hücumu artık değil ama Stojkovici kovmak ucuz değil!
Arabanın ESP'si tam olarak ne yapıyor? Araba alırken ESP neden gereklidir?
Daha fazla para, daha az iş Blok zincirinin karşılaştığı 2 zorluk
"Tartışma" Yabancı medya Çin'in yüz tanıma ve hükümlü suçlularını sorguladı, üç çalışma yüz tanımadaki zayıf noktalara bakıyor
Çin, Rusya ve Hindistan dolarizasyona doğru iki önemli adım atmış olabilir, yabancı medya: küresel dolarizasyonun geri döndürülemez.
100.000 yuan'lık bütçe seçilmedi, bu ortak girişim SUV'leri tavsiye etmeye değer!
Çılgın şapkalar giyin! Mbappe 55 dakikada üç gol attı, bu da Messi Ronaldo'yu geride bırakan bir rekor!
Güzel! Shaoguan'da sonbaharın sonlarında görülmeye değer, her biri arkadaş çevresini işgal edebilecek 6 yüksek değerli rota
Bir araba satın almadan ve bir SUV seçmeden önce? Bu birkaç sorunun anlaşılması gerekiyor
Kanada kazı ağır kayıplara uğradıktan sonra, daha da büyük kayıplar ortaya çıktı Dış medya: Kanada ekonomik felaketle karşı karşıya kalabilir
DeepMind'ın en son ICML makalesi: Değer dağıtım yöntemi, tüm geleneksel pekiştirmeli öğrenmeyi geride bırakıyor
Reaper'ın gerçek versiyonu burada ve otoyoldaki ikinci kaza sayısız insanı öldürdü!
To Top