Özel Egzersiz veri setinizi nasıl geliştirebilirsiniz? (Ekli dava)

Yazar: Pete Warden

Çeviri: Shen Libin

Redaksiyon: Ding Nanya

Bu makale hakkında 6800 kelime, 10 dakika okumanız tavsiye edilir.

Bu makalenin yazarı, kendi proje deneyimine dayanarak eğitim verilerinin önemini açıklıyor ve iyileştirme için bazı pratik ipuçlarını paylaşıyor.

Fotoğrafı çeken Lisha Li

Bu slayt, Andrej Karpathy'nin Train AI'daki konuşmasının bir parçasıdır ve ifade ettiği görüşlere katılıyorum. Derin öğrenmenin araştırma ve uygulamasındaki farkı tam olarak somutlaştırır. Hemen hemen tüm akademik makaleler yeni ve geliştirilmiş modellere odaklanır ve kullanılan veri seti, genel veri setlerinden seçilen küçük bir kısımdır. Aksine, pratik uygulamalarının bir parçası olarak derin öğrenmeyi kullanan tanıdığım insanlar zamanlarının çoğunu eğitim verilerini nasıl iyileştireceklerini düşünerek geçiriyorlar.

Araştırmacıların model mimarisine odaklanmaları için pek çok iyi neden var, ancak bu, üretimde makine öğrenimini uygulamaya odaklananlara rehberlik edecek çok az kaynak olduğu anlamına geliyor. Toplantıdaki konuşmam "mantıksız olan etkili eğitim verileri" idi. Burada biraz genişletmek, eğitim verilerinin neden bu kadar önemli olduğunu açıklamak ve onu geliştirmek için bazı pratik ipuçları istiyorum.

İşim nedeniyle birçok araştırmacı ve ürün ekibi ile yakın çalışmam gerekiyor. Verileri geliştirmenin daha iyi sonuçlara yol açabileceğine olan inancım, modeller oluştururken harika sonuçlar elde ettiklerini görmekten geliyor. Çoğu gerçek dünya uygulamasında, derin öğrenmeyi kullanmanın önündeki en büyük engel, yeterli doğruluk olmaması ve doğruluğu iyileştirmenin en hızlı yolunun Eğitim veri setini iyileştirin . Gecikme veya depolama boyutu gibi diğer kısıtlamalara takılmış olsanız bile, belirli bir modelin doğruluğunu artırabilecek bazı performans özellikleri için daha küçük bir mimari ile ticaret yapabilirsiniz.

Ses komutu

Üretim sistemleriyle ilgili gözlemlerimin çoğunu paylaşamıyorum, ancak aynısını kanıtlamak için açık kaynak bir örneğim var. Geçen yıl, basit bir konuşma tanıma örneği oluşturmak için Tensorflow'u kullandım, ancak modeli eğitmek için kolayca kullanılabilecek mevcut bir veri kümesi olmadığı ortaya çıktı. Bununla birlikte, birçok gönüllünün cömert yardımı ile, onlar tarafından konuşulan 60.000 ses klibi topladım. Bu projeyi başlatmama yardımcı oldukları için "Açık Konuşma Kayıt sitesi" AIY ekibine teşekkür etmek istiyorum. Nihai model kullanılabilirdi, ancak beklediğim doğruluğa ulaşmadı.

Model tasarımcısının kimliğinin benim için ne kadar kısıtlayıcı olduğunu görmek için, aynı veri setini kullanarak bir Kaggle yarışması başlattım. Yarışmacıların sonuçları orijinal modelimden çok daha iyi, ancak birçok takım tarafından önerilen birçok farklı yöntem olsa bile, sadece birkaç kişi% 91 doğruluk elde ediyor. Benim için bu, verilerde bazı temel hatalar olduğu ve yarışmacıların yanlış etiketler veya kesilmiş ses gibi birçok hata bulduğu anlamına geliyor. Daha fazla örnek veri setinin yeni sürümünde buldukları çözülmüş sorunlara dikkat etmem için beni harekete geçirmeye başladı.

Modeldeki hangi kelimelerin en çok soruna sahip olduğunu anlamak için hata değerlendirme indeksini kontrol ettim. "Diğer" kategorisinin (konuşma tanındığında, ancak kelime listesi modelin sınırlı kelime haznesinde bulunmadığında) özellikle hataya açık olduğu ortaya çıktı. Bu sorunu çözmek için, daha çeşitli eğitim verileri sağlamak için yakaladığımız farklı kelimelerin sayısını artırdım.

Kaggle yarışmacılarının ortaya koyduğu etiketleme hataları nedeniyle, insanlardan her klibi dinlemelerini ve istenen etiketle eşleştiğinden emin olmalarını isteyen ek bir doğrulama kanalını "doldurdum". Buna ek olarak, neredeyse sessiz veya kesilmiş bazı dosyalar da buldular, bu yüzden bazı ses analizleri yapmak ve kötü örnekleri otomatik olarak ortadan kaldırmak için bir yardımcı program yazdım. Bazı kötü dosyaları silmeme rağmen, sonunda toplam konuşma sayısını 100.000'e çıkardım. Bu, yardımları için daha fazla gönüllüye ve ücretli "kitle kaynakçısına" teşekkür etmek içindir.

Başkalarının bu veri setini kullanmasına (ve hatalarımdan ders almasına) yardımcı olmak için, ilgili tüm şeyleri ve en son doğruluk sonuçlarını bir kağıda yazdım (https://arxiv.org/abs/1804.03209). En önemli sonuç, modeli veya test verilerini değiştirmeden ilk sıranın doğruluğunun% 85,4'ten% 89,7'ye% 4 artmasıdır. Bu iyileştirme çok heyecan verici ve insanlar modeli bir Android veya Raspberry Pi demo uygulamasında kullandıklarında, daha yüksek memnuniyeti yansıtıyor. Model mimarisini ayarlamak için zaman harcarsam, modelimin en iyi model kadar iyi olmadığını bilmeme rağmen, sonunda kesinlikle doğrulukta o kadar iyileşme elde edemeyeceğime inanıyorum.

Bu, bir üretim ortamında defalarca harika sonuçlar üreten süreçtir. Ama aynı şeyi yapmak istiyorsanız, nereden başlayacağınızı bilmek zor.Ses verilerini işlemek için kullandığım tekniklerden biraz ilham alabilirsiniz. Daha açık olmak gerekirse, bulduğum bazı yararlı yöntemler.

Öncelikle verilerinizi anlayın

Bu açık görünebilir, ancak ilk adımınız kullanmaya başlayacağınız egzersiz verilerine rastgele göz atmak olmalıdır. Bazı veri dosyalarını yerel makinenize kopyalayın ve ardından bunları önizlemek için birkaç saat harcayın. Veri kümeniz bir resimse, küçük resim görünümünde gezinmek için MacOSlar gibi bir bulucu kullanabilir ve binlerce resmi hızlıca kontrol edebilirsiniz.

Ses için vizörü oynatmak ve önizlemek için kullanabilirsiniz ve metin için rastgele klipleri terminale aktarabilirsiniz.

Sesli komutun ilk versiyonunda, bunu yapmak için yeterince zaman harcamadım. Bu nedenle Kaggle katılımcıları bu veri setini kullanırken birçok sorunla karşılaşacaktır. Bu süreçten geçerken kendimi hep biraz aptal hissettim ama sonrasında hiç pişman olmadım. Bu süreci her bitirdiğimde, verilerde bazı önemli şeyler bulacağım. Örneğin, her kategorideki eşit olmayan, bozuk veriler (örneğin, JPG dosya uzantısıyla işaretlenmiş PNG), yanlış etiket veya sadece şaşırtıcı bir kombinasyondaki örnek sayısıdır.

Tom White, ImageNet'i gözlemleyerek bazı harika keşifler elde etti, bunlara "güneş gözlüğü" etiketi aslında "çöp kamyonunun" çekici lensinde kullanılan güneşi büyüten eski bir cihaz ve ölümsüz kadınlara karşı "pelerin" önyargısı da dahil. Andrejin işi, ImageNetteki fotoğrafları manuel olarak sınıflandırmak ve bu da bana veri kümeleri hakkında çok şey öğretti. Tek bir kişi için bile tüm farklı köpek ırklarını ayırt etmenin ne kadar zor olduğu dahil.

Ne yapacağınız, ne bulduğunuza bağlıdır. Verileri temizlemeden önce her zaman bu tür bir veri gözlemi gerçekleştirmelisiniz, çünkü veri setinin sezgisel bir şekilde anlaşılması, sonraki süreçte kararlar vermenize yardımcı olacaktır.

Hızlıca bir model seçin

Model seçmek için çok fazla zaman harcamayın. Görüntü sınıflandırması yapıyorsanız, AutoML'ye (https://cloud.google.com/automl/) başvurabilir veya Tensorflow'a benzer bir model kitaplığına bakabilir veya Fast.AI tarafından toplanan örneklerden benzer sorunlara bir çözüm bulabilirsiniz. Model ( Yinelemeye mümkün olan en kısa sürede başlamak önemlidir Böylece modelinizi önceden gerçek kullanıcılarla deneyebilirsiniz. Her zaman daha sonra geliştirilmiş bir model bulabilir ve belki daha iyi sonuçlar elde edebilirsiniz, ancak önce verileri almanız gerekir. Derin öğrenme, "çöp içeri, çöp dışarı" ("çöp içeri, çöp dışarı") temel hesaplama kuralını hala takip etmektedir. En iyi modeller bile eğitim seti kusurlarıyla sınırlıdır . Bir model seçip test ederek, bu kusurların ne olduğunu öğrenebilecek ve onları iyileştirmeye başlayabileceksiniz.

Yineleme hızınızı hızlandırmak için, mevcut büyük bir veri kümesi üzerinde önceden eğitilmiş bir modelle başlamayı deneyebilir ve ardından topladığınız veri kümesinde (küçük olabilir) ince ayar yapmak için aktarım öğrenmeyi kullanabilirsiniz. Bu genellikle yalnızca daha küçük bir veri kümesi üzerinde eğitimden çok daha iyidir ve çok daha hızlıdır ve veri toplama stratejisini nasıl ayarlayacağınızı hızla öğrenebilirsiniz. En önemlisi, sonuçlarınızı toplama sürecinize geri besleyebilirsiniz. Eğitimden önce ayrı bir aşama olarak veri toplamak yerine öğrenme durumunuza uyum sağlamak için.

Olmadan önce rol yap

Araştırma modeli ile üretim modeli arasındaki en büyük fark, araştırmanın genellikle başlangıçta net bir sorun ifadesine sahip olmasıdır, ancak Gerçek uygulama gereksinimleri, kullanıcının bilinçli davranışına kilitlenmiştir , Ve yalnızca zamanla çıkarılabilir.

Örneğin, Jetpac'ta şehrin otomatik seyahat rehberinde gösterilecek iyi bir fotoğraf bulmak istiyoruz. Başlangıçta, eleştirmenlerden iyi olduğunu düşündükleri fotoğrafları etiketlemelerini istedik, ancak sonunda sorunu bu şekilde açıkladıkları için gülümseyen insanların çok sayıda resmini gördük. Test kullanıcılarının nasıl tepki verdiğini görmek için bunları ürün modeline koyduk. Sonuç olarak, bu fotoğraflardan etkilenmediler, ilham almadılar.

Bu sorunu çözmek için sorulan soruyu yeniden tanımlıyoruz: "Bu fotoğraf, gösterildiği yere gitmek istemenizi sağlıyor mu?". Bu daha iyi sonuçlar almamızı sağladı, ama aynı zamanda kullandığımız işçilerin Güneydoğu Asyalı olduğunu da yansıtıyordu.Otelin takım elbise giyen ve kırmızı şarap kadehleri tutan insanlarla dolu olması nedeniyle toplantı fotoğraflarının harika göründüğünü düşünüyorlardı. Bu uyumsuzluk bize zaman içinde bir "balon" içinde yaşadığımızı hatırlatıyor, ancak bu gerçekten de gerçek bir sorun, çünkü Amerika Birleşik Devletleri'ndeki hedef kitlemiz bu konferans fotoğraflarını görünce hüsrana uğramış ve yetersiz hissedecek. Sonunda, JETPAC ekibindeki altı kişimiz iki milyondan fazla fotoğrafı manuel olarak değerlendirdi çünkü standarda eğitim verebileceğimiz herkesten daha aşinayız.

Bu aşırı bir örnek, ancak kanıtlıyor Markalama süreci büyük ölçüde uygulamanın ihtiyaçlarına bağlıdır . Çoğu üretim kullanım durumu için, modelin cevaplaması için doğru soruları bulma süreci vardır ve bu anahtardır. Modelinizle yanlış soruya cevap verirseniz, bu kötü temel üzerine asla güvenilir bir kullanıcı deneyimi oluşturamazsınız.

Fotoğraf Thomas Hawk

Size doğru soruları sormanın tek yolunun, makine öğrenimi döngüsünde tek başınıza kalmamak değil, uygulamanızı taklit etmek olduğunu söylemiştim. Perde arkasında bir kişi olduğu için buna bazen "Oz Büyücüsü" denir. Bir modeli eğitmek yerine, insanların seyahat rehberinin bazı örnek fotoğraflarını manuel olarak seçmelerine izin veriyoruz ve ardından resim seçme kriterlerimizi ayarlamak için test kullanıcılarından gelen geri bildirimleri kullanıyoruz.

Milyonlarca fotoğraftan oluşan bir eğitim seti almak için test kullanıcılarından güvenilir olumlu geri bildirim aldığımızda, fotoğraf seçme kurallarını bir etiket setine dönüştüreceğiz. Daha sonra milyarlarca fotoğrafın kalitesini tahmin edebilen bir model eğitti, ancak DNA'sı geliştirdiğimiz orijinal kılavuz kurallarından geliyor.

Gerçek veriler üzerinde çalışın

Jetpac'te, modelimizi eğitmek için kullandığımız görüntüler aynı veri kaynağından (çoğunlukla Facebook ve Instagram'dan) gelir ve model üzerinde kullanmak istediğimiz görüntülerdir. Gördüğüm yaygın bir sorun Eğitim veri seti, modelin sonunda üretimde göreceği girdiden önemli yönlerden farklılık gösterir. .

ImageNet, görüntü tanıma için dünyanın en büyük veritabanı

Örneğin, sık sık ImageNet üzerinde bir model eğiten ekipler görüyorum, ancak dronlarda veya robotlarda kullanmaya çalıştıklarında sorunlarla karşılaşıyorlar. ImageNet'in tüm fotoğrafları insanlar tarafından çekilmiş ve bu fotoğrafların pek çok ortak noktası var. Cep telefonu veya fotoğraf makinesi ile nötr bir lens kullanılarak çekilir ve nesneyi merkezde belirgin bir pozisyonda kaba bir yükseklikte, gündüz veya yapay aydınlatma koşullarında işaretler.

Robotlar ve drone'lar tarafından kullanılan kameralar genellikle yüksek görüşlü lenslerdir. İster yerden ister yukarıdan, aydınlatma zayıftır ve herhangi bir nesnenin akıllı çerçevesi yoktur, bu nedenle genellikle kırpılırlar. Bu fark, sadece ImageNet fotoğraflarından eğitilmiş bir modeli kabul edip bu cihazlara yerleştirirseniz, doğruluğun yüksek olmadığını göreceksiniz demektir.

Eğitim verilerinizin, modelin ihtiyaç duyması gereken eğitim verilerinden nasıl saptığına dair pek çok ince biçim vardır. Vahşi hayvanları tanımak için bir kamera yaptığınızı ve dünyanın her yerinden hayvan veri setleriyle eğitim aldığınızı hayal edin. Yalnızca Borneo ormanında konuşlandırırsanız, doğru penguen etiketi oranı kesinlikle son derece düşüktür. Antarktika fotoğrafları eğitim verilerine dahil edilirse, penguenler için yanlış şeyler yapma olasılığı daha yüksek olacaktır, bu nedenle toplam hata oranınız, bu görüntüleri eğitimde hariç tutmanızdan daha kötü olacaktır. Sonuçlarınızı önceden bilinen bilgilere dayanarak kalibre etmenin bazı yolları vardır (örneğin, bir orman ortamında büyük ölçekli penguenlerin olasılığı), ancak ürünün karşılaştığı gerçek durumu yansıtan bir eğitim seti kullanmak daha kolay ve daha etkilidir.

Buldum en iyi yol Doğrudan gerçek uygulamadan elde edilen verileri kullanın , Bu veriler, yukarıda bahsedilen Oz Büyücüsü yöntemiyle iyi bağlantılıdır. Döngüdeki kişiler, ilk veri setinin etiketleyicileri haline gelir.Toplanan etiketlerin sayısı az olsa bile, gerçek kullanımı yansıtacaklardır ve aktarım öğrenimi için bazı ön deneyler yeterli olmalıdır.

Göstergeyi takip edin

Sesli komut örneği üzerinde çalışırken, en sık gördüğüm rapor eğitim sırasında kafa karışıklığı matrisiydi. Konsolda nasıl görüntüleneceğini gösteren bir örnek:

Bu korkutucu görünebilir, ancak aslında ağın yaptığı hataların ayrıntılarını gösteren bir tablodur. İşte daha güzel bir etiket versiyonu:

Tablodaki her satır, gerçek etiketlerin aynı olduğu bir dizi örneği temsil eder. Her sütun, numunenin karşılık gelen etiket olacağının tahmin edilme sayısını temsil eder. Örneğin, vurgulanan çizgi gerçekte sessiz olan tüm ses örneklerini temsil eder.Soldan sağa okursanız, doğru olduğu tahmin edilen etiketleri görebilirsiniz ve her biri tahmin edilen sessizlik sütununda yer alır. Bu bize şunu söylüyor: Bu model gerçek sessiz örnekleri çok iyi bulabilir ve negatif örnek yoktur. Ne kadar sesin sessiz olacağının tahmin edildiğini gösteren sütunun tamamına bakarsak, bazı ses kliplerinin aslında sessiz sütununda yanlış sınıflandırıldığını görebiliriz Bu sütunda birçok yanlış pozitif var. Bu çok yardımcı oldu, çünkü yanlışlıkla sessiz olarak sınıflandırılan bölümleri daha dikkatli bir şekilde analiz etmeme izin verdi ve çoğunun son derece sessiz kayıtlar olduğunu buldu. Karışıklık matrisinin sağladığı ipuçlarına dayanarak, düşük hacimli ses kliplerini ortadan kaldırdım ve bu da veri kalitesini iyileştirmeme yardımcı oldu.

Sonuçların çoğu yararlı olsa da, buldum Karışıklık matrisi iyi bir uzlaşmadır, çünkü çok fazla karmaşık ayrıntı sunmadan sadece kesin bir değerden daha fazla bilgi verir. Eğitim sırasında sayılardaki değişiklikleri gözlemlemek yararlıdır çünkü size modelin öğrenmeye çalıştığı kategorileri söyleyebilir ve veri setini temizlemeye ve genişletmeye odaklanmanıza olanak tanır.

Benzer yaklaşım

Modelimin eğitim verilerini nasıl yorumladığını anlamanın en sevdiğim yollarından biri görselleştirmedir. TensorBoard bu tür bir keşfi iyi bir şekilde destekleyebilir. Genellikle kelime yerleştirmelerini görselleştirmek için kullanılsa da, neredeyse her katman için kullanışlı buluyorum ve kelime yerleştirme gibi çalışıyor. Örneğin, görüntü sınıflandırma ağları genellikle gömme olarak kullanılabilen son tam bağlı katmandan veya softmax'tan önce bir ağ katmanına sahiptir (bu, TensorFlow for Poets iş akışına çok benzeyen basit bir aktarım öğrenme örneğidir (aşağıdaki adres)). Bunlar tam anlamıyla yerleştirme değildir, çünkü eğitim sürecinde gerçek yerleştirme düzeninde ideal uzamsal niteliklerin olmasını sağlayacak bir mekanizma yoktur, ancak vektörlerini kümelemek gerçekten çok sayıda ilginç şey üretebilir. (Https://codelabs.developers.google.com/codelabs/tensorflow-for-poets/#2)

Pratik bir örnek vermek gerekirse, birlikte çalıştığım bir ekibin, bazı hayvan imajı sınıflandırma modellerinin yüksek hata oranıyla kafası karışmıştı. Eğitim verilerinde farklı kategorilerin nasıl dağıtıldığını gözlemlemek için küme görselleştirmeyi kullanırlar. "Jaguar" kategorisine baktıklarında, iki grup arasındaki mesafeyi açıkça gördüler.

Resim djblock99Dave Adams

Bu gördükleri bir resim.Her kümenin fotoğrafları görüntülendiğinde, birçok Jaguar marka arabanın yanlışlıkla Jaguar kedisi olarak etiketlendiği açıktır. Ekip üyeleri bunu bilirlerse, etiketleme sürecine dikkat edecekler ve çalışanların yönünün ve etiketleme için kullanıcı arayüzünün mükemmel olmadığını anlayacaklardır. Bu bilgilerle, notlandırıcıların (kişiler) eğitim sürecini iyileştirebilir ve açıklama araçlarını düzeltebilirler. Bu, Jaguar kategorisindeki tüm araba resimlerini kaldırabilir ve bu kategori için daha iyi bir model sağlayabilir.

Kümeleme, eğitim setini derinlemesine anlamanıza ve verileri keşfederken benzer faydalar elde etmenize olanak tanır. Bununla birlikte, ağ aslında girdi verilerini kendi öğrenme ve anlayışına göre sıralar ve gruplandırır ve ardından verileri keşfetmeniz için size rehberlik eder. İnsanlar görsel bilgilerdeki anormallikleri bulmada çok iyidir, bu nedenle sezgilerimizi ve bilgisayarların büyük miktarda veriyi işleme yeteneğini birleştirmek, veri setlerinin kalitesini izlemek için çok esnek bir çözümdür. Bunu yapmak için TensorBoard'un nasıl kullanılacağı bu makalenin kapsamı dışındadır (makale yeterince uzun ve okumaya devam ettiğiniz için minnettarım). Ancak sonuçlarınızı gerçekten iyileştirmek istiyorsanız, bu araca aşina olmanızı şiddetle tavsiye ederim.

Veri toplama durdurulamaz

Daha fazla veri toplamanın modelin doğruluğunu artırmadığı bir örnek görmedim ve deneyimlerimi destekleyecek birçok çalışma var.

Bu resim, "makul olamayacak kadar etkili eğitim verilerinin yeniden incelenmesinden" geliyor ve veri seti yüz milyonlara ulaşmış olsa da, görüntü sınıflandırma modelinin doğruluğunun hala artmakta olduğunu gösteriyor. (Https://ai.googleblog.com/2017/07/revisiting-unreasonable-effectiveness.html)

Facebook son zamanlarda büyük veri hacimlerini daha derinlemesine kullandı, Örneğin, yeni kayıt doğruluğu elde etmek için ImageNet sınıflandırmasında milyarlarca etiketli Instagram resmi kullanılır. Bu, büyük, yüksek kaliteli veri kümeleriyle ilgili sorunlar için bile, eğitim kümesinin boyutunu artırmanın model sonuçlarını iyileştirmeye devam edebileceğini göstermektedir.

Bu, kullanıcılar daha yüksek hassasiyetli modellerden yararlanabildiği sürece, veri kalitesini sürekli iyileştirmek için bir stratejiye ihtiyacınız olduğu anlamına gelir. Mümkünse, daha büyük veri kümeleri elde etmek için zayıf sinyalleri bile kullanmanın yaratıcı bir yolunu bulun. Facebook'un Instagram etiketlerini kullanması buna iyi bir örnektir. Başka bir yol, etiketleme "ardışık düzeninin" zekasını, örneğin, etiketleyicinin hızlı kararlar alabilmesi için, ilk model tarafından tahmin edilen etiketleri önermek için araçlar ekleyerek geliştirmektir. Bu başlangıçta riskli olabilir, ancak pratik uygulamalardaki faydalar genellikle bu riski aşar. Yeni eğitim verilerini etiketlemek için daha fazla kişiyi işe alarak bu sorunu çözmek genellikle değerli bir yatırımdır. Ancak bu tür harcamalar için genellikle bütçe olmadığından organizasyon sürecinde pek çok zorluk yaşanacaktır. Kâr amacı gütmeyen bir kuruluşsa, destekçilerinizin bir tür kamu aracı aracılığıyla gönüllü olarak verilere katkıda bulunmalarına izin verebilirsiniz; bu, para harcamadan veri kümesinin boyutunu artırmanın iyi bir yoludur.

Elbette, herhangi bir kuruluş, normal kullanımdayken ek açıklama verileri oluşturabilen bir ürüne sahip olmayı umar. Bu fikre fazla takıntılı olmayacağım, pek çok gerçek dünya kullanım durumuna uymuyor. Yani, insanlar karmaşık etiketleme sorusuna dahil olmadan mümkün olan en kısa sürede bir cevap almak isterler. Bir başlangıç şirketiyseniz, bu iyi bir yatırım projesidir çünkü modeli geliştirmek için sürekli bir hareket makinesi gibidir. Ancak, aldığınız verileri temizlerken veya artırırken, neredeyse her zaman bir birim maliyet vardır, bu nedenle sonunda harcanan para, genellikle gerçekten ücretsiz bir şeyden çok, ticari kitle kaynak kullanımının ucuz bir versiyonu gibi görünür.

Tehlikeli bölgeye giden otoyol

Model hatalarının ürün kullanıcıları üzerindeki etkisi, genellikle kayıp işlevi tarafından yakalanan hatalardan daha büyüktür. Önceden olası en kötü sonucu düşünmeli ve bundan kaçınmak için model için yardımcı bir program tasarlamalısınız. Bu, asla tahmin etmek istemeyeceğiniz bir kategori kara listesi olabilir, çünkü yanlış pozitifler çok pahalıdır. Veya sonucun ayarladığınız parametre sınırını aşmamasını sağlamak için bir dizi basit algoritmanız vardır. Örneğin, üründe görünmeye uygun olmadıkları için eğitim setinde olsalar bile metin oluşturucunun çıkmasını asla istemediğiniz kaba dillerin bir listesini tutabilirsiniz.

Gelecekte ne gibi kötü sonuçların çıkabileceğini her zaman bilemeyeceğimiz için gerçek dünyadaki hatalardan ders almak önemlidir. Doğru ürün veya pazara sahipseniz, gerçeklikten öğrenmenin en kolay yolu hata raporlamasını kullanmaktır. Ayrıca, kullanıcılar istemedikleri şeyleri göstermek için uygulamanızı kullandıklarında, kullanıcılara uygun bir geri bildirim yolu sağlamalısınız. Mümkünse, tüm girdileri modele alın, ancak veriler hassassa, yanlış çıktının ne olduğunu bilmek, nedenini araştırmanıza yardımcı olabilir. Bu kategoriler, hangi verilerin daha fazla toplanacağını belirlemek için kullanılabilir ve bu kategoriler, mevcut etiketin kalitesini anlamanıza izin verebilir.

Modelde yeni bir değişiklik yaptığınızda, önceden kötü sonuçlar veren bir dizi girdi olacak ve bunlar normal test setine ek olarak ayrı ayrı değerlendirilecektir. Bu biraz regresyon testi gibidir ve size kullanıcı deneyimini ne kadar iyi iyileştirdiğinizi izlemenin bir yolunu sunar, çünkü tek bir model doğruluk ölçümü asla insanların ilgilendiği her şeyi tam olarak yakalayamaz. Geçmişte güçlü tepkilere neden olan bazı örneklere bakarak, aslında kullanıcılarınız için daha iyisini yaptığınıza dair bazı bağımsız kanıtlara sahip olursunuz. Bazı durumlarda, veriler çok hassas olduğu için girdi verileri elde edilemezse, bu hataları ne tür girdilerin üreteceğini belirlemek için dahili testler veya dahili deneyler kullanılabilir ve daha sonra bu verileri regresyon veri setinde değiştirir.

Hikaye nedir, tavada bir flaş mı?

Umarım sizi verilerinize daha fazla zaman ayırmaya ikna etmişimdir ve enerjinizi iyileştirmek için nasıl harcayacağınız konusunda size bazı fikirler vermişimdir. Veri alanına odaklanmak, değdiği kadar değildir ve buradaki tavsiyemin yalnızca verilerin yüzeyiyle ilgili olduğunu gerçekten hissediyorum. Benimle stratejilerini paylaşan herkese minnettarım ve umarım başarılı yöntemleriniz hakkında daha fazla insandan haber alabilirim. Makine öğrenimi araştırmacılarının ilerlemeyi sürdürmesine izin vermek yerine, mühendis ekiplerini veri setlerinin iyileştirilmesine ayıran daha fazla organizasyon olacağını düşünüyorum. Tüm alanın gelişimini görmek için sabırsızlanıyorum. Modelin ciddi şekilde hatalı eğitim verileriyle bile hala iyi çalışabildiğine her zaman şaşırdım. Bu nedenle, veri kümemizin kalitesi yükseldikçe ne yapabileceğimizi görmek için sabırsızlanıyorum.

Orjinal başlık:

Egzersiz verilerinizi neden iyileştirmeniz gerekiyor ve bunu nasıl yapmalısınız?

Orijinal bağlantı:

https://petewarden.com/2018/05/28/why-you-need-to-improve-your-training-data-and-how-to-do-it/

Çevirmen Profili

Shen Libin , Yüksek lisans öğrencisi, ana araştırma yönü büyük veri makine öğrenmesidir. Şu anda NLP'de derin öğrenme uygulamasını öğreniyorum, THU veri pastası platformunda büyük veriyi seven arkadaşlarla öğrenmeyi ve ilerlemeyi umuyorum.

2 ay önce Asya Kupası'nda ölümcül bir hata yapan oyuncu hala milli futbol takımının kaptanı!
önceki
"Pekin Yapay Zeka Sektörü Geliştirme Teknik Raporu" yayınlandı (indirme ektedir)
Sonraki
2017 Ultimate Science Fiction Watching Guide - Sahnede görücüye çıkan yeni diziler
Nut Pro siparişleri de ödüyor mu? Luo Yonghao, işin çok zor olduğunu söyledi ve biz yapmadık
100'den fazla şair "Çinli Şair" in doğum gününü kutladı
Makine öğreniminde güven aralığının derinlemesine analizi (kodla)
Ulusal Futbol Çin Kupası forma numaraları açıklandı: Wang Yongpo, Zheng Zhi No. 10 ve Wei Shihao No. 7'yi devraldı!
Bu reklam, herkesi ellerini kesmemeye ikna ettiği için yasaklandı, arkasındaki hikaye insanları ağlatıyor ...
Özel Çin'in Kentsel Mekansal Gelişimini Analiz Etmek için Didi Seyahat Verilerini Kullanın (video PPT ile)
"Emtia kodu", 5G, çatı akıllı garajı taşınıyor ... Wuhan'da geleceği görün!
Euro 2020 henüz başlamadı! Önceden şampiyonluğu kazanan ilk favoriler ve Portekiz sadece altıncı sırada
Akıllı futbol ve video hakemlerine ek olarak, Dünya Kupası'na yardımcı olacak bu yapay zeka siyah teknolojileri de var!
Küresel sıcaklık yeniden rekoru kırdı ve 2016 tarihin en sıcak yılı oldu
GIF-Meksika Ligi amatör sahnesi! Karius'un sahip olduğu gibi, Süper Lig kalecisi kadar utanç verici
To Top