Veri analizi hileleri burada: altı Kaggle yarışmasının en kapsamlı analizi (aşağıda)

Leifeng.com AI Araştırma Enstitüsü'ne göre, veri analizi sırları burada: Altı Kaggle yarışmasının (Bölüm 1) en kapsamlı analizi, AI Araştırma Enstitüsü, Titanic, konut fiyatı tahmini dahil olmak üzere yapılandırılmış verilerin ve NLP verilerinin işleme yöntemlerini tanıtıyor. Kötü niyetli yorum sınıflandırması ve korku romancılarının tanımlanmasına ilişkin dört yarışmanın ayrıntılı analizi.

Bu makale, örnek olarak Yaprak Sınıflandırma ve Akciğer Kanseri Tespit Yarışması (Data Science Bowl 2017) alınarak görüntü yarışmalarında veri işleme deneyimini tanıtacaktır.

Metin aşağıdaki gibidir, Leifeng AI Araştırma Enstitüsü tarafından derlenmiş ve derlenmiştir:

görüntü

Şimdiye kadar, sunduğum şey metin (dil, dizgi veya sayı) veri kümeleridir ve sonunda analiz etmek için iki görüntü veri seti getireceğim.

Seçtiğim iki yarışma (akciğer kanseri tespiti ve yaprak sınıflandırması) gördüğüm diğer yarışmalardan daha profesyonel. Buradaki analiz artık temel bir analiz değil, farklı teknolojileri keşfetmeye odaklanıyor, bu nedenle üst düzey okuyucular için uygun.

Görselleştirme teknolojisinde ve özellik yapımında birçok değişiklik gördüm. Özellikle akciğer kanseri yarışmasında bazı yazarlar var olan tıbbi bilgileri son derece özelleşmiş özellikler oluşturmak için kullandılar.Bu özelliklerin ne kadar iyi olduğu söylenemese de buradaki görselleştirme etkisi şaşırtıcı.

Yaprak sınıflandırması

Yarışmada sağlanan veri seti, türlere göre sınıflandırılmış 1.584 işaretli yaprak görüntüsünü içerir.Katılımcılar, yaprak görüntülerini işaretin dışında sınıflandırmak için bir model oluşturmalıdır.

Analiz için seçtiğim EDA'lar lorinc'ten Görüntülerden Özellik Çıkarımı, Selfishgene'den Yaprak Veri Kümesi ile PCA'yı Görselleştirme ve Jose Alberto'dan Hızlı Görüntü Keşfi idi.

İlk adım, yaprakların görüntüsüne daha yakından bakmaktır.

selfishgene yaprak örneklerini inceler

Jose, çeşitli yaprak türleri çizdi ve her türün 10 resmi olduğunu belirtti. Benzer yapraklar arasındaki benzerlikleri de gözlemledi.

Lorinc doğrudan analiz aşamasına atlar, her yaprağın merkezini bulur ve kenar algılama teknolojisini uygular.Ayrıca yaprağın merkezini daha etkili bir şekilde ölçmek için yaprağın dış hatlarını kutupsal koordinatlara dönüştürür:

Daha sonra, şekilden bir zaman serisi oluşturmak için kenar ile merkez arasındaki mesafeyi kullandığımızda, merkezin etkinliğine bağlı olarak başka bir merkezilik ölçüsüne geçmek isteyebiliriz. Bir yol, merkez ile kenar arasındaki (Öklid) mesafesini ölçmektir ... ama daha iyi bir yol var - Kartezyen koordinatları kutupsal koordinatlara yansıtmamız.

selfishgene görüntünün varyans yönünü seçer:

Yüksek boyutlu görüntü uzayında her bir görüntü farklı bir "yön" olarak görülebilir.

Selfishgene tarafından görülen yaprak görüntüsünün varyansı

Selfishgene ayrıca görüntü yeniden yapılandırma, ortalama görüntü etrafındaki model değişiklikleri ve özellik vektörleri üzerinde biraz zaman harcadı.

Üst satır, her özellik vektörünün veri dağılımını ("yön" boyunca histogram), ikinci satır, önceki şekilde gördüğümüz varyans yönünü ve dördüncü satır, yaprakların medyan görüntüsünü içerir. Bu çizginin tüm özellik vektörleri için aynı olduğunu belirtmek gerekir.

Selfishgene tarafından görülen model deformasyonu

Özellik algılama

Lorinc, her numuneyi iki parçaya bölmeyi ve bunları iki numune olarak işlemeyi tavsiye eder (bu yöntemi kullanmasa da). lorinc, zaman serilerindeki yerel maksimum ve minimumları bulur (örneğin, kutupsal koordinatlarda çizilmiş yapraklar) ve kaydeder:

Bu yöntemin oldukça iyi performans göstermesine şaşırdım. Ondan çok etkili bir özellik oluşturabileceğimi düşünüyorum. Ancak bu yöntemin sağlamlığı pek iyi değil:

19 numaralı yaprak için yaprağın sonunu bulamadı, sadece merkezden en uzak noktayı buldu. 78 numaralı yaprak için, daha karmaşık veya dönen yapraklar üzerinde etkinin zayıf olduğu görülebilir.

lorinc, ölçülen yaprakların minimum ve maksimum değerlerini kutupsal koordinatlarda çizer

Lorinc, her yaprağın etrafında gürültünün varlığını keşfettikten sonra matematiksel morfoloji hakkında konuştu. Görüntüdeki gürültünün nasıl giderileceğini bulmak için biraz zaman harcadı ve yaprakların üzerine bindirilmiş mesafe haritasını göstermek için hoş bir görüntü kullandı:

lerinc yaprağın merkezinden uzaklığı ölçer

Akciğer kanseri

Seçtiğim EDA'lar, Guido Zuidhof'un Tam Ön İşleme Eğitimi, Mikel Bober-Irizar'ın Keşifsel Veri Analizi ve Alexandru Papiu'nun Keşifsel Analiz Görselleştirmesidir.

Anokas, tek bir görüntünün meta verilerini kontrol eder ve hastanın doğum tarihinin gizlendiğini görebilir (19000101)

2017 Data Science Bowl yarışması, katılımcıların bir hastanın kanser olup olmadığını tahmin etmek için bir dizi görüntüyü tespit etmesini gerektirdi. Bu yarışmada gerçekten yapılandırılmış veriler (görüntülere otomatik olarak gömülü etiket bilgileri) bulunmasına rağmen, verilerin bir kısmı anonimdir, bu da başlangıçta öngörücü özelliklerin (hastanın yaşı gibi) mevcut olmadığı anlamına gelir. Bu, tüm çekirdeklerin yalnızca görüntü analizine odaklandığı anlamına gelir.

Üç çekirdek yazarı arasında, Guido tıbbi görüntülerle tartışan tek kişidir.Bu, veri setinin analizinde görülebilir:

Dicom, çok fazla meta veri (piksel boyutu gibi) içeren tıbbi görüntüleme dosyaları için bir standarttır. Farklı taramalardaki piksel boyutu ve taneciklik farklıdır (örneğin, dilimler arasındaki mesafe farklı olabilir), bu da CNN'nin performansını etkileyebilir. Başa çıkmak için izomorfik yeniden örneklemeyi kullanabiliriz.

Diğer iki yazar EDA'larına veri setinin ve görüntünün kendisinin daha kapsamlı bir araştırmasıyla başladı.

apapie görüntünün şeklini kontrol etti ve anokas her hasta için tarama sayısını, toplam tarama sayısını ve her hastanın DICOM dosyasının histogramını gözlemlemeye başladı. Ayrıca kimlik ile hastanın kanser olup olmadığı arasında bir ilişki olup olmadığını da kontrol etti (bir ilişki olmadığını buldu , Bu, veri setinin düzeninin çok düzenli olduğu anlamına gelir).

Alexandru pikselleri ayırır ve resmi çizer:

Guido, HU'nun EDA'da neyi temsil ettiğini (hava, doku ve kemik) açıkladı:

görüntü

Her yazar şu resimleri incelemeye devam ediyor:

Anokas bir grup hasta görüntüsünü gözlemliyor

Alexandru, görüntüleri röntgen yoluyla görüyor

Alexandru, kenar algılamanın görüntüleri iyileştirip iyileştiremeyeceğini araştırmak için biraz zaman harcadı.

Eşiği yükselttikten sonra, Alexandru bazı göz alıcı görüntüler gösterdi

Alexandru şu sonuca varmıştır:

İlginç bir şekilde, filtre akciğerlerdeki kan damarlarını da tespit edebilir, bu nedenle küreleri ve boruları ayırt etmek için kullanılan bazı üç boyutlu yüzey algılama ve farklılaştırma teknikleri bu durum için daha uygun olacaktır.

Aynı zamanda Guido, DICOM görüntülerinin temel özelliklerine odaklanarak yeniden örneklemeyi tartıştı:

Taramada piksel aralığı [2,5, 0,5, 0,5] olabilir, bu da dilimler arasındaki mesafenin 2,5 mm olduğu anlamına gelir. Farklı taramalar için, otomatik analiz için belirli sorunları olan [1.5, 0.725, 0.725] olabilir (örneğin, ConvNets kullanırken). Bu sorunu çözmenin yaygın yolu, tüm veri setini belirli bir izotropik çözünürlüğe (izotropik çözünürlük) yeniden örneklemektir. Tüm verileri 1mm * 1mm * 1mm piksellerde yeniden örneklemeyi seçersek, Dilim kalınlığını ölçekleme ve sabitleme konusunda endişelenmeden 3B evrişimli ağları kullanabilirsiniz.

Bundan sonra Guido, tespit edilen parçanın üç boyutlu haritasını tamamlamak için EDA'da birden fazla DICOM görüntüsünü birleştirdi:

Başka bir versiyonda, hafızayı azaltmak için çevredeki havayı çıkarın:

3D görüntü

Yorumlar

Bu yarışma şimdiye kadar gördüğüm en eşsiz yarışma. Guido'nun tıbbi görüntülere aşinalığı göz önüne alındığında, bu arka planı daha ince sonuçlar çıkarmak için kullanabilir. Ancak bu, tıbbi geçmişi olmayan diğer iki yazarın aynı derecede ilginç sonuçlar çıkarmasını engellemedi.

sonuç olarak

  • Yapılandırılmış veriler

Yapılandırılmış veriler için analiz, hedef değişken ile diğer değişkenler arasındaki korelasyonu bulma eğilimindedir ve değişkenleri görselleştirmek veya sıralamak önemli miktarda zaman alır.

Küçük bir veri kümesi için, analiz edilebilecek çok fazla veri sütunu vardır, ancak farklı yarışmacılar tamamen farklı görselleştirme yöntemleri kullanır ve özellik mühendisliğini seçmede daha yaratıcıdır.

  • Doğal dil veri kümesi

Bu EDA'lardan, doğal dil veri setleriyle uğraşırken herkesin benzerlikleri olduğunu görebiliriz, ancak özellik mühendisliğinin seçimi ve analizinde, büyük değişikliklerle sonuçlanan farklı sonuçlar çıkarılacaktır.

  • Görüntü veri seti

Görüntü yarışmasında, analiz ve özellik mühendisliği büyük çeşitlilik gösterdi. Gördüğüm imaj yarışmaları ağırlıklı olarak belirli bir birikime sahip katılımcılar içindir ve daha ileri çeşitlilik üretebilecek bazı özel alanlardadır.

Veri seti daha profesyonel veya ezoterik hale geldiğinde, giriş analizi ve yorumlama azalacak ve daha derinlemesine ve özel analiz artacak ve ben de bunu görüyorum. Farklı veri türlerinin açıkça farklı eğilimlere sahip olmasına rağmen, profesyonel alan bilgisi önemli bir rol oynar. Akciğer kanseri ve yaprak rekabetinde, profesyonel alan bilgisini araştırmaya dahil etmek daha derin analizi destekleyebilir. (İlginç bir şekilde, kendi araştırmamda da bu durumla karşılaştım. Jeremy Howard, Rossman'ın veri setini fast.ai kursunda ve en başarılı modellerin üçüncü taraf veri setlerini nasıl entegre ettiğini tartıştı. Daha doğru satış tahminleri yapmak için sıcaklık, depo yeri vb.)

Yarışmacılar özellik mühendisliği ile uğraşırken, birleşik bir süreç yoktur. Bazı insanlar analize başlamayı seçerken, diğerleri bunu ilk analiz tamamlandıktan sonra ayrı bir adım olarak kullanır.

Son olarak, gördüğüm her analiz kılavuzunun, analiz ve yazmayı etkileyen belirli bir okuyucusu (başlangıç veya ileri düzey araştırmacı) vardır.

Daha popüler yarışmaların bazılarında veya sıradan araştırmacılar için yarışmalarda, EDA analizi ayrıntılıdır. Bu EDA'larda, yeni başlayanların teknolojiyi daha iyi anlamalarına yardımcı olmak için analiz ederken tamamlayıcı veya anlatıların serpiştirildiği bir eğilim de görüyorum.

Aksine, daha kıdemli araştırmacıları hedefleyen notlar, gereksiz anlatı açıklamalarını kaldırma eğilimindedir ve çoğu temel veri analizini atlar ve belirli bir alandaki teknolojiye doğrudan gider.

Bu makaleyi gözden geçirdikleri için Michelle Lew, Ari Zilnik, Sean Matthews ve Bethany Basile'ye özel teşekkürler.

aracılığıyla: thekevinscott.com

Leifeng.com AI Araştırma Enstitüsü tarafından derlenmiş ve derlenmiştir.

1499'dan 14999'a, monitör fiyat farkı neden bu kadar yüksek?
önceki
Serbestçe makro ve mikro geçiş, "Ant-Man 2" nin IMAX 3D sürümünü izlemesinin 5 nedeni!
Sonraki
Qingdao'da bir araba sahibi yorgun sürüş nedeniyle 5 ölüm ve 3 yaralanmaya neden oldu.
10 saatte 924 kilometre koşan özel araba sürücüsü, hastaya Chongqing'den Wuhan'a karaciğer nakli için eşlik etti.
Lüks oyun yapılandırması Razer Lingblade 15 oyun dizüstü bilgisayarı IEM'de tanıtıldı
Heyecan verici Wang Feng + Calm Jing Kun, işitsel interaktif eğlence için Xiaoqing AI hoparlörünü piyasaya sürdü
"Mission Impossible 6", "güç-güç hesaplaşması" uzun metrajlı film çekimini ortaya çıkarır, Tommy boğulmakla tehdit edilir
Converse, Paskalya için FUZZY BUNNY serisini başlattı. Tüylü All Star'ı gördün mü?
"Hollow Knight: Song of Silk" yeni karakter tanıtımı, güçlü düşmanlar ve arkadaşlar çıkışı
Oyunun kanı yeniden kaynıyor IEM 2019 finalleri Katowice'ye dönüyor
CPU'da CPU'dan daha fazlası, cep telefonunun CPU'sunda ne var
Famicom puanı: "Yoshi's Crafting World" Platin sarayda 37 puan
Macbook Pro nihayet güncellendi, ancak dikkate alınması gereken bazı şüpheler var
Apple, AIDS'in önlenmesi için para toplamak amacıyla kırmızı özel sürüm iPhone 8 / 8P'yi piyasaya sürdü
To Top