g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

HPAIC İnsan Protein Atlası Sınıflandırması Altın Madalya Deneyim Paylaşımına Meydan Okuyor

Lei Feng net notu: Bu makale Jilian AI Araştırma Enstitüsü tarafından hazırlanmıştır.

Yakın zamanda, Kaggle sponsorluğunda, Leica Microsystems ve NVIDIA sponsorluğunda HPAIC (Human Protein Atlas Image Classification) yarışması resmen sona erdi. Üç ay süren yarışma, dünyanın her yerinden toplam 2.236 takımın katıldığı Jilian AI Araştırma Enstitüsü ve Mühendislik Enstitüsü sonunda altın madalyayı kazandı.

rekabet bitti

Proteinler, insan hücrelerinde birlikte yaşamı destekleyen birçok işlevi yerine getiren "aktörlerdir". Proteinlerin sınıflandırılması, bir veya birkaç hücre tipindeki tek bir modelle sınırlıdır, ancak insan hücrelerinin karmaşıklığını tam olarak anlamak için, modelin bir dizi farklı insan hücresindeki karışık modelleri sınıflandırması gerekir.

Hücrelerdeki protein görüntülerinin görselleştirilmesi genellikle biyomedikal araştırmalarda kullanılır ve bu hücreler bir sonraki tıbbi atılımın anahtarı olabilir. Bununla birlikte, yüksek verimli mikroskopideki ilerlemeler nedeniyle, bu görüntülerin üretilme hızı, manuel değerlendirme hızının çok üzerindedir. Bu nedenle, insan hücrelerinin ve hastalıklarının anlaşılmasını hızlandırmak için otomatik biyomedikal görüntü analizine her zamankinden daha fazla talep var.

Bu biyolojik bir yarışma olmasına rağmen, özünde görüntülerin makine görüşü doğrultusunda çok etiketli sınıflandırılmasıdır.Katılımcı ekiplerde ayrıca makine görüsü ve makine öğrenimi alanında birçok rekabet uzmanı yer almaktadır.

veri analizi

Yetkili bize iki tür veri seti sağladı, biri 512x512 png resimler, diğeri 2048x2048 veya 3072x3072 TIFF resimler, veri seti yaklaşık 268G, eğitim seti: 31072 x 4 sayfa, test seti: 11702 x 4 sayfa.

Bir protein haritası 4 boyama yönteminden (kırmızı, yeşil, mavi, sarı) oluşur ve görüntü örnekleri aşağıdaki gibidir:

4 kanalı aşağıda gösterildiği gibi 3 kanal (RYB) görselleştirme görüntüsünde birleştiriyoruz:

Bu yarışmada Nucleoplasm, Nuclear membran vb. Gibi 28 kategori vardır ve her harita görüntüsünde bir veya daha fazla etiket olabilir. Etiket sayısı aşağıdaki gibidir:

Etiket sayısının 1-3 arasında yoğunlaştığı görülebiliyor ancak yine de 5 etiketli görseller olacak ki bu da oyuna belli bir zorluk derecesi katıyor.

Öte yandan zorluk, veri setindeki örnek sayısının çok düzensiz olmasıdır.En çok görüntüye sahip kategori 12.885 görüntüye sahip ve en az görüntüye sahip kategoride ise sadece 11 görüntü var.Bu, rekabet açısından büyük zorluklar yaratıyor.Örnek sayılarının dağılımı şekilde görülüyor. Dışarı.

Yarışma sırasında katılımcılar kademeli olarak resmi ek veri seti HPAv18'i keşfettiler ve resmi izin aldılar.Bu veri setlerinden 105.678 var, bu da örnek sayısını büyük ölçüde artırdı ve bize çok yardımcı oldu.

Çevresel kaynaklar

Donanım açısından, model eğitim çerçevemiz olarak 4 NVIDIA TESLA P100 grafik kartı ve pytorch kullandık.

Görüntü ön işleme

HPAv18 görseli ile resmi görsel arasında belli bir fark vardır.Ayrıca 4 boyama yönteminden oluşsa da her bir boyanmış görüntü resmi tek kanallı bir görüntü değil RGB görüntüsüdür ve üç RGB kanalının değerleri oldukça farklıdır. , Bu görüntüleri önceden işliyoruz, her RGB görüntüsü için yalnızca bir kanal alıyoruz (r_out = r, g_out = g, b_out = b, y_out = b) ve bu görüntüleri 512x512 ve 1024x1024 olarak ölçeklendiriyoruz.

TIFF dosyaları için, bu veri setini indirmek için bir hafta harcadık ve ardından tüm görüntüleri 1024x1024 olarak ölçeklendirdik.

Veri büyütme

Yarışmamızda kullanılan üç büyütme yöntemi vardır: Döndürme, Çevirme ve Kesme; bir görüntüdeki birden çok hücre arasında bir ilişki olup olmadığını bilmediğimizden, bu nedenle yarışmada rastgele kırpma büyütme yöntemleri kullanılmaz.

model

Sonunda üç temel model kullandık: Inceptionv3, Inceptionv4 ve Xception.Oyunun erken aşamasında VGG, ResNet, ResNext, SeNet'i test ettik, ancak etki çok iyi değildi, bu nedenle oyunun sonunda başka testler yapılmadı.

Ağın görüntüleri daha iyi anlamasını sağlamak için 512, 650 ve 800 olmak üzere üç ölçek kullanıyoruz. Buna ek olarak, her ölçek, doğrulama kümesinin bölümünün genel ağ üzerinde bir etkiye sahip olmasını sağlamak için 10 kat çapraz doğrulama gerçekleştirir ve modelin tahminini değerlendirmek için doğrulama seti kullanılır. Kötü ve belirli modeller ve bunlara karşılık gelen parametreler. Farklı modeller çapraz doğrulandığında, mümkün olduğunca çok sayıda farklı örnek kombinasyonunu öğrenmek için doğrulama setini ve eğitim setini bölmek için farklı rastgele tohumlar kullanılır.

Inceptionv3 ve Inceptionv4'ün 512 sonucu iyi değildi (0.55+ genel liderlik tablosu eşiği 0.15), bu nedenle çapraz doğrulama yapılmadı, ancak temel model 512 ölçeğiyle eğitildi ve 650 ve 800 ince ayarlarında kullanıldı.

Model değişikliği:

1. Birinci evrişim katmanının giriş kanallarının sayısı, diğer evrişim parametreleri değişmeden tutularak 3'ten 4'e değiştirilir, böylece ağ 4 kanallı girişle başa çıkabilir;

2. Aynı ağın birden çok ölçekte kullanılabilmesini sağlamak için son havuz katmanını global havuz katmanı olacak şekilde değiştirin;

3. Genel havuzlamadan sonra, 128 tam bağlantıdan oluşan bir katman ekleyin ve ardından 28 tam bağlantıdan oluşan bir katman bağlayın.

Eğitim

Eğitim sürecinin parametreleri aşağıdaki gibidir:

kayıp: MultiLabelSoftMarginLoss

lr: 0.05 (512, imagenet eğitim öncesi), 0.01 (650 ve 800, 512 eğitim öncesi);

lrscheduler: steplr (gama = 0.1, adım = 6)

optimize edici: SGD (adam, rms iyi değil)

Dönemler: 25, 600 ve 800 genellikle 12-20'de erken sona erer ve en düşük kayıplı model

10 kat CV

örnekleme ağırlıkları:

ölçek: 512, 600, 800

Bağımsız eşik

Her kategori için uygun bir eşik bulmak çok zordur, ancak birden fazla eşik, puanı iyileştirmenin anahtarıdır.Benim için 0,005 ~ 0,008 artabilir. Eşiği bulmak için doğrulama setini kullanırız, tek bir xception 512 modeli eğitiriz ve doğrulama seti% 13'dür. Her kategorinin eşiğini ayarlamak f1 puanını optimum hale getirir, ancak nadir kategorinin eşiğinin genellikle çok yüksek olduğunu ve genel lb'nin daha kötü hale geleceğini gördük. Bu nedenle, yalnızca 1.000'den fazla doğrulama kümesine sahip kategorileri düzenledik. Nadir kategori kontrol eşiği 0,15'tir. Bu yöntemle bulunan eşik, diğer modellerde veya entegrasyonda da geçerlidir.

Ölçek

Yarışmadan sonra, özel liderlik tablosu puanlarını görüntülemek için yarışmada eğitilen modeli yeniden gönderir ve aşağıdaki sonuçları alırız:

Yarışma sırasında, 10 katlı topluluk yapmanın tek katlamadan daha iyi olmadığını gördük, bu nedenle nihayet bazı modelleri entegre ettiğimizde, sadece kısmi katları seçtik (kayba göre seçildi).

Arama

Teste ve hpa'ya benzer resimleri bulmak için alma yöntemini (bu özellik, başlangıç v4800'ün 128 boyutlu özelliğini kullanır) ve ölçmek için kosinüs benzerliğini kullanırız, birçok benzer ve hatta aynı resmi bulduk, doğrudan en yüksek benzerliğe sahip 300 resmi kullanırız Değişimin sonucu, puan genel lb'de 0,01 ~ 0,015 artar, ancak özel LB'de etkisi yoktur. Yetkili ayrıca oyun sırasında bazı test görüntülerinin HPA'daki bazı görüntülerle çakıştığını, bu nedenle artık puan hesaplamasının yapılmadığını belirtti.

Birleşik

3840 boyutlu yeni özellikler elde etmek için 10 katlı inceptionv3, inceptionv4 ve xception 800 (l2 ilk) modelinin özelliklerini bir araya getiriyoruz ve bu temelde eğitim için 2 katmanlı tamamen bağlı bir ağ tasarlıyor ve eğitim için 10 kat CV yapıyoruz Süreçte uyumsuz parametre eğitimi süreci şekilde gösterilmiş ve en düşük kayıplı parametreyi aldık. Sonuç, özel lb: 0,55150 genel lb: füzyondan sonra 0,62791'dir.

Yukarıdaki yöntemin genel lb'de daha yüksek bir puanı olmasına rağmen, diğer modellerin sonuçlarıyla birleştirildiğinde, bunun yerine genel LB puanı düşüyor, bu nedenle bu modelin ağırlığını düşürdük.

Nihai sonuç, ağırlıklı füzyon yoluyla elde edilir. Ağırlıklar, modelin public lb puanına göre belirlenir. Inceptionv4800 ve inceptionv3800 en yüksek ağırlıklara sahiptir ve xception 650 en düşüktür. Aynı zamanda, bazı inceptionv4 ve xception kıvrımları da kullanılır.

Lei Feng net press: rekabet adresi, çözüm

Ode to Joy 2'nin dört erkek kahramanı arasında en otoriter arabaya sahip kim?

MDNS yeni ARMY PRINT serisi sürüm bilgileri onaylandı! En sevdiğin arkadaşların olsun istemiyor musun? !