Fast.AI kütüphanesi ile kanser sınıflandırmasını gerçekleştirin

Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:

Kökenin Gizemi - Fast.AI Libray kullanarak Kanser Türü Sınıflandırması

Yazar | Alena Harley

Tercüme | Bay Gan portakalları Reddetmeyi seviyor | Sos

Bitirme | ananas kız

Orijinal bağlantı:

https://medium.com/@alenaharley/the-mystery-of-the-origin-cancer-type-classification-using-fast-ai-libray-212eaf8d3f4e

Not: Bu makaledeki ilgili bağlantılar için, erişmek için lütfen makalenin sonundaki [Orijinal metni okuyun] öğesini tıklayın.

Kanseri sınıflandırmak için gizemli kökeni kullanan Fast.AI kitaplığı

Bölüm 1 Sorun: Köksüz Ağaç

Kanserlerin yaklaşık% 15'i metastaz yapacak, yani kanser hücreleri orijinal konumdan (birincil bölge veya doku) ayrılacak, kan veya lenfatik sistem yoluyla metastaz yapacak ve yeni metastatik tümörler oluşturacaktır. Kanserin etkili tedavisi genellikle kanserin başlangıç konumunun belirlenmesine bağlıdır ve metastatik tümörlerin başlangıç konumunun belirlenmesi, mevcut kanser tedavisinde çözülmemiş sorunlardan biridir.

Kanseri, tümör gen mutasyonlarındaki nokta mutasyonları yoluyla sınıflandırmak, esas olarak veri kıtlığından dolayı son derece zordur. Çoğu tümör, kodlama bölgesinde, çoğu oldukça benzersiz olan yalnızca birkaç mutasyona sahiptir.

Önceki çalışmalarda, tümör noktası mutasyonlarına dayalı kanser sınıflandırıcılarının doğruluğu sınırlıdır ve DeepGene algoritması gibi 12 tümör kategorisinde sınıflandırmanın doğruluğu yalnızca% 64,9'dur. Gen ekspresyon verilerinin kullanımıyla, tümör sınıflandırıcılarının doğruluğu büyük ölçüde iyileştirilebilir (33 tümör kategorisi% 90'dan fazlasına ulaşabilir), ancak bu ek verilerin klinik ortamda elde edilmesi genellikle kolay değildir. Bu nedenle, diğer gen ekspresyon verilerine dayanmadan yalnızca DNA nokta mutasyonlarından tümör tiplerini tahmin edebilen doğru hesaplama yöntemleri büyük önem taşımaktadır.

Bölüm 2 Çözüm = Gömülü + Transfer Öğrenimi + İnce Ayar

Peki çözüm nedir?

Kuantum fiziği kuramcısının dediği gibi: "Her gelişmiş sorunun kendine özgü bir çözümü vardır. Sorunun arkasındaki çözümü bulmak için düşünme tarzımızı değiştirmeliyiz."

Yüzleşmemiz gereken zorluklar:

  • Veri ifadesi - derin sinir ağları veri setinde üstün performans gösterse bile, önceden eğitilmiş derin sinir ağlarını ifade etmek için mevcut verileri kullanamayız. Ancak kanser genomu uygulamaları alanında eğitim verisi azdır ve veri genişletme gibi yöntemler bu alana uygun değildir. Kanser Genom Atlası'nda (TCGA), 29 kanser kategorisinde dağıtılmış 9642 örnek bulunmaktadır.

  • Genetik düzeyde bile, tümör noktası mutasyonlarına ilişkin veriler azdır. Kanser biyolojisinde ilginç bir gözlem var: Aynı yolun genlerindeki kanser mutasyonları genellikle birbirini dışlar. Aşağıdaki şekil kanserden etkilenen "Herman" sürecine (yoluna) bir örnektir. Resim Douglas Hanahan'ın gazetesinden ve yol mavi ile işaretlenmiş.

Öyleyse neden nokta mutasyon verilerini kodlamak için yolu kullanmayalım? Kendi Gene2Vec kodumuzu eğitmek için yoldaki gen üye bilgilerini nasıl kullanacağız?

Bu temel bir genellemeye sahiptir, genlerin ayrıntılı bilgilerini okumadan yüksek performansla ilgilidir - sadece DNA nokta mutasyonlarına dayanarak 29 tümör tipinde% 78,2 sınıflandırma doğruluğu elde edebilir.

Bölüm 3 Ayrıntılı Uygulama Süreci

3.1 Veri toplama ve ön işleme

TCGA varyant açıklama formatı klasörünü genom verileri açık kaynak web sitesinden indirdik ve ardından sessiz mutasyonları kaldırdık ve yalnızca insan genomu derlemesi GRCh38 (hg38) tarafından açıklanan genleri sakladık. Özellikle 29 tümör tipi için, veri setinin% 80'ini eğitim için ve kalan% 20'sini test için kullanıyoruz.

Her tümör tipi eğitim setinde sessiz olmayan mutasyonları tespit ediyoruz ve ardından sessiz olmayan mutasyonlarda önemli mutasyonlara sahip genleri tanımlamak için MutSigCV kullanıyoruz. Bu şekilde, son derece seyrek veri setlerinin önemli özelliklerini çıkarabiliriz. Belirli bir genin baz bileşimi, uzunluğu ve arka plan mutasyon oranı dahil ortak değişkenler hesaba katıldığında, MuTSigCV tarafından tespit edilen mutasyon oranı rastgele beklentilerden daha yüksek olacaktır. Daha sonra 1.348 geni önemli mutasyonlarla bıraktık.

Biyoloji ile ilgili veri yerleştirmelerini öğrenmek için Gene2Vec'i eğittik ve ardından 17.810 yolu içeren, bilinen tüm yolların bir veritabanı olan MSigDb sürüm 6.2'yi kullandık. Word2Vec ruhuna uygun olarak, benzer genlerin yolunu yakındaki noktalara eşleriz. Burada, aynı yol arka planında görünen genlerin aynı biyolojik işleve sahip olduğunu varsayıyoruz ve Gene2Vec'i tanımlarken standart bir Skip-Gram modeli kullanılır.

3.2 Mutasyon verilerini görüntüye dönüştürme

Bundan sonra, eğitim setine gömülü önemli mutasyonlara sahip 1348 gen ile eğitilmiş Gene2Vec'i çıkarıyoruz. Bu adım bir kare matris oluşturacak ve ardından spektral kümeleme algoritmasını kullanacaktır (spektral kümeleme, i boyutlu N veri noktasını bölme yöntemidir. Bir alanı birkaç kümeye bölme tekniği) gömülü matriste görsel bir yapı oluşturur. Ardından, eğitimi kodlamak ve örnekleri test etmek için spektral kümeleme geni yerleştirmeyi kullanın. Soldaki görüntü, bir mide kanseri örneğinin gömülü bir örneğidir ve aşağıdaki görüntü, 1348 önemli mutasyon geninin gen gömülmesinin t-dağıtılmış rastgele komşu gömülmesinin (t-SNE) bir görselleştirmesidir. KRAS ve PTEN (kolorektal kanser) gibi aynı kanser yolağında yer alan genlerin ekspresyon açısından birbirine daha benzer olduğu; TP53, APC ve MSH6 (DNA uyumsuzluğu onarımı) da diğer genlere göre daha yakın olduğu gözlemlenebilir.

3.3 Transfer öğrenimi ve ince ayar-Hızlı AI:

ResNet34 modelinin eğitim öncesi ağırlıklarını ImageNet üzerinde başlatma olarak kullanıyoruz ve tümör sınıflandırmasının hedef görevini tamamlamak için tümör görüntüsü yerleştirmemizi kullanıyoruz. Görüntüyü 512x512 olarak yeniden ölçeklendirin ve ImageNet görüntüsünün ortalama ve standart sapmasıyla eşleşecek şekilde normalleştirin. Toplu iş boyutu, GTX 1070 Ti GPU'ma uyacak şekilde 32'ye ayarlandı.

İnce ayarın ilk aşamasında, son katman dışında tüm özel ResNet34 tam bağlı katmanlar dondurulur. Öğrenme oranı bulucuyu kullanarak 0,01'lik bir öğrenme oranı seçin, Leslie Smith'in makalesine ve bunun Fast.AI deposundaki özel uygulamasına ayrıntılı olarak bakın. Eğik üçgen öğrenme oranının eğitim döngüsü 10 döngüdür ve ilk aşamanın doğruluğu% 73,2'dir.

İkinci aşamada, ayırt edici ince ayar kullanıyoruz ve öğrenme oranını 0.000001 ila 0.001 olarak belirlemek için öğrenme oranı bulucuyu kullanıyoruz. Farklı katmanların farklı derecelere ince ayarlanması gerektiğinden, farklı ince ayar derin sinir ağının katmanlarını farklı gruplara böler ve her gruba farklı bir öğrenme hızı uygular. Kalan en erken blok en küçük olanıdır ve tamamen bağlı katmanın öğrenilmesidir. Oran en büyüğüdür. Eğitimin ikinci aşamasında, eğimli üçgen öğrenme oranına sahip 12 eğitim döngüsü kullandık. İlk aşamanın tamamlanması için doğruluk oranı% 78,3 idi.

Aşağıdaki şekil sınıflandırıcımızın kafa karışıklığı matrisidir:

Bölüm 4 Gözlemlerimden Bazıları

Yumurtalık seröz kistadenokarsinomu (OV) ve meme kanseri (BRCA) gibi bazı yanlış sınıflandırmaların esas olarak aynı organ sisteminde olduğunu gözlemledim.

Ayrıca yumurtalık seröz kistadenokarsinomunun (OV) en yüksek hata oranına sahip olduğunu gözlemledim. Bu şaşırtıcı değildir, çünkü diğer kohortlardaki çok sayıda gen ile karşılaştırıldığında, bu kohorttaki yalnızca 6 gen önemli mutasyonlara sahiptir.

Ancak en önemli gözlemim, Fast.AI kitaplığının en gelişmiş aktarım öğrenmesine ve ince ayar işlevlerine izin vermesidir. Verilerin doğru gösterimi göz önüne alındığında, son teknoloji bir sınıflandırıcı oluşturmak çok basit hale gelecektir: Bu şekilde, daha fazla sınıf ayırt ederken, önceki en yüksek düzeyde yapılan hataları% 30'dan fazla azalttım . Jeremy ve Fast.AI'ye teşekkürler.

Jeremy ve Rachel'dan daha fazla şey öğrenmeyi dört gözle bekliyorum (:-), öğrendiğim bilgileri ince ayarlayarak ve onu diğer önemli ve ilginç problemleri çözmek için kullanmak!

Yukarıdaki açıklamayla ilgili herhangi bir sorunuz varsa, lütfen beni twitter @ alenushka'da bulun

Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz? Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı

Bağlantıya uzun basın ve açmak için tıklayın veya alttaki [orijinal metni okuyun]:

AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak günceller, daha heyecan verici içerikler izleyin:

Bu 25 açık kaynak makine öğrenimi projesi, çoğu kişiye söylemediğim

CVPR 2018 Özeti: Birinci Bölüm

Makine Öğrenimi 2019: AI Geliştirme Trendlerinin Analizi

Alan uyarlamalı geliştirmenin gözden geçirilmesi: 2017

Çevirmenizi bekliyorum:

2018.11 En Popüler On Makine Öğrenimi Popüler Web Makalesi

AI ile ilgili sorun nedir? ML / AI'ya asla körü körüne güvenmeyin

Makine öğrenimi ile nasıl değer yaratılır?

Makine öğrenimi, filmlerde sigara içen çekimleri tanımayı öğrendiğinde, başkalarını tanımayacağından mı korkuyorsunuz?

Southwest Üniversitesi: Zhang Xuefeng, özrü için yaptığı açıklamaları affetmeyecek
önceki
"Ode to Joy 2" tekrar geri dönüyor, kahramanın kullandığı arabayı hatırlayın
Sonraki
Meizu Note9 randevu açıyor, Snapdragon 675 bin yuan kamera kralı onu bekliyor!
Koshima Haruna YOHOOD'da sizi bekliyor!
Dünya ödülünü alın ve CEO olun ... 90'ların sonrası aşkı gömme bağımlısı olduğunda, 2000'ler şimdiden dünyaya hâkim oldu
"Wolf Warriors II", "Tıp Tanrısı" ndan "Dolaşan Dünya" ya, aslında budur.
On yedi aylık gösterişli çalışma! Meizu Flyme 7 resmen yayınlandı
Meizu Note9 yeni özelliklerini tekrar ortaya çıkarıyor, 4000 mAh pil pil ömrü sınırını mı aşıyor?
Hangzhou kızı, bin yuan'a bir gecelik bir oda kiralayarak Vietnam'a gidiyor, uzaktan erişim kapı kilidine bağlı
"Savaş alanını canlandırmak" deriz genellikle tavuk yemek, bu tavuk nerede! biliyor musun?
WTAPS'ın öncülü olan FPAR, kesinlikle Japon sokak kültürünü temsil edebilir!
Yıllık okul müdürü burada! Tsinghua Yılın Öğrenci Kişisi açıklandı, başarılarının sırrı sadece 4 kelime
"Kaptan Marvel" ve "Aegis'in Direktörü" yeni eser "Unicorn Store"! Brie Larson, bir gökkuşağı kızının hayalini gerçekleştiriyor
Fox CTCC geliyor, bu yeni arabalar Mayıs ayında satışa sunulacak
To Top