Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:
Kökenin Gizemi - Fast.AI Libray kullanarak Kanser Türü Sınıflandırması
Yazar | Alena Harley
Tercüme | Bay Gan portakalları Reddetmeyi seviyor | Sos
Bitirme | ananas kız
Orijinal bağlantı:
https://medium.com/@alenaharley/the-mystery-of-the-origin-cancer-type-classification-using-fast-ai-libray-212eaf8d3f4e
Not: Bu makaledeki ilgili bağlantılar için, erişmek için lütfen makalenin sonundaki [Orijinal metni okuyun] öğesini tıklayın.
Kanseri sınıflandırmak için gizemli kökeni kullanan Fast.AI kitaplığı
Kanserlerin yaklaşık% 15'i metastaz yapacak, yani kanser hücreleri orijinal konumdan (birincil bölge veya doku) ayrılacak, kan veya lenfatik sistem yoluyla metastaz yapacak ve yeni metastatik tümörler oluşturacaktır. Kanserin etkili tedavisi genellikle kanserin başlangıç konumunun belirlenmesine bağlıdır ve metastatik tümörlerin başlangıç konumunun belirlenmesi, mevcut kanser tedavisinde çözülmemiş sorunlardan biridir.
Kanseri, tümör gen mutasyonlarındaki nokta mutasyonları yoluyla sınıflandırmak, esas olarak veri kıtlığından dolayı son derece zordur. Çoğu tümör, kodlama bölgesinde, çoğu oldukça benzersiz olan yalnızca birkaç mutasyona sahiptir.
Önceki çalışmalarda, tümör noktası mutasyonlarına dayalı kanser sınıflandırıcılarının doğruluğu sınırlıdır ve DeepGene algoritması gibi 12 tümör kategorisinde sınıflandırmanın doğruluğu yalnızca% 64,9'dur. Gen ekspresyon verilerinin kullanımıyla, tümör sınıflandırıcılarının doğruluğu büyük ölçüde iyileştirilebilir (33 tümör kategorisi% 90'dan fazlasına ulaşabilir), ancak bu ek verilerin klinik ortamda elde edilmesi genellikle kolay değildir. Bu nedenle, diğer gen ekspresyon verilerine dayanmadan yalnızca DNA nokta mutasyonlarından tümör tiplerini tahmin edebilen doğru hesaplama yöntemleri büyük önem taşımaktadır.
Peki çözüm nedir?
Kuantum fiziği kuramcısının dediği gibi: "Her gelişmiş sorunun kendine özgü bir çözümü vardır. Sorunun arkasındaki çözümü bulmak için düşünme tarzımızı değiştirmeliyiz."
Yüzleşmemiz gereken zorluklar:
Veri ifadesi - derin sinir ağları veri setinde üstün performans gösterse bile, önceden eğitilmiş derin sinir ağlarını ifade etmek için mevcut verileri kullanamayız. Ancak kanser genomu uygulamaları alanında eğitim verisi azdır ve veri genişletme gibi yöntemler bu alana uygun değildir. Kanser Genom Atlası'nda (TCGA), 29 kanser kategorisinde dağıtılmış 9642 örnek bulunmaktadır.
Genetik düzeyde bile, tümör noktası mutasyonlarına ilişkin veriler azdır. Kanser biyolojisinde ilginç bir gözlem var: Aynı yolun genlerindeki kanser mutasyonları genellikle birbirini dışlar. Aşağıdaki şekil kanserden etkilenen "Herman" sürecine (yoluna) bir örnektir. Resim Douglas Hanahan'ın gazetesinden ve yol mavi ile işaretlenmiş.
Öyleyse neden nokta mutasyon verilerini kodlamak için yolu kullanmayalım? Kendi Gene2Vec kodumuzu eğitmek için yoldaki gen üye bilgilerini nasıl kullanacağız?
Bu temel bir genellemeye sahiptir, genlerin ayrıntılı bilgilerini okumadan yüksek performansla ilgilidir - sadece DNA nokta mutasyonlarına dayanarak 29 tümör tipinde% 78,2 sınıflandırma doğruluğu elde edebilir.
3.1 Veri toplama ve ön işleme
TCGA varyant açıklama formatı klasörünü genom verileri açık kaynak web sitesinden indirdik ve ardından sessiz mutasyonları kaldırdık ve yalnızca insan genomu derlemesi GRCh38 (hg38) tarafından açıklanan genleri sakladık. Özellikle 29 tümör tipi için, veri setinin% 80'ini eğitim için ve kalan% 20'sini test için kullanıyoruz.
Her tümör tipi eğitim setinde sessiz olmayan mutasyonları tespit ediyoruz ve ardından sessiz olmayan mutasyonlarda önemli mutasyonlara sahip genleri tanımlamak için MutSigCV kullanıyoruz. Bu şekilde, son derece seyrek veri setlerinin önemli özelliklerini çıkarabiliriz. Belirli bir genin baz bileşimi, uzunluğu ve arka plan mutasyon oranı dahil ortak değişkenler hesaba katıldığında, MuTSigCV tarafından tespit edilen mutasyon oranı rastgele beklentilerden daha yüksek olacaktır. Daha sonra 1.348 geni önemli mutasyonlarla bıraktık.
Biyoloji ile ilgili veri yerleştirmelerini öğrenmek için Gene2Vec'i eğittik ve ardından 17.810 yolu içeren, bilinen tüm yolların bir veritabanı olan MSigDb sürüm 6.2'yi kullandık. Word2Vec ruhuna uygun olarak, benzer genlerin yolunu yakındaki noktalara eşleriz. Burada, aynı yol arka planında görünen genlerin aynı biyolojik işleve sahip olduğunu varsayıyoruz ve Gene2Vec'i tanımlarken standart bir Skip-Gram modeli kullanılır.
3.2 Mutasyon verilerini görüntüye dönüştürme
Bundan sonra, eğitim setine gömülü önemli mutasyonlara sahip 1348 gen ile eğitilmiş Gene2Vec'i çıkarıyoruz. Bu adım bir kare matris oluşturacak ve ardından spektral kümeleme algoritmasını kullanacaktır (spektral kümeleme, i boyutlu N veri noktasını bölme yöntemidir. Bir alanı birkaç kümeye bölme tekniği) gömülü matriste görsel bir yapı oluşturur. Ardından, eğitimi kodlamak ve örnekleri test etmek için spektral kümeleme geni yerleştirmeyi kullanın. Soldaki görüntü, bir mide kanseri örneğinin gömülü bir örneğidir ve aşağıdaki görüntü, 1348 önemli mutasyon geninin gen gömülmesinin t-dağıtılmış rastgele komşu gömülmesinin (t-SNE) bir görselleştirmesidir. KRAS ve PTEN (kolorektal kanser) gibi aynı kanser yolağında yer alan genlerin ekspresyon açısından birbirine daha benzer olduğu; TP53, APC ve MSH6 (DNA uyumsuzluğu onarımı) da diğer genlere göre daha yakın olduğu gözlemlenebilir.
3.3 Transfer öğrenimi ve ince ayar-Hızlı AI:
ResNet34 modelinin eğitim öncesi ağırlıklarını ImageNet üzerinde başlatma olarak kullanıyoruz ve tümör sınıflandırmasının hedef görevini tamamlamak için tümör görüntüsü yerleştirmemizi kullanıyoruz. Görüntüyü 512x512 olarak yeniden ölçeklendirin ve ImageNet görüntüsünün ortalama ve standart sapmasıyla eşleşecek şekilde normalleştirin. Toplu iş boyutu, GTX 1070 Ti GPU'ma uyacak şekilde 32'ye ayarlandı.
İnce ayarın ilk aşamasında, son katman dışında tüm özel ResNet34 tam bağlı katmanlar dondurulur. Öğrenme oranı bulucuyu kullanarak 0,01'lik bir öğrenme oranı seçin, Leslie Smith'in makalesine ve bunun Fast.AI deposundaki özel uygulamasına ayrıntılı olarak bakın. Eğik üçgen öğrenme oranının eğitim döngüsü 10 döngüdür ve ilk aşamanın doğruluğu% 73,2'dir.
İkinci aşamada, ayırt edici ince ayar kullanıyoruz ve öğrenme oranını 0.000001 ila 0.001 olarak belirlemek için öğrenme oranı bulucuyu kullanıyoruz. Farklı katmanların farklı derecelere ince ayarlanması gerektiğinden, farklı ince ayar derin sinir ağının katmanlarını farklı gruplara böler ve her gruba farklı bir öğrenme hızı uygular. Kalan en erken blok en küçük olanıdır ve tamamen bağlı katmanın öğrenilmesidir. Oran en büyüğüdür. Eğitimin ikinci aşamasında, eğimli üçgen öğrenme oranına sahip 12 eğitim döngüsü kullandık. İlk aşamanın tamamlanması için doğruluk oranı% 78,3 idi.
Aşağıdaki şekil sınıflandırıcımızın kafa karışıklığı matrisidir:
Yumurtalık seröz kistadenokarsinomu (OV) ve meme kanseri (BRCA) gibi bazı yanlış sınıflandırmaların esas olarak aynı organ sisteminde olduğunu gözlemledim.
Ayrıca yumurtalık seröz kistadenokarsinomunun (OV) en yüksek hata oranına sahip olduğunu gözlemledim. Bu şaşırtıcı değildir, çünkü diğer kohortlardaki çok sayıda gen ile karşılaştırıldığında, bu kohorttaki yalnızca 6 gen önemli mutasyonlara sahiptir.
Ancak en önemli gözlemim, Fast.AI kitaplığının en gelişmiş aktarım öğrenmesine ve ince ayar işlevlerine izin vermesidir. Verilerin doğru gösterimi göz önüne alındığında, son teknoloji bir sınıflandırıcı oluşturmak çok basit hale gelecektir: Bu şekilde, daha fazla sınıf ayırt ederken, önceki en yüksek düzeyde yapılan hataları% 30'dan fazla azalttım . Jeremy ve Fast.AI'ye teşekkürler.
Jeremy ve Rachel'dan daha fazla şey öğrenmeyi dört gözle bekliyorum (:-), öğrendiğim bilgileri ince ayarlayarak ve onu diğer önemli ve ilginç problemleri çözmek için kullanmak!
Yukarıdaki açıklamayla ilgili herhangi bir sorunuz varsa, lütfen beni twitter @ alenushka'da bulun
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz? Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
Bağlantıya uzun basın ve açmak için tıklayın veya alttaki [orijinal metni okuyun]:
AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak günceller, daha heyecan verici içerikler izleyin:
Çevirmenizi bekliyorum: