Amazon uzmanları açıklıyor: Otomatik meme kanseri tespiti için derin öğrenme modeli nasıl oluşturulur?

Annie, Insight Data Science'tan derlendi

Qubit Üretildi | Genel Hesap QbitAI

Bu makalenin yazarı, Amazon Alexa proje ekibinde veri uzmanı olan ve Rice Üniversitesi'nde Uygulamalı Fizik alanında doktora öğrencisi olan Sheng Weng'dir. Asıl araştırması, biyofotonik görüntüleme ve mikroskopiyi dönüştürmek için ultra hızlı lazerleri kullanmaktır.

Kısa bir süre önce, doktora sonrası gruplar için 7 haftalık bir değişim programı ve akademi ile iş dünyası arasında tıbbi veri araştırması ve alışverişi için bir köprü olan Insight Data Science Gençlik Programına katıldı. Bu proje sırasında Sheng Weng, tıbbi test şirketi iSono için derin öğrenmeyi kullanarak meme kanserini otomatik olarak tespit etmek için yeni bir model oluşturdu ve araştırma ilkelerini şirketin resmi blogunda yayınladı. Kübitlerin tam metni şu şekilde derlenir ve düzenlenir:

Sheng Weng bilgi alanı resmi

Arkaplan bilgisi

Meme kanseri, dünya çapında kadın ölümlerine neden olan ikinci önde gelen kanser türüdür ve invazif meme kanseri ana meme kanseri türüdür. Raporlara göre, Amerika Birleşik Devletleri'ndeki sekiz kadından birine invaziv meme kanseri teşhisi konulacak. 2017 yılında, yaklaşık 255.180 hastaya invaziv meme kanseri teşhisi konacağı ve 40.610 hastanın meme kanserinden öleceği tahmin edilmektedir.

Genel olarak, doktorlar sağlıklı kadınlara, özellikle prevalansı daha yüksek olan 50 yaş üstü orta yaşlı kadınlara yılda bir kez meme kanseri taraması yaptırmalarını önermektedir. Geleneksel muayene prosedürleri genellikle mamografi ve ultrason görüntü algılamayı içerir, ancak bu daha öznel bir tanıdır ve doktorun seviyesine çok bağlıdır.

iSono Health, kadınların aylık meme kanseri kendi kendine tespitini teşvik etmek için düşük maliyetli bir otomatik ultrason görüntü algılama platformu geliştirmeye adanmış bir başlangıç şirketidir. Oluşturduğum modelin, tespit sonuçlarını analiz etmek için iSono uygulamasını kullanması gerekiyor. İyi huylu ve kötü huylu meme kitlelerini ultrason görüntüleriyle ayırt edebiliyor ve gerçek zamanlı olarak kaydedilip görüntülenebilir.

Verilere genel bakış

iSono Health, JPEG formatında 2.6842D meme ultrason görüntüsü içeren orijinal bir veri seti sağlamıştır. Bu ham verileri kategorize ettik:

İyi huylu vakalar: 1007 vaka

Kötü huylu vakalar: 1499

Atipik vakalar: 178 vaka

İyi huylu patojenik tipler: 12 vaka

Malign patojenik tip: 13 vaka

Atipik patojenik tipler: 3 vaka

Çoğu ultrason inceleme görüntüsünün boyutu 300 * 225 pikseldir ve her pikselin değeri 0 ile 225 arasındadır. Bu görüntüler farklı kanallardan gelir, bu nedenle duruma ilişkin yargılar ve çözümler farklıdır. Toplam 12 iyi huylu hastalık tipi vaka ve 13 kötü huylu hastalık tipi vaka vardır.Aşağıdaki şekil farklı tipte meme lezyonlarının bir konsantrasyonunu göstermektedir.

Lezyon tespitini ikili bir sınıflandırma problemi (iyi huylu veya kötü huylu) yapmak için, tüm patojenik türleri ve atipik vaka bilgilerini göz ardı ettim ve bu görüntülerin model yarısını oluşturmak ve değerlendirmek için rastgele 1920 görüntü seçtim İyi huylu, diğer yarısı kötü huylu iken, nispeten dengeli bir veri kümesidir.

veri Hazırlama

Ultrason görüntülerinde benek parazitini gidermek için 3 * 3 medyan filtre kullanıyorum ve her görüntüdeki piksel değerlerini normalize ediyorum, böylece sıfır ortalama olacak.

Öncelikle, meme kanserinin karmaşık görüntü sınıflandırma problemi için 1920 görüntü nispeten küçük bir veri setidir. Verilerin genişletilmesi, aşırı uyumu azaltabilir ve çekici bir çözüm olan modelin genelleme yeteneğini artırabilir. Bu veri setini% 75 eğitim,% 12,5 doğrulama ve geri kalan% 12,5 test veri seti olmak üzere üçe ayırıyoruz. Meme lezyonlarının dönüşe duyarlı olmadığı varsayımına dayanarak, her resmi döndürüyorum. Spesifik olarak, her resim rastgele -10 ° ile 10 ° arasında döndürülür ve 12 kez tekrarlanır ve son olarak 1920 * 12 = 23040 görüntü elde edilir. Tüm lezyonun görüntünün merkezinde olmasını istediğim için kırpma veya hareket ettirme gibi diğer geliştirme tekniklerini kullanmadım.

Gözlemlere göre, resimlerdeki hemen hemen tüm lezyonlar (lezyonlar ve çevresindeki alanlar dahil) görüntünün merkezinde, bu yüzden resmi 200 * 200 piksel boyutunda kırpabiliyorum, bu da görüntü döndürmenin neden olduğu dolguyu da ortadan kaldırabilir. Ağı kontrol edilebilir tutmak için, her görüntü, 40 * 40 piksel boyutunda olan orijinal görüntünün beşte birine indirgenir. Aşağıdaki resim, veri hazırlamanın akış şemasıdır.

Veri geliştirme adımı bittikten sonra, şimdi test için 17.280 eğitim görüntüsü, 2880 doğrulama görüntüsü ve 2880 görüntü var. Her veri seti, iyi huylu vakaların ve kötü huylu vakaların% 50'sini içerir. Veri geliştirmeden önce, doğrulama ve test seti ve eğitim seti ayrılır, böylece gruplar arasında orijinal görüntülerin çakışması olmaz.

algoritma

Uygun bir sınıflandırıcı elde etmek için, geleneksel yöntem genellikle üç adımdan oluşur: özellik çıkarma, özellik seçimi ve sınıflandırma. Bu üç adımın ayrı ayrı ele alınması ve ardından birbirine entegre edilmesi gerekir. Ayırt edici özelliklerin çıkarılması, sonraki özellik seçimi ve sınıflandırmasının zorluğunu azaltabilir. Bununla birlikte, etkili özellikler probleme dayalıdır ve görüntü işlemedeki her ara sonuca büyük ölçüde bağlıdır, bu nedenle genellikle farklı kullanıcılar için çok sayıda deneme yanılma tasarımı ve müdahale gerektirir.

Son yıllarda derin öğrenme teknolojisindeki gelişmeler, görüntü sınıflandırma tasarımını değiştirebilir. "Nature", yakın zamanda cilt kanserinin derin evrişimli sinir ağları kullanılarak sınıflandırılmasında bir ilerleme olduğunu bildirdi ve etkisi, dermatologların yargısı ile karşılaştırılabilir. "Derinliğin" özel anlamı tanımlanmamıştır, ancak basit bir ifadeyle, derin öğrenme yapısının "derinliğini" gerçekten etkileyen her bir nöron arasındaki olası bağlantıların sayısıdır.

Derin öğrenme, özellik çıkarma ve seçimi hakkında ayrıntılı açıklama yapmadan eğitim verilerinden özellikleri doğrudan çıkarabilir. Sinir ağı, giriş bilgilerini nöron katmanları aracılığıyla iletir ve ardından giriş bilgilerini çıktı bilgisine dönüştürür. Geri yayılımın yardımıyla, sinir ağının iç ağırlıkları, her yinelemede elde edilen hata bilgilerine göre otomatik olarak güncellenir.

Bu projede, Fully Connected Neural Network (FCNN) ve Convolutional Neural Network (CNN) olmak üzere iki farklı derin öğrenme mimarisinin performansını inceledim ve karşılaştırdım. Her iki model de, Amazon Bulut Hizmetleri (AWS) EC2 p2.xlarge kullanılarak python ve TensorFlow kullanılarak Nvidia Tesla K80 GPU'da uygulanmaktadır.

Tamamen bağlı sinir ağı

Tamamen bağlı bir sinir ağında, her nöron bir önceki katmandaki tüm nöronlara bağlıdır ve her bağlantının kendi ağırlığı vardır. Ancak ağırlıklar arasındaki bilgi nöronlar tarafından paylaşılmaz. Tamamen bağlı bir sinir ağını kullanmadan önce, tüm 2B görüntüleri 1600 uzunluğunda 1B dizisine dönüştürmek için ek bir adım gereklidir.

Kurduğum tam bağlı sinir ağında bir giriş katmanı, üç gizli katman (her biri 512, 256 ve 128 düğümlü) ve iki çıkışlı bir çıktı katmanı var.

Evrişimli Sinir Ağı

Evrişimli bir sinir ağında, her nöron yalnızca bir önceki katmandaki birkaç yerel nörona bağlıdır ve bu katmandaki her nöron aynı ağırlığa sahiptir. Evrişim işleminin ürettiği bilgi görüntünün uzamsal özellikleriyle ilgili olduğundan, evrişimli sinir ağı görüntü sınıflandırma problemini çözmek için çok uygundur. Örneğin evrişim, görüntünün kenarlarının daha belirgin olmasına neden olabilir.

Oluşturduğum evrişimli sinir ağı üç evrişimli katmana sahip ve her katman 5 * 5 filtre / çekirdek evrişimi ile oluşturulan önceki katmanın görüntüsü. Bir evrişimli katmanın çıktısını başka bir evrişimli katmana girmek, daha yüksek sıralı özellikleri çıkarabilir. Evrişimden sonra, bu özellikler tamamen bağlı ağ ile daha kolay öğrenilebilir. Evrişimli katman, veri için bir hazırlık olarak görülebilir ve tamamen bağlı katmanın giriş görüntüsünün uzamsal yapısını kullanmasına izin verir. Benim sezgim, görüntünün birden fazla evrişimli katmandan geçtikten sonra, nöronların tamamen ilişkili uzaysal özelliklere kodlanacağıdır. Evrişimli katmandan sonra, sırasıyla 512 ve 256 düğümlü iki tam bağlantılı katman vardır. Bu evrişimli sinir ağının mimarisi, AlexNet'in ilk birkaç katmanından esinlenmiştir Aşağıdaki şekil ayrıntılı bilgileri göstermektedir.

Model değerlendirmesi

Evrişimli sinir ağları, aşağıdaki değerlendirme göstergelerinde tam olarak bağlı sinir ağlarından daha iyi performans gösterir. Evrişimli sinir ağının tahmin doğruluğu% 73 iken, tamamen bağlı sinir ağının doğruluğu sadece% 66'dır. Aşağıdaki karmaşık matris diyagramında, iyi huylu ve kötü huylu tümör vakalarını sınıflandırmak için eşik, aynı zamanda önceki varsayılan değerimiz olan 0,5'tir. Eşiği düşürmek hassasiyeti artırabilir ve yanlış pozitif vakaları azaltabilir. Yani, bu durumda hassas bir denge vardır ve yanlış pozitif vakaların, özellikle koruyucu mastektomide önemli çıkarımları vardır.

Evrişimli sinir ağlarının avantajları aşağıdaki iki çizelgede de görülebilir. 3000. eğitim yinelemesinden sonra, evrişimli sinir ağının doğruluğu hızlı ve istikrarlı bir şekilde 0,9'a yükselirken, tamamen bağlı sinir ağı 10.000 yinelemeden sonra bu seviyeye ulaşamadı. Öte yandan, evrişimli sinir ağının kayıp değeri, tam olarak bağlı sinir ağınınkinden daha düşüktür, bu da evrişimli sinir ağındaki gradyan iniş işlevinin yerel bir minimuma yakınsadığında en iyi performansı gösterdiğini gösterir. Kayıp değeri, temel olarak model ile beklenen çıktı değeri arasındaki boşluğu tanımlayan maliyet fonksiyonu tarafından hesaplanır. Gradyan inişi, ağırlıkları yavaşça değiştirerek değer işlevini en aza indirmeye çalışır.

Bu iki modelde stokastik gradyan iniş (SGD) ve doğrusal düzeltme fonksiyonu (ReLU) uygulanmış, ayrıca, performansı artırmak için öğrenme oranı azalması kullanılmıştır. Düşme, aşırı takılmasını önleyebilir.

Sonuç

Bu kodlar, iSono Health tarafından bir sonraki algoritma geliştirmesi için bir kıyaslama modeli olarak kullanılacaktır. Evrişimli sinir ağları, aşağıdakiler dahil ancak bunlarla sınırlı olmamak üzere daha fazla ayarlanabilen birçok hiperparametreye sahiptir: evrişimli katman sayısı, tam olarak bağlı katman sayısı, filtre sayısı, filtre boyutu, gizli düğüm sayısı, parti boyutu, öğrenme hızı, maksimum birleştirme boyutu , Atma oranı vb. Ek olarak, daha iyi görüntü geliştirme ve tutarlı kaynaklardan gelen görüntüler daha iyi performans gösterebilir.

Sıfırdan bir CNN oluşturmak zaman alıcıdır ve hesaplama açısından pahalıdır ve öğrenmek de başka bir uygun çözümdür. Önceden eğitilmiş derin öğrenme modellerini (örneğin, GoogleNet Inception v3) kullanarak ve ardından bunları farklı veri kümelerine uygulama özelliklerini öğrenme sürecini ifade eder. Daha fazla veri mevcutsa, transfer öğrenimi eğitim sürecine yardımcı olabilir.

Sonunda bana yardım eden herkese teşekkürler.

Referans

Cheng, Jie-Zhi, et al. "Derin öğrenme mimarisi ile Bilgisayar Destekli tanı: BT taramalarında bize görüntülerdeki ve pulmoner nodüllerdeki meme lezyonlarına uygulamalar." Bilimsel raporlar 6 (2016).

Esteva, Andre, et al. "Dermatolog düzeyinde deri kanserinin derin sinir ağları ile sınıflandırılması." Nature (2017).

MLA Krizhevsky, Alex ve diğerleri, "Derin evrişimli sinir ağları ile Imagenet sınıflandırması." Nöral bilgi işleme sistemlerindeki gelişmeler (2012).

Bitiş

Bir uyarı

Qubit'ler, otonom sürüşle ilgili alanlarda çalışan öğrenciler veya ön saflardaki mühendisler için otonom bir sürüş teknolojisi grubu oluşturuyor. Herkese qubit WeChat (qbitbot) eklemeye hoş geldiniz, ha'ya katılmak için başvurmak için "otomatik sürüş" diyor ~

İşe Alım

Qubit, editörleri, muhabirleri, operasyonları, ürünleri ve diğer pozisyonları işe alıyor ve çalışma yeri Pekin, Zhongguancun'da bulunuyor. İlgili ayrıntılar için lütfen şu yanıtı verin: resmi hesabın diyalog arayüzünde "İşe Alım".

Yabancı bir tasarımcı tarafından tanımlanan Çin ejderhası - BYD Tang II'ye yeni bir bakış
önceki
James bir günde 4 kez utandı, 42 puan yenilgi hiçbir şey değil, bu 3 şey Zhan Huang'ı daha da utandırıyor
Sonraki
Oyun tarihinin en zehirli laneti Huang Xudong'un alması gerekiyor! Kapakta onun tarafından seçilenler değişmek zorunda!
Riya, taraftarları tek golle fethetmek için yarım yıl sorguya çekildi! Carla bu turda en iyi dış yardımı kazandı, ancak taraftarlar karıştı
Wu Sheng bir grup "rüzgar benzeri" kadına geldi, BMX'te "havalı" hayatı seçtiler.
Dört Büyük Altılı, Savaşçılara meydan okuyabilir mi? 4 set veri size çok güzel göründüğünü söylüyor
Bu muhtemelen dünyanın en zor temel oyunudur.Oyuncular acemi görevleri bile yapamaz ve vahşi canavarlar tarafından yenilir.
Çin Süper Ligi macerası yeterince heyecan verici ve eski yakışıklı gülümseme çoktan gitti! Schuster, sabahları iki kez sevgiyle yazdı
Cobos SWM'ye katıldı! SWM, tasarımcının markayı değiştirmesi için bir senaryo hazırlamak mı istiyor? !
Büyük hamle başlıyor, Clippers Hu'nun kalın kaşlarını kesmek zorunda, 4 koşul karşılandı 3, Lakers yine mutlu.
Bir sinir ağı her şeyi öğrenir! Google başka bir büyük uydu (kağıtla) koydu
Dalian hayranları onun kalmasını istiyor, Shenhua hayranları onun geri dönmesini istiyor Qin Sheng: Seçim yapmak çok zor
Tianfu Green Road 2018 Jinwenjiang Yarı Maratonu'nda yeni bir çağın başlangıcı
BYD İngiltere'yi ele geçirdi ve İngiliz soylularına olumlu bir not verdi
To Top