Leifeng.com AI Technology Review Not: Leifeng.com AI Technology Review, en iyi konferansların makalelerine ve yazarlarına her zaman büyük önem vermiştir. Seçkin öğretmenleri ve öğrencileri GAIR konferans salonları gibi çevrimdışı paylaşım etkinliklerine katılmaya davet etmenin yanı sıra, Leifeng.com devam edecek Makalenin yazarı, çalışmalarına ayrıntılı bir giriş yapmaya davet edilir.
Bu makale, Florida Üniversitesi doktora öğrencisi Zhang Zizhao'dan Lei Feng.com'un AI Technology Review tarafından kabul edilen özel bir gönderi ve CVPR 2017'deki sözlü makalesi "MDNet: Semantik ve Görsel Olarak Yorumlanabilir Tıbbi Görüntü Tanı Ağı" nın ayrıntılı bir yorumudur.
Kağıt adresi: https://arxiv.org/pdf/1707.02485.pdf
Zhang Zizhao, Florida'da dördüncü sınıf doktora adayıdır. Danışmanı, Florida Üniversitesi Biyomühendislik, Bilgisayar Bilimi ve Elektronik Bilgisayar Mühendisliği Bölümü'nde kadrolu profesör olan Yang Lin'dir. Zhang Zizhao'nun son araştırması, daha iyi klinik pratik uygulama değeri elde etmek için yapay zekaya dayalı tıbbi görüntü tanı yöntemlerini yorumlanabilir hale getirmek için çok modlu bilginin nasıl kullanılacağını içeriyor. İlgili çalışmaları Oral tarafından 2017 CVPR ve MICCAI konferanslarına davet edildi.
Son yıllarda, giderek daha fazla bilim insanı, bilgisayar destekli tıbbi görüntü teşhisi yeteneğini geliştirmek için yapay zeka derin öğrenme yöntemlerinin nasıl kullanılacağını keşfetmeye başladı. Çeşitli hastalıkların görüntülerinde, derin öğrenmenin doktorların tanı düzeyine ulaşabileceğini veya aşabileceğini kanıtlamak için büyük ölçekli veriler kullanan bazı çalışmalar yapılmıştır.
Ancak klinik uygulamada, makine doktorlara tanı koymada gerçekten etkili ise, makinenin çıktısının doktor tarafından anlaşılabilir olması gerekir. Diğer bir deyişle makine, nihai teşhisi (teşhis raporu gibi) çıkarabilmek için, gördüğü görüntünün özelliklerini doktorun anlayabileceği doğal bir dilde ifade etmelidir. Bu yetenek, mevcut tıbbi görüntü tanı yöntemlerinde eksiktir.
Öte yandan birçok hastalık türünün (özellikle patolojik mikroskop görüntüleri) görüntü teşhisinde doktorlar arası tanı tutarlılığı çok düşüktür. Bu nedenle, klinik uygulamada, bir doktorun genellikle referans olarak ek görüşler edinmesi gerekir. Bu nokta ayrıca makine teşhisinin "yorumlanabilirliğinin" önemini yansıtır.
Bu motivasyon için, bu makale semantik ve görsel olarak yorumlanabilen bir tıbbi görüntü teşhis ağı (MDNet) önermektedir. Medikal bir görüntü verildiğinde, MDNet otomatik olarak eksiksiz bir teşhis raporu oluşturabilir ve görüntüyü açıklarken görüntünün dikkatini gösterebilir.
MDNet'in ağ yapısı Şekil 1'de gösterilmektedir. Temelde üç alt modülden oluşur: görüntü modülü görüntünün ifadesini oluşturmak için kullanılır; dil modülü, bir teşhis raporu oluşturmak için görüntü ifadesinin girişini kabul eder; dikkat modülü ve dil modülü, birebir görüntü dikkat alanı oluşturmak için işbirliği yapar.
Metin açıklamaları oluşturmak için görüntülerin kullanımına, bilgisayar görüşü alanında resim yazısı adı verilir. MDNet teknik olarak görüntü açıklamasına benzer, ancak MDNet'in bazı tıbbi görüntüye özgü sorunlara bazı özel çözümleri olacak ve bu da MDNet'i genel görüntü açıklama yöntemlerinden daha doğru hale getirecektir (deneysel bölümde açıklanmıştır). Aşağıda, bu makale üç modülü tek tek tanıtıyor.
Şekil 1: MDNet ağ yapısı. Görüntü, mesane mikroskobu görüntüsünün ve ilgili tanı raporunun ilgi alanıdır.
Görüntü modülü
Tıbbi görüntülerdeki özellikler (mikroskop görüntülerinde bulunan hücreler gibi) genellikle farklı boyutlardaki bölgelerde ifade edilir, bu nedenle bir yandan CNN çok ölçekli bir açıklama gerektirir. Öte yandan, tıbbi görüntü veri setleri genellikle yeterince büyük olmadığından, CNN'in verimli öğrenme yeteneklerine sahip olması, yani en iyi doğruluğu elde etmek için mümkün olduğunca az parametre kullanması gerekir. Bu iki noktayı dikkate alarak, görünmez çok ölçekli entegrasyon yeteneklerini geliştirmek için artık ağı (ResNet) geliştirdik. ResNet'in son sınıflandırma modülünün matematiksel analizine göre (ayrıntılar için orijinal metne bakın), farklı ölçeklerdeki özellik haritalarını entegre etmek için bağımsız ağırlıklar kullanma fikri önerilmiştir. Uygulama yöntemi çok basittir, sadece ResNet'i biraz değiştirmeniz gerekir. 8M parametreleri kullanılarak yapılan karşılaştırmalı testte, CIFAR 10 / 100'de% 4,43 /% 19,94 hata oranı elde edilmiştir. Karşılaştırmalı ResNet'te, daha büyük olan 10M'nin parametre miktarı% 4,92 /% 22,71'dir (daha fazla sonuç için lütfen orijinal metne bakın).
Dil modülü
Dil modülü esas olarak LSTM ağından oluşur. Doğal görüntü açıklama probleminden farklı olarak, tıbbi görüntülerde rafine bir etiket veri seti (ImageNet) ve Inception gibi eğitimli bir CNN ağı (son özellik haritası birçok anlamsal bilgi içerir) yoktur, bu nedenle görüntüden LSTM nasıl kullanılır CNN'in görüntünün özelliklerini anlamasına yardımcı olmak için görüntü hakkındaki bu anlamsal bilgileri ilgili tanı raporundan çıkarmak önemlidir. İki iyileştirme yaptık (bkz. Şekil 2):
Tıbbi tanı raporu nispeten uzun olduğundan ve birden fazla görüntü özelliğini ifade ettiğinden, tüm raporun sığmasını birden çok özellik açıklama cümlelerinin paralel bir uyumuna dönüştürüyoruz (Batch shuffle ile eğitim sırasında tamamlandı), yani bir LSTM'nin yalnızca ileriye odaklanmasına izin verin Bir özellik açıklamasında.
LSTM parametrelerini farklı cümle görevleri arasında paylaşmak için, MDNet, bir toplu işteki her bir örnek LSTM tarafından hangi tür görüntü özelliği açıklama cümlesinin çıkarılacağını belirlemek için LSTM için bir koşullu girdi (ikinci zaman noktası) tasarladı.
Şekil 2: Dil modülünde iki iyileştirme.
Dikkat modülü
Orijinal dikkat modeli (Xu ve diğerleri, ICML 2015) tarafından elde edilen dikkat haritalarının çoğunun yerel olarak önemli görüntü bölgelerine etkili bir şekilde odaklanamadığını bulduk. Bu sorunu çözmek için, dikkat modülünün daha iyi ve etkili dikkat haritaları oluşturmasına yardımcı olmak için dikkat geliştirme modülünü (AAS) sunuyoruz. Şekil 3 sonuçları karşılaştırmaktadır.
Şekil 3: Dikkat haritamız ilgilenilen bölgeye (idrar yolu epitel bölgesi) daha doğru bir şekilde odaklanır.
MDNet, dildeki anlamsal bilginin CNN'in öğrenilmesini daha iyi desteklemesini sağlamak için uçtan uca bir gradyan uyarlama stratejisi önerir. Gradyanı ayarlama yöntemi aşağıdaki formülle ifade edilir:
İki ağırlıklandırma parametresi ve ile kontrol edilir. eğitim sırasında dinamik olarak değişir. Ana fikir, öğrenme için CNN'e daha iyi yayılmak için LSTM ve AAS modüllerinden gelen gradyanları dinamik olarak dengelemektir.
Bu makale ayrıca tıbbi problemlere uygun yeni analitik ölçütleri geliştirir ve önerir. Deneysel bölümde, makale 1) oluşturulan tanı raporunun metin kalitesinin kantitatif analizi (tablo 1), 2) tanı doğruluğunun kantitatif analizi (tablo 1) ve 3) görüntü özelliği açıklamasına dayalı bir görüntü alma deneyi gerçekleştirmek için MDNet kullanarak yaptı (tablo 2) ve kalitatif dikkat analizi. Ayrıca karşılaştırmalı deneyler ve algoritma tartışmaları da var. Algoritma, karşılaştırmalı deneyler için temel olarak iyi bilinen bir doğal görüntü açıklama algoritması (NeuralTalk2) kullanır. Değerlendirme kriterlerinin çoğunda, MDNet'in sonuçları büyük ölçüde iyileştirilmiştir.
Tablo 1: Tanılama raporu metin kalitesi sonuçları. Son satır, tam MDNet yöntemidir.
Tablo 2: Görüntü alma sonuçları. Son satır, tam MDNet yöntemidir.
Daha fazla sonuç ve demo için lütfen şu adrese bakın:
Orijinal: https://arxiv.org/pdf/1707.02485.pdf
Proje ana sayfası: https://www.cise.ufl.edu/~zizhao/mdnet.html