Wu Enda'nın zatürre tanısı güvenilir değil mi? Radyoloji Bölümünden Doktor Long Wen sorgulandı: bazı veri setleri hiç mevcut değil

Leifeng.com'a göre, tıbbi görüntüleme yapay zekanın önemli gelişme yönlerinden biridir.Sektör oyuna girmek için yarışırken, birçok tanınmış akademisyeni de katılmaya çekmiş ve birçok göz alıcı sonuç üretilmiştir. Geçtiğimiz yıl, yurtiçi ve yurtdışındaki birçok ekip, hastalık teşhisinde insanları aşmak için AI teknolojisini kullandıklarını iddia etti. Stanford Üniversitesi Wu Enda ve diğerleri tarafından önerilen CheXNet algoritması bunlardan biri. Daha önce, Leifeng.com ekibin araştırma sonuçlarını bildirdi: "Wu Enda'nın ekibi, pnömoniyi tanımlamak için CNN algoritmasını kullanarak en son tıbbi görüntüleme sonuçlarını yayınladı." Ekip, göğüs röntgeni resimlerinde zatürre gibi hastalıkları tespit etme doğruluğu konusunda algoritmanın insan profesyonel hekimleri geride bıraktığını belirtti.

Bununla birlikte, başka bir grup bilim adamının mevcut araştırma sonuçlarından bazıları hakkında şüpheleri var. Bu makalenin yazarı Luke Oakden-Rayner onlardan biri, Adelaide Üniversitesi Radyoloji alanında doktora adayı. o düşünüyor, Mevcut ChestXray14 veri seti, teşhis için tıbbi yapay zeka sistemlerini eğitmek için uygun değildir. (ChestX-ray14 şu anda 14 hastalığın 100.000 önden görünüm X-ray görüntüsünü içeren en büyük açık göğüs röntgeni fotoğraf veri setidir)

Dr. Luke Oakden-Rayner, görüşünü kanıtlamak için bu makalede aşağıdaki konuları tartışacaktır: Etiketin doğruluğu; etiketin tıbbi önemi; etiketin görüntü analizi için önemi .

Leifeng.com, Dr. Luke Oakden-Raynerın makalesini değiştirmeden seçti ve tercüme etti.

ChestXray14 veri seti "ChestX-ray8: Hastane Ölçekli Göğüs Röntgeni Veri Tabanı ve Yaygın Göğüs Hastalıklarının Zayıf Denetimli Sınıflandırılması ve Lokalizasyonu Üzerine Kıyaslamalar" kağıdından gelmektedir. İlk yayınlandığı andan itibaren bu veri setinin kağıt ve destekleyici dokümanları güncellendi defalarca.

Bana göre, makale veri setinin kendisini açıklamak için daha fazla zaman harcamalıdır, çünkü veri setinin çok sayıda kullanıcısı bilgisayar bilimi araştırmacısıdır Klinik bilginin yokluğunda, bu talep özellikle önemlidir. Bununla birlikte, bu makale esas olarak metin madenciliği ve bilgisayarla görme görevlerini tanıtmaktadır ve veri setindeki etiketlerin doğruluğunu gösteren bir tablo bulunmaktadır.

Gösterilen orijinal sonuçlar (üst kısım), yalnızca rapor değil, aynı zamanda manuel olarak tam etiketleme dahil olmak üzere herkese açık OpenI veri setinde test edildi. Listenin alt kısmı ChestX-ray14'ün kendi verileridir. Araştırmacılar rastgele 900 rapor seçti ve bunları toplu olarak 14 hastalığı sınıflandıran iki notlayıcı tarafından açıkladılar. Bildiğim kadarıyla, bu açıklamalar doğrudan görüntüyü kontrol etmedi.

Veri boyutunun sınırlandırılması hatayı büyütecektir (bir kategorideki örnek sayısı 10-30 ise ve yalnızca bir hata varsa,% 95 güven aralığının pozitif tahmin değeri% 75-% 88 olacaktır). Ancak bazı sapma değerlerine izin verilirse, her etiketin% 85-99 doğru olduğu ve en azından rapor edilen sonuçları doğru bir şekilde yansıttığı görülmektedir.

Maalesef, etiketin durumu tam olarak yansıtamadığı görülüyor . NIH ekibi bu görüntüleri gördüklerini belirtmedi, etiketlerin rapor metniyle eşleşip eşleşmediğini test ederek görüntü açıklama sürecinin artılarını ve eksilerini değerlendirdiler. Sanırım bu ayrım, ortaya çıkardığım etiket kalitesi sorununa yol açtı.

Görüntülere ihtiyaç duymadan görüntü etiketleri oluşturmanın birçok yolu vardır. ICD kodlama gibi veya raporlardan veya diğer serbest metinlerden etiketleri ayıklamak gibi; takip verilerini de kullanabilirsiniz. Derin öğrenmede, eğitim eğrisine bakarız, eğimi kontrol ederiz ve aşırı uyumun olup olmadığını test etmek için normalleştirme olmadan egzersiz yapmaya çalışırız. Bu görüntüleri izlemek, beklendiği gibi olduklarından emin olmak için görüntüleri bir radyolojik bütünlük kontrol-görüntüleme işlemidir.

"Bütünlük denetimi" nin ilk aşamasını tamamlamak için genellikle 10 dakikada 200 görüntü okurum.

Bölüm 1: ChestXray14 veri kümesinde görüntü etiketlemenin doğruluğu

Bir sonraki konuşulacak şey, veri kümesinin etiketlerine dayalı bir dizi görüntüdür. 18 görüntü içeren rastgele seçilmiş sıra kümeleridir.

Etiketlerim mükemmel değil ve diğer radyologların bazıları hakkında şüpheleri olabilir. Ancak etiketimin kağıt / ekteki sonuçlardan çok farklı olduğu açık olmalıdır.

Genelde zor verileri severim, bu yüzden etiket doğruluğunu iyileştirmek için elimden geleni yaparım. Aslında, etiketlerin çoğunun tanımlanmasının zor olduğunu ve bu nedenle aşağıdaki tabloda listelenmediğini fark ettim. Her kategoride 130'dan fazla görsele baktım ve görsel yargıma dayalı olarak orijinal etiketin doğruluğunu hesapladım. Bu veri miktarı kullanım için daha uygundur, çünkü% 95 güven aralığı% 5 oranında genişletilebilir / daraltılabilir, bu nedenle hata oranım yaklaşık% 20'ye ulaşabilir.

Görsel analizim ve makaledeki metin madenciliği sonuçlarım

Etiketimin doğru olup olmadığından bir kez daha şüpheliyim, özellikle bir göğüs radyoloğunun yargısıyla karşılaştırıldığında, ancak yukarıdaki tabloda gösterildiği gibi, fark çok büyük. Yukarıdaki tablodaki verilerin, bu etiketlerin resimlerde gösterilen hastalıklarla eşleşmediğini kanıtladığını düşünüyorum.

Bu fenomeni açıklamanın yolları da var. Örneğin, başlangıçta görüntünün yorumlanmasına yardım eden radyolog, görüntüden başka bilgilere sahiptir. Klinik deneyimleri, önceki tanı ve tedavi sonuçları vb. Var. Bu bilgi, özellikle benzer hastalıkları ayırt ederken çok faydalıdır.

İnsan uzmanları tek başına görüntülerden teşhis koyamazsa, AI sistemi de teşhis koyamayabilir. Yapay zeka, insanların gözden kaçırdığı bazı ince kanıtlar bulabilir, ancak performansta büyük farklılıklar yaratmak için bunlara güvenmek makul değildir. Genel olarak, aynı bilgileri içerecek etiketlere ve resimlere ihtiyacımız var.

Bölüm 2: Etiketleme tıpta ne anlama geliyor?

Etiket aslında neyi temsil ediyor? Klinik uygulamayı yansıtabilirler mi? Bence cevap, hayır.

Ayrıştırılması en zor etiketlerin konsolidasyon / sızma / atelektazi / pnömoni birikimi vb. Olduğunu düşünüyorum. Bu tıbbi görüntülerin ayrıca, eksudasyon (Efüzyon), pnömotoraks (Pnömotoraks) ve fibroz gibi görevin klinik değeri ile ilgili başka sorunları da vardır. Örneğin, pnömotoraks, X-ışını görüntülerinde çok küçüktür ve genellikle göz ardı edilir veya fibroz etiketlemesinin doğruluğu çok düşüktür. Aslında görüntüleme dışı birçok klinik sorun vardır, örneğin:

  • Pnömoni, amfizem ve çoğu fibroz, tıbbi görüntüleme problemlerinden çok klinik tanı problemleridir.

  • X ışınları kistlerin% 50'sini kaçırabilir, bu nedenle raporda kullanılan kist etiketinden şüphe duyabiliriz.

  • Hiç kimse aralıklı fıtıkları umursamıyor, bu yüzden sadece bazen teşhis ediliyorlar.

Etkili tıbbi görevleri öğrenmek için bu mükemmel veri setlerini veya doğru etiketleri bulmak çok zordur. Benzer şekilde, tıbbi teşhis için bu görüntüleri görüntülemek için hala uzmanlara ihtiyacımız var.

Bölüm 3: Tıbbi görüntülerin görüntü analizi için faydaları nelerdir?

Radyolojinin derin öğrenme uygulamasının büyük bir sorunu var, görüntüleri izlemezseniz, sonuçları çok ciddi olacaktır. Bu etiketler çok yanlışsa ve etiketlerin anlamı güvenilmezse, bu veri seti üzerine inşa edilen model nasıl iyi sonuçlar elde ediyor? Model tam olarak ne öğreniyor?

Aslında, sözde gerçek sonuçlar görsel olarak anlamsız olsa bile, test setinde gerçek sonuçları doğru bir şekilde vermeyi öğrenebilecek bir model arıyoruz.

CheXNet'ten Sonuçlar: Göğüs röntgeni görüntülerinde radyolog düzeyinde pnömoni tespiti yapmak için bir derin öğrenme modeli (Rajpurkar ve Irvin ve diğerleri) kullanarak, test setinde iyi performans elde edildi.

Rastgele gürültü, iyi bir düzenleme terimi olabilir ve hatta belirli ayarlarda performansı artırabilir (bu tekniğe etiket yumuşatma veya yumuşak etiketleme denir). Yapısal gürültü farklıdır, tamamen farklı sinyaller ekler ve model bu sinyalleri öğrenmeye çalışacaktır.

Kötü etiketler içeren bir eğitim setinde, sinir ağı bu etiketleri eşit derecede geçerli pnömoni örnekleri olarak ele alacaktır. Model bu etiketleri öğrenirse, örneğin "tüylü" bir zatürre işaretidir, o zaman model bu sinyali göğüs röntgeni çizelgesine uygulayacak ve öngörülemeyen sonuçlar verecektir.

Model, köpek görüntülerinden öğrenilen bazı özellikleri kullanacak ve bunları göğüs röntgeni görüntüsüne uygulayacaktır, ancak bunun sorunun kendisiyle hiçbir ilgisi yoktur.

Amacınız performansı optimize etmekse, yapılandırılmış gürültü her zaman olumsuz etkiler getirecektir. Gürültünün açık olmasına bile gerek yoktur (ilişki doğrusal değildir) ve sapma etiketi modelin doğruluğunu azaltacaktır.

Rolnich ve diğerleri tarafından "Derin öğrenme, büyük etiket gürültüsüne karşı sağlamdır" sonuçları, yapılandırılmış gürültünün etiketi yok ettiğini ve performansı düşürdüğünü göstermektedir. Gürültü ve gerçek veri kaynağı aynı olduğunda, model gürültü ve kategoriyi karıştırdığı için bu sorun daha zahmetli olabilir. Bu, ChestXray14 veri setine benzetilebilir ve etiketleri de imha edilir.

Dolayısıyla bu etiketler modelin performansına zarar verecektir. Peki neden ChestXray14 üzerinde eğitilen modelin performansı çok iyi? Bu modellerin veri gürültüsünü telafi edip sağlam hale gelmesi mümkün mü?

Sanmıyorum, daha fazla yöne odaklanmamız gerekiyor. Aslında, veri kümesi için yeni bir etiket kümesi oluşturma sürecinde, bir "opaklık" sınıfı ve bir "bulgusuz" sınıfı oluşturarak ilgili görevleri basitleştirdim. Yeni oluşturduğum etiketi orijinal etiketiyle belirledim, "opaklık" atelektazi, zatürree, konsolidasyon ve penetrasyon etiketlerinin bir kombinasyonudur ve ardından bunun üzerine bir model eğitiyorum.

Sadece ImageNet üzerinde önceden eğitilmiş bir ResNet kullanmam ve ağın ikinci bölümünü yeni veri setinde eğitmem gerekiyor. Hiperparametreleri ayarlamadım, modeli makul bir sürede eğittim ve son modelin performansı hala nispeten iyiydi.

AUC 0,7 olmasına rağmen, etiket hata oranıyla tutarlıdır ve sınıflandırma performansımız çok zayıftır. Model yanlış etiketi görmezden gelemez ve makul bir öngörüde bulunur.Gürültüyü etiketlemek sağlam değildir. en önemlisi, AUC değeri, büyük bir sorun olan tanılama performansını yansıtmamaktadır.

Bu AI sistemi, güvenilir bir şekilde anlamsız tahminler üretmeyi öğrenir. Görüntü özelliklerini öğrenme şekli, "opasite" durumunu neredeyse belirsizlikten uzak kılarken, "opasite yok" durumu ciddi şekilde anormal bir akciğer olarak değerlendirilir.

Sorun bu, çünkü resme bakmazsanız sonucun harika olduğunu düşüneceksiniz. Her takımın modelinin performansı gittikçe daha iyi hale geliyor ve AUC puanı gitgide artıyor .. Görünüşe göre ciddi bir tıbbi görevi "çözüyorlar".

Sanırım birden çok neden var; Tıbbi görüntüler, birçok ortak unsurla birlikte büyük ve karmaşıktır. Bununla birlikte, etiketleri otomatik olarak madenciliği yapma yöntemi, hatalı rastgele gürültü oluşturmaz. Metin madenciliğinin programlama doğası, sürekli ve beklenmedik veri bağımlılığına veya katmanlaşmaya yol açabilir.

Benzer şekilde, Stanford Üniversitesi Dermatoloji Bölümünden Dr. Novoa son zamanlarda medyada bu konuyu tartıştı:

Bir dermatolog, tümör olabilecek bir lezyona baktığında, boyutunu doğru bir şekilde ölçmek için - ilkokulda kullandığınız türden - bir cetvel kullanır. Dermatolog lezyonu görmek için bunu yapar. Bu nedenle, bir dizi biyopsi görüntüsünde, görüntüde bir cetvel varsa, algoritmanın onu kötü huylu bir tümör olarak yargılama olasılığı daha yüksektir, çünkü cetvelin varlığı kanser olasılığı ile ilgilidir. Ne yazık ki Novoa, algoritmanın bu korelasyonun neden mantıklı olduğunu bilmediğini vurguluyor, bu nedenle rastgele bir cetvelin kanseri teşhis etmenin temeli olduğunu yanlış anlamak kolay.

Derin öğrenme çok güçlüdür.Eğer onu önyargılı etiketlerle karmaşık görüntüler beslerseniz, anlamsız olsalar bile bu kategorileri sınıflandırmayı öğrenebilir. Eğitim setindeki rastgele etiketleri mükemmel şekilde yerleştirebilirsiniz, ancak bu sonuç yalnızca derin ağın eğitim verilerini hatırlayacak kadar güçlü olduğunu gösterir. Test verilerinin genelleştirilmesini göstermediler; bunun yerine gürültüden zarar görmüş performans gösterdiler.

ChestXray14 verilerinde rastgele etiketlerle hızlı bir test yaptım (başka bir bütünlük kontrolü) ve Zhang ve diğerleri ile aynı sonucu buldum; ve model test setine genelleştirilmedi.

Yapılandırılmış gürültü sadece eğitim verilerinde mevcut değildir. Tüm test verilerindeki etiket hatası da tutarlıdır. Bu, modelin kötü tıbbi tahminlerde bulunmayı öğrenmesi durumunda daha iyi test performansı elde edebileceği anlamına gelir. Bu durum yalnızca otomatik "veri madenciliği" yöntemleriyle oluşturulan etiketler için olabilir, ancak ayrıca manuel etiketlerin radyoloji verilerinin katmanlanmasına neden olabileceği birçok yol keşfettim.

Radyoloji raporları objektif, gerçekçi görüntü tanımları değildir. Bir radyoloji raporunun amacı, hakemlerine (genellikle başka bir doktora) faydalı ve eyleme geçirilebilir bilgiler sağlamaktır. Bazı yönlerden radyolog, tavsiyenin hangi bilgileri istediğini tahmin eder ve ilgisiz bilgileri ortadan kaldırır.

Bu, aynı görüntünün iki raporunun klinik duruma, geçmiş geçmişe ve radyoloğun kim olduğuna bağlı olarak farklı şekilde etiketlenebileceği anlamına gelir. Radyoloji raporlarını etkileyen birçok faktör vardır ve tüm faktörler radyoloji raporlarına yapısal gürültü getirecektir. Her küçük vaka, öğrenilebilecek benzersiz görüntü özelliklerine sahip olabilir.

Görüntü kalitesi (hastanın ayakta, yatan hasta, yoğun bakım vb. Olmasına göre farklı), kalp pilleri veya EKG uçları gibi giriş cihazlarının varlığı, fiziksel alışkanlıklar vb. Dahil olmak üzere hastaları birkaç gruba ayırabilen birçok başka görsel unsur vardır. . Bu faktörler "tanısal" değildir, ancak etiketle çeşitli derecelerde korelasyona sahip olmaları muhtemeldir ve derin ağ muhtemelen bu tür şeyleri arıyor.

Tıbbi araştırmacılar uzun süredir klinik verilerin hiyerarşik yönetimi ile uğraşıyorlar. Yaş, cinsiyet, gelir ve beslenme gibi faktörlerin tümü "gizli" tabakalaşmaya yol açar. Ayrıca, kabaca tüm grubun görsel görünüm dağılımının benzer olduğunu bilmemiz gerekir, bu da resmi görüntülemeniz gerektiği anlamına gelir.

sonuç olarak

Yukarıdaki sorunlar, derin öğrenmenin tıbbi görüntüleme için değersiz olduğu anlamına gelmez. Derin öğrenmeyle ilgili en önemli şey işe yaramasıdır. Nedenini hala anlamıyor olsak da, eğer derin ağ iyi etiketlere ve yeterli veriye sahipse, önemsiz ve anlamsız özellikler yerine bu kategoriler için faydalı özellikleri öğrenmeye öncelik verecektir.

İnsan görsel değerlendirmesiyle karşılaştırıldığında, ChestXray14 veri setindeki etiketler yanlış ve net değildir ve genellikle küçük tıbbi bulguları tanımlar.

Bu etiketleme sorunları, verilerde "dahili olarak tutarlıdır"; bu, modelin tıbbi olarak anlamlı olmayan tahminler üretmeye devam ederken "iyi test seti performansı" gösterebileceği anlamına gelir.

Yukarıdaki sorunlar, halihazırda tanımlanmış olan veri setinin tıbbi sistemlerin eğitimi için uygun olmadığını ve veri seti üzerinde yapılan araştırmanın ek bir gerekçe olmaksızın geçerli bir tıbbi beyan üretemeyeceğini göstermektedir.

Görüntüleri izlemek, görüntü analizinin temel "bütünlük kontrolü" dür. Bir veri kümesi oluşturuyorsanız ve verilerinizi anlayabilen kimse görüntüleri görüntülemiyorsa, veri kümesinin çalışmasını beklemek sizi hayal kırıklığına uğratacaktır.

Tıbbi görüntü verileri hiyerarşik unsurlarla doludur; kullanışlı özellikler neredeyse her şey öğrenilebilir. Her adımda modelinizin her zamanki gibi çalışıp çalışmadığını kontrol edin. Etiketler yeterince iyi olduğu sürece, bu veri setinde derin öğrenme çalışabilir.

Orijinal bağlantı: https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems

Dahuatian Eye Face Recognition "en güçlü beyin" burada!
önceki
Yeni arabaların cilalanması gerekiyor mu? başka bir seçenek var mı?
Sonraki
Zhang Jike ve Sun Yangcheng internet ünlüleridir, aktif spor yıldızlarının kendilerini aşırı eğlendirmeleri gerçekten iyi mi?
Huawei Mate 20, 7nm Kirin 980'i destekliyor, yuvarlanan 845 modeli yapay zeka hesaplama gücü patlamasına öncülük etmek üzere
Pekin Film Festivali'nin kırmızı halısında "Savaş Tanrısı" çıktı William Chen, Lin Yun'un eteğine centilmen bir stil gösterdi
Yeni Etkileşim Çağına Liderlik Eden Aniden Biliş, Geleneksel Endüstrilerin Akıllıca Yükseltilmesine Yardımcı Oluyor
Bu beyin açıcı bilim kurgu kostümlü drama, fragman beni çoktan fethetti
"Eye of Judgment: Last Words of Death" in 1. Bölümünün deneme sürümü artık sıradan PS4 oyuncuları tarafından kullanılabilir.
Okula 30.000 yuan ekipmanla mı başlayacaksınız? Bu Bluetooth kulaklığı satın almazsan okula bile gidemezsin
"Onmyoji" gelecek planı: mobil oyundan IP ekolojisine, NetEase bir sonraki büyük oyunda
Cheung Kong İşletme Enstitüsü: Üretimden akıllı üretime, teknoloji ve iş kombinasyonuna nasıl ulaşılır?
Araba sigortası alacak mısın?
Tong Liya, Huang Bo'nun hatasına zekice karşılık verdi, ancak tarzı bir Tayland turizm elçisi gibi boyanmıştı.
Bu yılın en ilgi çekici reklam filmini izlemeden önce bunları bilmelisiniz
To Top