Ayrıntılı | CMU Profesör Xing Bo'nun en son başarısı: tıbbi görüntüleme raporlarını otomatik olarak oluşturmak için yapay zekayı kullanma

Leifeng.com'a göre, yakın zamanda, Carnegie Mellon Üniversitesi Makine Öğrenimi Bölümünün müdür yardımcısı Profesör Xing Bo tarafından kurulan Petuum, doktorlara daha iyi yardımcı olmak için otomatik olarak tıbbi görüntüleme raporları oluşturmak için makine öğreniminin nasıl kullanılacağına dair birkaç makale yayınladı. Tedavi ve teşhis yapın.

Tıbbi görüntüleme, klinik pratikte tanı ve tedavide yaygın olarak kullanılmaktadır. Profesyonel doktorlar tıbbi etkileri okur ve bulgularını açıklayan yazılı raporlar yazar. Deneyimsiz doktorlar için rapor yazmak büyük olasılıkla hatalara neden olabilir.Nüfusun büyük olduğu ülkelerdeki doktorlar için bu tür işler zaman alıcı ve sıkıcıdır. Profesör Xing Bonun ekibi, bu sorunları çözmek için, insan doktorlarının raporları daha doğru ve verimli bir şekilde oluşturmaları için yardımcı bir araç olarak tıbbi görüntüleme raporlarının otomatik olarak oluşturulmasını inceledi.

Bu zorlukların üstesinden gelmek için, Xing Bonun ekibi etiket tahmini ve paragraf oluşturmayı birlikte gerçekleştirmek için çok görevli bir öğrenme çerçevesi oluşturdu; anormallikler içeren alanları işaretlemek için bir ortak dikkat mekanizması önerdi; bir seviye kullanın Uzun paragraflar oluşturmak için LSTM modeli.

Doktorlar "tıbbi görüntüleme raporları" yazma konusunda isteksizler

Radyoloji ve patolojinin tıbbi görüntüleri, hastanelerde ve kliniklerde pnömoni, pnömotoraks, interstisyel akciğer hastalığı, kalp yetmezliği, kırıklar gibi yaygın olarak kullanılmaktadır. Görüntüleme incelemesi sırasında incelenen her vücut bölümünün bulgularını, özellikle de her bir parçanın normal, anormal veya potansiyel olarak anormal bulunup bulunmadığını açıklamak için yazılı bir rapor (Şekil 1) yazdılar.

Şekil 1. Üç parça bilgi içeren bir göğüs röntgeni raporu örneği. İzlenim bölümünde, radyologlar Bulguların rehberliğine, hastanın klinik geçmişine ve görüntüleme araştırmalarına dayanarak tanı koyarlar. Bulgular bölümü, görüntüleme incelemesinde tespit edilen vücudun her bir kısmının radyolojik gözlem sonuçlarını listeler. Etiketler bölümü, Bulguların temel bilgilerini temsil eden anahtar kelimeler verir. Bu anahtar sözcükler Tıbbi Metin Dizini (MTI) kullanılarak tanımlanır.

Daha az deneyime sahip radyologlar ve patologlar için, özellikle tıbbi bakım konusunda yeterince gelişmemiş doktorlar için, tıbbi görüntüleme raporları yazmak zordur. Göğüs röntgeni görüntülerini doğru okumak için aşağıdaki becerilere ihtiyaçları vardır:

Göğsün normal anatomisinin ve göğüs hastalıklarının temel fizyolojisinin kapsamlı bir şekilde anlaşılması

Radyografileri sabit kalıplarla analiz etme becerileri

Zaman içinde değişme yeteneğini değerlendirin

Klinik belirtiler ve tıbbi geçmiş bilgisi

Diğer tanı sonuçlarına ilişkin bilgiler (laboratuvar sonuçları, elektrokardiyogram, solunum fonksiyon testi)

Bununla birlikte, deneyimli radyologlar ve patologlar için görüntü raporları yazmak çok külfetli ve zaman alıcıdır. Çin gibi kalabalık bir ülkede radyologların her gün yüzlerce radyolojik görüntü okuması gerekebilir. Her görüntünün analiz sonuçlarını bilgisayara girmek yaklaşık 5-10 dakika sürer ve bu da çalışma sürelerinin çoğunu alır.

Xing Bo'nun ekibi, tıbbi görüntüleme raporlarının otomatik olarak oluşturulmasının anlamlı ve gerekli bir şey olduğuna inanıyor, ancak aynı zamanda bu görevin de birçok zorluğu var.

Her şeyden önce, eksiksiz bir tanı raporu, çeşitli farklı bilgi formlarında dahili raporlardan oluşur.Şekil 1'de gösterildiği gibi, göğüs röntgeni raporu, genellikle bir cümle olan Gösterim açıklamasını içerir; Bulgular bir açıklamadır; Etiketler bir anahtar kelime listesidir. Böylesine farklı bilgileri oluşturmak için birleşik bir çerçeve kullanmak, teknolojiye yüksek talepler getirir. Bu sorunu, etiket tahminini çok etiketli bir sınıflandırma görevi olarak ele alan ve uzun tanımların oluşturulmasını (Gösterim ve Bulguların oluşturulması gibi) bir metin oluşturma görevi olarak ele alan çok görevli bir çerçeve oluşturarak çözüyoruz. Bu çerçevede, iki görev görsel özellikleri öğrenmek için aynı CNN'yi paylaşır ve birlikte yürütülür.

İkinci olarak, bir görüntüleme raporu genellikle anormal sonuçları açıklamaya odaklanır çünkü doğrudan hastalığı işaret edebilir ve tedaviye rehberlik edebilir. fakat Resimdeki lezyon alanının nasıl bulunacağı ve doğru tanımın nasıl ekleneceği çok zordur. Bu sorunu bir ortak dikkat mekanizması sunarak çözüyoruz, aynı anda görüntülere ve tahmin edilen etiketlere katılıyor, görsel ve anlamsal bilginin sinerjik etkilerini keşfediyoruz.

Son olarak, görüntüleme raporundaki açıklama genellikle çok uzundur, birden çok cümle ve hatta birden çok paragraf içerir. Uzun metin oluşturmak çok önemlidir. Tek katmanlı bir LSTM kullanmadık (bu tür LSTM uzun dizileri simüle edemez) Bunun yerine, uzun metin oluşturmak için katmanlı bir LSTM kullanmak için raporun bileşimsel doğasını kullandık. Ortak dikkat mekanizması ile birleştirildiğinde, hiyerarşik LSTM önce üst düzey konular üretir ve ardından konulara göre ayrıntılı açıklamalar üretir.

Veri seti açısından, araştırmacılar, karşılık gelen tanı raporuna karşılık gelen bir dizi göğüs röntgeni görüntüsü olan Indiana Üniversitesi Göğüs Röntgeni Grubunu (IU X-ray) kullandılar. Veri seti 7470 çift görüntü ve rapor içermektedir. Her rapor şu bölümleri içerir: gösterim, bulgular, etiketler, karşılaştırma ve gösterge. Xing Bo ekibi, gösterimlerdeki ve bulgulardaki içeriği oluşturulacak hedefler olarak görür ve MTI tarafından oluşturulan etiketleri rapor için etiketler olarak kullanır.

ilgili iş

Tıbbi görüntülere metin raporları ekleyin

Tıbbi görüntülere metin raporları eklemek için birkaç adım gereklidir. Bizim ayarımızda, tıbbi görüntüye eklenen metin, doğal metin yerine tamamen yapılandırılmış veya yarı yapılandırılmıştır (etiketler, öznitelikler, şablonlar gibi). İletim sistemi, bazıları metin etiketleri aracılığıyla görüntülenen tıbbi görüntülerin özelliklerini tahmin etmek için kurulmuştur. Tıbbi bir görüntü verildiğinde, önce yerel analiz için yerel görüntü analizi yöntemini kullanın, ardından her bir yerel görüntünün görsel özelliklerini çıkarın ve son olarak görsel özellikleri önceden tanımlanmış kategorilere göre sınıflandırmak için bir sınıflandırıcı oluşturun.

Shin ve diğer araştırmacılar, göğüs röntgeni görüntülerine metin etiketleri ekleyebilen CNN-RNN çerçevesini kullanan bir sistem kurdu. Görüntülerden hastalıkları tespit etmek için CNN (Konvolüsyonel Sinir Ağı) kullanırlar ve tespit edilen hastalıkların ayrıntılı bilgilerini, örneğin hastalığın yeri, hastalığın kapsamı ve etkilenen organları tanımlamak için RNN (Dairesel Sinir Ağı) kullanırlar. Zhang ve araştırma ekibinin son araştırma raporu, tıbbi raporlar sağlayabileceklerini gösteriyor. Amaçları 30-59 kelimelik bir patoloji raporu oluşturmaktır. Ancak ürettikleri patoloji raporu yarı yapılandırılmıştı ve dil akıcı ve doğal değildi. Nihai patoloji raporunu oluşturmak için az sayıda standart raporu yeniden yazarak, rapor içeriği önceden tanımlanmış 5 konu ile sınırlıdır.

Araştırmamızın nihai hedefi şudur: Oluşturulan patoloji raporu, doğal koşullarda doktor tarafından yazılan patoloji raporunun yerini alabilir. Bu patoloji raporları çok uzundur ve birçok yönü kapsar.Önceki çalışmalara göre görüntülere etiket ve yarı yapılandırılmış paragraflar eklemek daha zordur.

Resim açıklaması ve derin öğrenme

Görüntü açıklama teknolojisi, belirtilen görüntüler için otomatik olarak metin açıklamaları oluşturabilir. Son zamanlarda incelenen görüntü metin modellerinin çoğu CNN-RNN çerçevesine dayanmaktadır. Vinyals ve araştırma ekibi, metin oluşturmak için CNN'nin son gizli katmanından LSTM'ye (Uzun Kısa Süreli Bellek Ağı) çıkarılan görüntü özelliklerini sağlıyor. Fang ve araştırma ekibi ilk olarak görüntüdeki anormallikleri tespit etmek için CNN'i kullandı ve ardından tam bir cümle oluşturmak için dil modelini kullandı. Karpathy ve araştırma ekibi, görsel ve anlamsal özellikler arasında tutarlılık sağlamak için çok modlu bir tekrarlayan sinir ağı kullanmayı ve ardından görüntünün bir tanımını oluşturmayı önerdi.

Son zamanlarda, dikkat mekanizmalarının görüntü metni eklemek için yararlı olduğu kanıtlanmıştır. Xu ve araştırma ekibi, mekansal görsel dikkat mekanizmasını, CNN'nin orta katmanı tarafından çıkarılan görüntü özelliklerine dahil etti. Siz ve araştırma ekibi, belirli bir görüntü etiketi için anlamsal bir dikkat mekanizması önerdiniz. Görsel özelliklerden daha iyi yararlanmak ve anlamsal etiketler oluşturmak için araştırma ekibi ortak bir dikkat mekanizması önerdi.

Amacımız sadece görüntü için bir açıklama oluşturmak değil. Johnson ve araştırma ekibi, modelin algılanan her görüntü alanı için bir metin açıklaması oluşturmasını gerektiren yoğun bir metin üzerinde çalışıyor. Krause, Liang ve araştırma ekibi, görüntüler için paragraf açıklamaları oluşturmak için hiyerarşik LSTM kullandı. Araştırma yöntemimiz ayrıca paragraf başlıkları oluşturmak için hiyerarşik LSTM kullanır.Krause ve araştırma ekibinin aksine, konuları oluşturmak için ortak bir dikkat ağı kullanırız.

Şekil 2. Tüm modelin yapısı ve süreci. Bunlar arasında, MLC, çok etiketli sınıflandırma ağı anlamına gelir ve anlamsal özellik, tahmin edilen etiketin kelime vektörüdür. Kalın olarak işaretlenmiş "kalsifiye granülom" ve "granülom", internete birlikte dikkat eden etiketlerdir.

Nicel sonuçlar

Paragraf oluşturma (Tablo 1'in üst yarısı) ve tek cümle oluşturma (Tablo 1'in alt yarısı) sonuçlarını ölçmek için aşağıdaki metin oluşturma değerlendirme yöntemlerini (BLEU, METEOR, ROUGE ve CIDER) kullanıyoruz.

Tablo 1'in üst kısmında gösterildiği gibi, paragraf oluşturma için, Tek bir LSTM kod çözücü kullanan modelin performansı, hiyerarşik bir LSTM kod çözücü kullanan modelden önemli ölçüde daha kötüdür. Tablo 1'deki Dikkatsiz-Dikkatimiz ve CNN-RNN arasındaki tek fark, Dikkatimiz Yok Hiyerarşik bir LSTM kod çözücü kullanırken, CNN-RNN yalnızca tek katmanlı bir LSTM kullanıyor. Bu iki model arasındaki karşılaştırma, hiyerarşik LSTM'nin etkinliğini doğrudan kanıtlamaktadır.

Bu sonuç şaşırtıcı değildir Tek katmanlı bir LSTM'nin uzun dizileri etkili bir şekilde simüle edemediği iyi bilinmektedir. Buna ek olarak, konu vektörleri oluşturmak için bizim-Yalnızca Anlamsal-Yalnızca veya bizim-Yalnızca Görsel-Yalnızca bizimkini kullanmanın pek bir faydası yok gibi görünüyor. Bunun altında yatan neden, görsel dikkatin yalnızca görüntünün alt bölgelerinin görsel bilgilerini yakalayabilmesi, ancak onu doğru şekilde tanımlayamaması olabilir. Anlamsal dikkat yalnızca potansiyel anormallikleri bilmesine rağmen, bulgularını görüntüleri izleyerek doğrulayamaz. Son olarak, tam modelimiz (Ours-CoAttention), önerilen ortak dikkat mekanizmasının etkinliğini gösteren tüm değerlendirme göstergelerinde en iyi sonuçları elde etti.

Tek bir cümlenin ürettiği sonuçlar için (Tablo 1'in alt kısmında gösterildiği gibi), modelimizin kontrollü değişken versiyonu (Bizim-Sadece-Sadece-Bizim-Sadece-Bizim-Sadece-Görsel) diğer versiyonlara kıyasla tüm temel modellerden üstündür. Önerilen ortak dikkat mekanizmasının etkinliğini gösterir.

Niteliksel sonuçlar

Paragraf oluşturma

Görüntü patoloji raporları oluşturmak için üç modelin örnekleri Şekil 3'te gösterilmektedir. Bunlar Ours-CoAttention modeli, Ours-No-Attention modeli ve Soft Attention modelidir. Altı çizili cümlenin anormal durumun bir açıklaması olduğuna dikkat etmek önemlidir. İlk olarak, üç modelin ürettiği raporların gerçek raporlardan daha fazla cümle içerdiğini gözlemleyebiliriz. İkinci olarak, üç model ve gerçek raporlar tarafından oluşturulan raporlardaki cümlelerin çoğu normal alanların açıklamalarıdır ve yalnızca birkaç cümle anormal durumlarla ilgilidir. Bu gözlem, Dikkatimiz Yok modelinin neden belli bir dereceye kadar çok iyi bir düzeye ulaşamadığını açıklayabilir.

Şekil 3. İşbirlikçi dikkat, dikkatsizlik ve yumuşak dikkat modelleri tarafından oluşturulan paragrafların gösterimi. Altı çizili cümle, tespit edilen anormalliğin bir açıklamasıdır. İkinci görüntü, göğsün yan tarafının bir röntgen görüntüsüdür. İlk iki örneğin sonuçları gerçek raporla tutarlı, üçüncü kısım başarısız oldu ve alttaki resim tamamen başarısız oldu. Bu görüntüler test veri setindendir

Oluşturulan metnin içeriğini derinlemesine anladığımızda, farklı cümlelerin farklı temalara sahip olduğunu bulmak şaşırtıcıdır. İlk cümle genellikle görüntünün genel bir açıklamasıdır, aşağıdaki cümleler ise görüntünün akciğerler, kalp vb. Gibi diğer alanlarını tanımlar. Soft Attention modelinin ve Ours-No-Attention modelinin yalnızca görüntüdeki anormallikleri tespit edebildiğini ve genellikle tespit edilen anormalliklerin hala yanlış olduğunu belirtmek gerekir. Bununla birlikte, Ours-CoAttention modeli, ilk üç görüntüdeki görüntülerdeki anormallikleri doğru bir şekilde tanımlayabilir. Sonuçlar, Ours-CoAttention modeli ve Ours-No-Attention modeliyle karşılaştırıldığında, hiyerarşik LSTM'nin patoloji raporlarını daha iyi oluşturabildiğini göstermektedir.

Üçüncü X-ışını görüntüsünde Ours-CoAttention modeli, akciğerin sağ alt lobunda bir anormalliği başarıyla tespit etti. Ancak, bu anormalliği tam olarak tanımlamaz. Diğer X-ışını görüntüleri ile karşılaştırıldığında, üçüncü X-ışını görüntüsü daha koyu.Bu, Ours-CoAttention modelinin yanlış tanımlanmasının olası nedeni olabilir. Modelimiz bu değişime çok duyarlıdır. Ours-CoAttention modeli, dördüncü X-ışını görüntüsünün açıklaması için bir başarısızlık durumudur. Model, görüntüdeki ana anormalliği yanlış değerlendirmesine rağmen, bazı alışılmadık alanlar buldu. Örneğin: sol alt lobdaki anormallikler. Ek olarak, model tarafından verilen raporun, modelin hastalığı anlamaya çalıştığını gösteren "bu işaret edebilir" kelimelerini içermesi çok şaşırtıcıdır.

Modelin hastalıkları veya potansiyel hastalıkları tespit etme yeteneğini daha iyi anlamak için Tablo 2'de üç modelin normallik ve anormallik olasılığını verdik. "Hayır", "Normal", "Açık" ve "Kararlı" içeren cümlelerin normal kabul edildiğine inanıyoruz. Açıkçası, Ours-CoAttention modeli, normallik ve anormallik açısından gerçek duruma en yakın olanıdır.

Tablo 3'teki sonuçlar, Ours-CoAttention ve VGG-19 ağlarının çok benzer etiket tahminlerini gerçekleştirdiğini göstermektedir. Çok görevli öğrenmede herhangi bir gelişme olmamasına rağmen, bu modelin karmaşık boru hattı modellerinin yönetiminden kaçınan uçtan uca bir model olduğuna inanıyoruz.

Şekil 4, ortak dikkatin görselleştirilmesini göstermektedir. Şekil 4'te gösterilen ilk özellik, Cümle LSTM'nin görüntünün farklı bölgelerine ve farklı cümle etiketlerine odaklanabilmesi ve farklı zaman adımlarında farklı konular oluşturabilmesidir. İkinci özellik, görsel dikkatin modelin görüntünün ilgili alanlarına odaklanmasına rehberlik edebilmesidir. Örneğin, ilk örneğin üçüncü cümlesi "aerobik" hakkındadır ve görsel dikkat, kalbe yakın alana odaklanmıştır. Benzer davranışlar semantik dikkat içinde de bulunabilir: ilk örnekteki son cümle için, modelimiz doğru bir şekilde "dejenere değişim" cümlesinin konusuna odaklanır.

Ek olarak, ikinci örnekteki ilk cümlenin içeriği ile anlamsal dikkatin yoğunlaşması arasındaki çelişki şaşırtıcıdır. Tek bir dikkat mekanizmasının gerçekleşmesi olası değildir. Bu çelişki, ortak dikkat mekanizmasının hataya dayanıklı olduğu anlamına gelir, bu nedenle ortak dikkat, tek bir dikkatten daha güçlü olabilir.

Son olarak, son örneğin ilk cümlesi, etikete yanlış dikkat nedeniyle yanlış bir açıklamadır. Daha iyi bir etiket tahmin modülü oluşturarak yanlış ilginin azaltılabileceğine inanıyoruz.

Şekil 4. Üç örnek üzerinde işbirliğine dayalı dikkatin görselleştirilmesi. Her örnek dört bölümden oluşur: (1) görüntü ve görsel dikkat; (2) gerçek etiket, tahmin edilen etiket ve tahmin edilen etiket üzerinde anlamsal dikkat; (3) oluşturulan açıklama; (4) gerçek açıklama. Anlamsal dikkat için, en yüksek dikkat puanına sahip üç etiket vurgulanır. Altı çizili etiket, gerçek etikette görünen etikettir.

Şekil 4 ayrıca etiket tahmininin bazı niteliksel sonuçlarını da sağlar. Sonuçlar, görüntüyle ilgili etiketlere ek olarak, modelin birçok alakasız etiket de ürettiğini göstermektedir. Ortak dikkat mekanizması birçok müdahale etiketini filtreleyebilse de, alakasız etiketler yine de modeli yanlış yönlendirebilir ve birçok yanlış pozitif oluşturabilir. Daha iyi bir etiket tahmin modülünün doğru etikete odaklanmaya yardımcı olacağına ve böylece oluşturulan metnin kalitesinin iyileştirilmesine yardımcı olacağına inanıyoruz.

Sonuç

Leifeng.com, son yıllarda yapay zekanın, özellikle de derin öğrenmenin olgunlaşmasının birçok yapay zeka destekli teşhis ürününün piyasada görünmesini sağladığını öğrendi. İnsan genom dizileme teknolojisinin yeniliği, biyomedikal analiz teknolojisinin ilerlemesi ve büyük veri analiz araçlarının ortaya çıkışı, hastalara daha doğru, verimli ve güvenli teşhis ve tedavi sağlar. Yapay zeka + görüntüleme alanı aynı zamanda en çok katılımcı firmalar, en bol ürün ve en çok hastalık türleri ile hastalık teşhisi alanıdır. Bununla birlikte, AI ayrıca hastalık taraması ve tahminine katılabilir, yapılandırılmış tıbbi kayıtlar yazabilir ve taban düzeyinde bir pratisyen hekim asistanı olarak hareket edebilir. AI, doktorların çalışma süresinin azaltılmasında ve teşhis ve tedavi verimliliğinin artırılmasında çok önemli bir rol oynar.

Xing Bonun araştırma ekibi, çalışmalarının ana katkılarının şunlar olduğuna inanıyor: Etiketleri tahmin edebilen ve aynı zamanda metin açıklamaları oluşturabilen çok görevli bir öğrenme çerçevesi önerilmiştir; anormal alanları bulmak ve karşılık gelen açıklamaları oluşturmak için ortak bir dikkat mekanizması ortaya koymak; uzun cümleler ve paragraflar oluşturmak için katmanlı bir LSTM oluşturmak; Deneysel yöntemin etkinliğini göstermek için kalitatif ve kantitatif deneyler.

Lei Feng.com, Profesör Xing Bo'nun ekibinin araştırma sonuçlarının ilk olmadığına inanıyor ve bunun son olmayacağına inanıyorum. Gelecekte, ürün yinelemelerinin sürekli yükseltilmesi ve algoritma seviyesinin sürekli iyileştirilmesiyle, diğer oyuncular yapılandırılmış tıbbi görüntüleme raporlarının oluşturulmasıyla ilgili araştırmaya girmeye devam edecek.

Ultra yüksek ekran-gövde oranı cep telefonları bir trend haline geldi, iPhone 8 ekran oranı% 97 bir artı veya dezavantaj
önceki
"Dedektif Pikachu" canlı aksiyon filminin ilk fragmanı duyuruldu
Sonraki
Xiaomi 6'dan fazla Xiaomi çalışanı, yeni Xiaomi ürün lansmanının 3 saat sürmesinin beklendiğini söylüyor
"Artistik Patinajın Kraliçesi" yeni bölüm, Husky erkek arkadaşı "Spor salonu serbest stil" kahramanı baştan çıkarıyor
Marvel'ın babası Stan Lee, 95 yaşında öldü
Sis farları çok önemli, neden birçok araba iptal ediliyor?
"Raging Behemoth", "Major Attack" versiyonunun fragmanını ortaya koyuyor
Christmas limited Curry 3 geliyor, liderliği kim alacak?
AI yapmak için bilmeniz gereken on derin öğrenme yöntemi
Doğrudan 400 yuan düşüş, Nut C6 projeksiyonu Taobao kitle fonlamasına indi
PlayerUnknown's Battlegrounds sınırlı sürüm Xbox kontrolcüsü artık China Bank Mall'da mevcut
Yapay zeka, TV ürünlerine giriyor Hisense, AI TV sistemini göstermek için VIDAA'yı yayınladı
Jiangsu'daki bir kimya fabrikasından çıkan kanalizasyon doğrudan Yangtze Nehri kaynağına boşaltıldı ve 4 kişi polis tarafından götürüldü.
"The Fall of Kingship" de "iyi" bir kraliçe olmak istiyorum ama Polonyalılar buna izin vermeyecek
To Top