g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

ACL2017 | Potsdam Üniversitesi: Olelo'nun Biyomedikal Alanda Soru Cevaplama Sistemi Uygulamasına Giriş

Siz ve "AI'yı Anlamak" arasında yalnızca bir kağıt var

Pek çok okuyucu, Xinjun'un sahne arkasına mesajlar bırakarak, nispeten basit yapay zeka bilimi ve yapay zeka metodolojisi okuduklarını ve derinlik, kalınlık, vizyon ve ağır tat içeren bazı profesyonel makaleler görmek istediklerini söyledi.

Bu amaçla, AI alanındaki birçok uzman ve akademisyenin yardımıyla, bir dizi en iyi konferans belgesini yorumladık ve tercüme ettik. Her makalenin tercümesi ve redaksiyonu tamamlandıktan sonra, Xinjun ve yazı işleri bölümündeki öğretmenler birlikte gülüp çökecekler, tabii bazı kağıtlar için ağlamalıyız.

Şimdi okuyup anlayamamanız önemli değil, ancak Xinjun bir gün yeni bir yapay zeka dünyasına aşık olacağınızı garanti edebilir.

Çekirdek okuyucuların kağıt değişim grubu için lütfen WeChat hesabımızı ekleyin: Zhizhizhuji . Senin için bekleniyor.

Bu, temel okumanın ilk yorumu 3 Bildiriler

ACL 2017 Sistem Gösterileri

Olelo: biyomedikal alanında bir soru cevaplama sistemi uygulaması

Olelo: Biyotıp İçin Bir Soru Cevaplama Uygulaması

Hasso Plattner Enstitüsü Potsdam Üniversitesi Araştırma Enstitüsü

Hasso Plattner Enstitüsü, Potsdam Üniversitesi

Özet Biyotıp alanı çok önemli olmasına rağmen, araştırmacıları ve doktorları ihtiyaçlarını karşılayan belirli sonuçları elde etmelerinde destekleyebilecek birkaç güvenilir uygulama vardır. Kullanıcılar genellikle yalnızca anahtar kelime ve filtre tabanlı aramalara güvenirler. Biyomedikal bir soru cevaplama (QA) sistemi Olelo öneriyoruz. Olelo, bir bellek içi veritabanı üzerine kuruludur, belge koleksiyonları ve terminoloji gibi etki alanı kaynaklarını entegre eder ve çeşitli doğal dil işleme bileşenlerini kullanır. Olelo hızlı, sezgisel ve kullanımı kolaydır. İki kullanım durumu sistemini değerlendirdik: BioASQ kıyaslamasına dayalı olarak belirli bir genle ilgili soruları yanıtlamak.

Olelo şu adresi alır:

1. Giriş

Biyomedikal araştırmacıları ve doktorları, belirli bir genin neden olduğu bir sendrom veya belirli bir hastalığın tedavisi gibi belirli gerçekleri öğrenmek için düzenli olarak bilimsel literatürü kontrol ederler. Bunu başarmak için kullanıcılar genellikle Medline veritabanındaki milyonlarca yayını indeksleyen PubMed arama motoruna güvenirler. Geleneksel bilgi erişim sistemlerine (IR) benzer şekilde, PubMed'e girdi genellikle anahtar kelimelerdir veya tıbbi konular kavramıdır (MeSH) ve çıktı genellikle bir belge listesidir.

Örneğin, CFTR genindeki mutasyonların neden olabileceği hastalıkları ararken, kullanıcıların yalnızca PubMed giriş alanına gen adını yazmaları gerekir. Bu örnekte, ilgili 9.227 potansiyel yayının bir listesini alacaktır (Şubat 2017 itibarıyla).

Araştırmada (Lu, 2011), bilimsel biyomedikal literatürü araştırmak ve gezinmek için birçok başka web uygulaması vardır. Bununla birlikte, çoğu sistem, kelime bölümleme ve adlandırılmış varlık tanıma (NER) gibi basit doğal dil işleme tekniklerine (NLP) dayanır. İşlevleri, alan terimlerinin desteğiyle belgeleri sıralamak, yayınları kavramlarla zenginleştirmek ve benzer belgeleri kümelemekle sınırlıdır.

Sorular ve cevaplar (QA), biyomedikal uzmanlarının doğal soruları girmesini ve geri bildirim sonuçları olarak doğru cevaplar ve özelleştirilmiş kısa özetler sağlamasını destekler (Athenikos ve Han, 2010; Neves ve Leser, 2015). Üç biyomedikal sistemi öğrendik (bkz. Bölüm 2), ancak mevcut çözümler hala kullanıcıların ihtiyaçlarını karşılayamıyor: (i) Çoğu durumda, sorun anlaşılamıyor. (ii) Daha karmaşık NLP teknolojilerini kullanan sistemler (örneğin, HONQA (Cruchet ve diğerleri, 2009)) gerçek zamanlı olarak yanıtlar veremez. (iii) Çıktı, genellikle basit yanıtlardan ziyade bir belge listesi biçiminde gelir. (iv) Bilimsel literatürü daha fazla araştırmak için herhangi bir yenilikçi veya NLP tabanlı yöntem sağlamadılar.

Biyomedikal alanında bir soru-cevap (QA) sistemi olan Olelo'yu önerdik. Biyomedikal özetleri ve tam metinleri dizine ekler, depolama ve belge indeksleme için hızlı bir bellek içi veritabanına (IMDB) dayanır ve adlandırılmış varlık tanıma (NER), belirli alanlardaki sorunlar gibi çeşitli doğal dil işleme teknolojisi (NLP) prosedürlerini yürütür Tür algılama, yanıt türü algılama ve yanıt çıkarma. Olelo'nun yaklaşımını biyomedikal soru cevaplamanın (QA) en yaygın olarak paylaşılan görevi olan BioASQ meydan okuması (Tsatsaronis ve diğerleri, 2015) kapsamında değerlendirdik. Son üç yarışmaya katıldık ve son iki versiyonda segment alımı için en yüksek sonuçları ve ideal cevapları (özelleştirilmiş özetler) aldık (Neves, 2014, 2015; Schulze ve diğerleri, 2016).

Olelo, yukarıda listelenen eksikliklere çözümler sunar: (i) Soru türlerini ve yanıt türlerini tespit eder. (ii) Çeşitli NLP bileşenlerini içerir ve yanıtları gerçek zamanlı olarak verir. (Bkz. Bölüm 5) (iii) Her zaman kısa bir yanıt, doğru bir yanıt veya kısa bir özet çıkarır ve ayrıca kullanıcıların eşleşen belgeleri keşfetmesine olanak tanır. (iv) Kullanıcılar cevaplara ve bunlara karşılık gelen anlam türlerine göz atabilir, MeSH tarafından tanımlanan terimleri kontrol edebilir, belge koleksiyonları oluşturabilir, özelleştirilmiş özetler oluşturabilir ve diğer görevlerdeki benzer belgeleri sorgulayabilir. Son olarak, Olelo açık erişim sistemidir ve oturum açmayı gerektirmez. Birden çok web tarayıcısında test ettik, ancak en iyi sonuçlar için Google Chrome'u (Chrome) öneririz.

2. İlgili çalışma

MEDIE, ilk soru-cevap (QA) tabanlı biyomedikal sistemdir (Miyao ve diğerleri, 2006). Kullanıcıların ev sahibi konuk (SOV) yapısı biçiminde sorular sormasına olanak tanır. Örneğin, "53. sayfada tetiklenen nedir?" Bu sorunun parçalara ayrılması gerekir: "p53" (özne), "etkinleştir" (fiil) ve hiçbir nesne (yani, beklenen cevap). MEDIE, Medline'ı aramak için alan ontolojisine, ayrıştırmaya ve tahmin parametre yapısına (PAS) dayanır. Bununla birlikte, birçok biyomedikal kullanıcısının ileri düzeyde dilbilim bilgisine sahip olmadığı göz önüne alındığında, SOV yapısı dostane bir girdi değildir.

Diğer üç biyomedikal soru cevaplama (QA) sistemini biliyoruz: AskHermes, EAGLi ve HONQA. Tüm bu sistemler soru formundaki girdileri destekler, ancak çıktılar farklı şekillerde sonuçlanır.

AskHermes (Cao ve diğerleri, 2011) bazı kod parçacıkları ve bir dizi terim çıktılar, ancak sonuç sayfası genellikle çok uzundur. Yöntemleri arasında problemin anlaşılması için düzenli ifadeler, problem hedef sınıflandırması, kavram tanıma ve BM25 modeline dayalı kanal sıralaması bulunur. Dosya koleksiyonu Medline makalelerini ve Wikipedia belgelerini içerir.

EAGLi (Gobeill ve diğerleri, 2015), gen ontolojisi (GO) kavramına dayalı bir cevap sağlar. Sorunun cevabı bulunmasa bile, EAGLi her zaman ilgili yayınların bir listesini çıkaracaktır. Medline belgelerini Terrier IR platformunda indeksler ve belgeleri sıralamak için Okapi BM25'i kullanır.

HONQA (Cruchet et al., 2009), Health Online (HON) sertifikasyon web sitesinin belgelerini İngilizce'ye ek olarak dikkate alır, ayrıca Fransızca ve İtalyanca'yı da destekler. Cevap türü tespiti UMLS veritabanına dayanır ve sistem mimarisi tipik bir soru ve cevap (QA) iş akışını izler. Ancak, yayınlarında ayrıntılı bir açıklama yoktur.

3 Sistem mimarisi,

Şekil 1 Olelo soru cevaplama sisteminin doğal dil işleme bileşenleri

Olelo'nun mimarisi, bir soru ve cevap (QA) sisteminin (Athenikos ve Han, 2010) olağan bileşenlerini takip eder, yani: belge indeksleme, soru işleme, paragraf alma ve yanıt işleme (bkz. Şekil 1). Bu bölümde, bu bileşenlerdeki görevlerin çoğunu kısaca açıklayacağız. Yalnızca biyomedikal kalite güvencesine değil, aynı zamanda gene özel özetlere de uyguladığımız çok belgeli özetleme yöntemimizi (Schulze ve Neves, 2016) daha önce yayınlamıştık. Son olarak, BioASQ yarışmasına katılımımız da sistematik yaklaşımımıza ilişkin bilgiler sağladı (Neves, 2014, 2015; Schulze ve diğerleri, 2016).

Literatür indeksi : Belge ve sayıların toplanmasını SAP HANA veritabanı IMDB (Plattner, 2013) olarak indeksliyoruz. Veritabanı, verileri ana bellekte depolar ve çok çekirdekli işleme, paralelleştirme, hafif sıkıştırma ve bölümleme gibi çevrimiçi QA sistemlerinin diğer istenen özelliklerini içerir. Belge koleksiyonumuz şu anda Medline ve PubMed Merkezlerinin açık erişim alt kümesindeki tam metin yayınlardan oluşmaktadır. Belge koleksiyonu, yeni yayınları açıklamak için düzenli olarak güncellenir.

Veritabanında indeksleme yapılırken, belgeler ve sorular IMDB'nin yerleşik metin analizi programı kullanılarak işlenecektir, yani cümle bölme, kelime bölütleme, kökten ayırma, konuşma bölümü (POS) etiketleme ve atanmış varlık tanıma (NER) (bkz.Tablo 1) .

Tablo 1 Belgeler, cümleler ve adlandırılmış kuruluşlara ilişkin istatistikler (Şubat 2017 itibarıyla)

İki alana dayalı kaynaklar yazıyoruz: Medical Subject Headings (MeSH) ve Unified Medical Language System (UMLS). İkincisi, biyomedikal alana dayalı özelleştirilmiş bir sözlüktür.

Problem çözme : Olelo şu anda üç tür soruyu desteklemektedir: (i) simülasyon ifadesi; (2) tanım; (3) özet. Bir simülasyon sorusu, hastalık adları listesi, tanım sorusu sorgusu ve bir kavramın belirli bir tanımı gibi bir veya daha fazla kısa yanıt gerektirirken, özet soru bir konunun kısa bir özetidir. Bu adımdaki bileşenler, soru tipinin basit bir normal ifade ile tespit edilmesini ve ardından bir simülasyon ifadesi durumunda cevap tipinin tespit edilmesini içerir. Bu adım aynı zamanda normal ifadeler aracılığıyla başlık kelimelerinin tespit edilmesini ve daha önce tespit edilen adlandırılmış varlıkların desteğiyle anlamsal türlerinin tanımlanmasını içerir. Anlamsal tür, UMLS anlamsal türü tarafından tanımlanan semantik türe karşılık gelir (Bodenreider, 2004). Son olarak, işaretleyicilerin yüzey formunun yanı sıra önceden tespit edilen tıbbi konular (MeSH) ve UMLS terimlerine dayalı olarak bir sorgu oluşturuldu.

Paragraf arama : Sistem, belgeleri ve paragrafları IMDB'nin yerleşik özelliklerine göre sıralar. Sorgudaki anahtar kelimeleri, dil varyantları dahil olmak üzere yaklaşık bir şekilde belgeyle eşleştirir. Önce sorgudaki tüm anahtar kelimeleri dikkate alırız, eşleşen belge bulunamazsa bazılarını sileriz.

Cevap işleniyor : Cevap, sorunun türüne bağlıdır. Bir tanım sorusu durumunda, sistem basitçe karşılık gelen tıbbi konu (MeSH) öğesini ve başlangıçta tıbbi konu (MeSH) terimine dahil edilen tanımını görüntüler. Simüle edilmiş ifade problemi durumunda, Olelo tarafından döndürülen tıbbi konu (MeSH) terimi, önceden tespit edilen karşılık gelen anlamsal tipe aittir. Son olarak, sistem, alınan belgelere ve sorgulara dayalı olarak özet soru için özelleştirilmiş bir özet oluşturur.

4 Kullanım durumları

Bu bölümde, belirli sorulara kesin yanıtlar almak için iki kullanım örneği göstereceğiz. Bu örnekler, belirli bir genle ilgili bir soru ve BioASQ kıyaslamasından iki soru içerir. Ayrıca, sistemimiz ve diğer üç biyomedikal soru cevaplama (QA) uygulaması arasında bir ön karşılaştırma yaptık.

Olelo'daki "Öğretici" sayfası, sistem işlevleri hakkında daha fazla ayrıntı içerir. "Ayarlar" sayfasında minimum yayın yılı özeti (cümle sayısına göre varsayılan değer 5'tir) ve özet oluşturulurken dikkate alınan belge sayısı (varsayılan değer 20'dir) gibi bazı parametreleri ayarlayabilirsiniz.

Genetik problemler : Bu kullanım senaryosu, Twitter'da #GeneOfTheWeek gen kombinasyon veri tabanının tanıtımında bir seçim olan gen CFTR'ye odaklanmaktadır. Gen mutasyonları, hastalıkların yaygın bir nedenidir. Bu nedenle, kullanıcılar Olelo'ya şu soruları sorabilir: "CFTR gen mutasyonları ile hangi hastalıklar ilişkilidir?" Olelo bu soruya olası cevapların bir listesini verdi (bkz. Şekil 2). "Kistik fibroz", bahsedilen genlerle ilgilidir. "Kistik fibroz" üzerine tıklayarak, MeSH'nin tanımını görebilirsiniz, Olelo bize 349 ilgili belgenin bulunduğunu söyledi (alttaki mavi düğme). Bu düğmeyi tıkladığınızda bir belge görüntülenir ve bu gerçekten önemlidir, çünkü ilk özetini okuyarak onaylayabiliriz. Bu noktada, kullanıcıların konu üzerinde ilerlemenin birçok yolu vardır, örneğin: (a) kalan dosyalara göz atın; (b) bu belge koleksiyonu için bir özet oluşturun; (c) daha fazla bilgi edinmek için "mavi" terimi tıklayın Daha fazla bilgi; (d) yayındaki tüm ayrıntıları görün (başlık dışında küçük simgeler); (e) listelenen kistik fibrozun anlamsal türlerine göz atın; veya (f) başka bir hastalık adına tıklayın Yani "astım".

BioASQ karşılaştırma sorusu : Şu anda BioASQ (Tsatsaroniset ark., 2015), biyomedikal soru cevaplama (QA) sistemleri için en kapsamlı kriterdir. Olelo'nun farklı soru türleri için döndürdüğü sonuçları göstermek için bir özet ve bir simülasyon sorusu seçtik. "Pastör bedeni nedir?" (Tanımlayıcı 55152c0a46478f2f2c000004), sistem kısa bir özet verir ve ilk cümlesi şu sorunun cevabını içerir: "Bir Pastör bedeni aktif olmayan bir kadın vücut hücresidir X kromozomu. (PubMed makalesi 21416650). Öte yandan, factoid problem için, "literatürde Arnold Chiari sendromu ile ilişkili kromozomlar". Olelo, kromozom isimlerinin bir listesini verdi. Aslında, BioASQ kıyaslaması için resmi cevap şudur: "1", "3", "5", "6", "8", "9", "12", "13", "15", "16 "," 18 "," 22 "," X "," Y ". Bu özel örnek için Olelo'nun çıktısı BioASQ'dan daha kapsamlı bir cevaptır, çünkü tıbbi konu (MeSH) terimi "chomosome" kelimesini içerir.

Ön değerlendirme : Son zamanlarda Olelo'yu BioASQ'dan 10 simülasyon sorusunu manuel olarak çıkararak diğer üç biyomedikal soru cevaplama (QA) sistemiyle (bkz. Bölüm 2) karşılaştırdık. Her sistemin yanıt süresini manuel olarak kaydettik ve enstitümüz ağının dışında deneyler yaptık. Sistemdeki bir hata nedeniyle HONQA herhangi bir sorun sonucu vermedi. Olelo, dört soruya (geri dönen özette) doğru yanıtları buldu, EAGLi bunlardan ikisini (geri gönderilen belgenin başlığında) sordu ve bunlardan birini sordu (birçok cümle içinde). Yanıt süresi açısından Olelo, en hızlısı (ortalama 8,8 saniye), ardından AskHermes (ortalama 10,1 saniye) ve EAGLi (ortalama 58,6 saniye).

5 Sonuçlar ve gelecekteki çalışma

Biyomedikal alanda Olele soru cevaplama (QA) sistemini gösterdik. Olelo, çoklu belge toplama ve yanıt türü algılama gibi çeşitli soru yanıtlama (QA) bileşenlerine yönelik bellek içi veritabanı ve SQL prosedürlerini gerçekleştirmek için yerleşik doğal dil işleme (NLP) programlarına güvenir. Belirli bir gen hakkında bilgi alırken Olelo tarafından sağlanan çıktıya bir örnek ve BioASQ kıyaslamasından iki sorunun cevabını gösterdik.

Bununla birlikte, Olelo'nun arkasındaki yöntemin hala iyileştirilmesi için yer vardır: (a) Sistem, problem türü tespiti için basit kurallar kullandığı için her zaman gerçek sorunları doğru şekilde algılamaz. Bu durumlarda Olelo, ilgili belgelerden kısa bir özet oluşturur. (B) Cevap, daha fazla gezinme için sistemimizi de destekleyen mevcut tıbbi konu (MeSH) kelimeleriyle sınırlıdır (bkz.Şekil 2 ve Şekil 3) . Aslında deneylerimiz, bir gen veya protein adı bekleyen birçok soruya cevap veremediğimizi göstermiştir.Hepsi tıbbi temada (MeSH) zayıf desteğe sahiptir, ancak BioASQ'da (Nevesand Kraus, 2016). Yaygın. (c) Bizim belge ve paragraf alma bileşenlerimiz şu anda kelime bölütleme ve adlandırılmış varlıkların yaklaşık eşleşmesine dayanmaktadır, ancak TF-IDF gibi en gelişmiş IR yöntemlerini dikkate almamaktadır. (D) Özete ait cümleler daha iyi düzenlenebilir. Özetin akıcılığı optimal değildir. Ayrıca zamirler ("biz" gibi) gibi, genellikle orijinal cümlede geçen ilgili içeriklerle ilgilenmiyoruz. Bununla birlikte, diğer biyomedikal QA sistemlerine kıyasla, Olelo daha hızlı performans gösterir ve uzun bir belge listesi yerine çoğu soruya merkezi yanıtlar sağlar.

Son olarak, biyomedikal literatürün daha fazla araştırılması için bir araç sağlar.

Şekil 2 CFTR geninin neden olduğu cevapların listesi (solda) ve cevapları içeren ilgili yayınlara genel bakış (sağda)

Şekil 3 BioASQ veri setinden basit bir soru (solda) ve cevap listesinin (sağda) kısa bir paragrafı

Olelo, uzun vadeli geliştirme sürecindedir ve birden çok düzeyde iyileştirmeler gerçekleştirmiştir: (a) Parçalar ve anlamsal rol etiketleri gibi daha gelişmiş doğal dil işleme (NLP) bileşenlerini entegre edin; (b) evet / hayır sorunlarını destekleyin ve Derin öğrenmeye dayalı kesin cevabı iyileştirin; (c) Klinik deneyler ve diğer dillerdeki belgeler gibi ek biyomedikal belgeleri dahil edin.

Son olarak, mevcut durumunda, yeni alan yöntemlerine adaptasyonumuz büyük değişiklikler gerektirmez. Problem çözme adımlarında (belirli ontolojiye bağlı olarak) ve belirtilen varlık tanıma (NER) bileşeni için yeni bir sözlük oluştururken küçük değişiklikler gereklidir. Özetle, bu sistemin uyarlanması esas olarak yeni belge koleksiyonlarının ve belirli terimlerin entegrasyonunu içerir.

Kağıt indirme bağlantısı: