Zhao Jun, Çin Bilimler Akademisi: Açık Alan Etkinlik Çıkarma CCF-GAIR 2018

AI Technology Review Press: 2018 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR) Shenzhen'de gerçekleştirildi.Zirve, Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde Çin Bilgisayar Federasyonu (CCF) ev sahipliğinde gerçekleştirildi.Baoan Bölge Hükümeti'nden güçlü bir rehberlik aldı. Robotik akademisi, endüstrisi ve yatırım çevreleriyle yapılan en önemli değişim etkinliği, Çin'deki yapay zeka alanında en güçlü sınır ötesi değişim ve işbirliği platformunu oluşturmayı amaçlıyor.

CCF-GAIR 2018, 1 ana mekan ve 11 özel oturum (biyonik robotlar, robotik endüstrisi uygulamaları, bilgisayarla görme, akıllı güvenlik, finansal teknoloji, akıllı sürüş, NLP, AI +, AI çipleri, Zengin IoT platformu (yatırımcılar), üretim, eğitim ve araştırmanın farklı boyutlarından üç sektörden katılımcılara toplantı içeriği ve yerinde deneyimin daha ileriye dönük ve pratik bir kombinasyonunu sunmayı amaçlamaktadır.

Zhao Jun, Çin Bilimler Akademisi, Otomasyon Enstitüsü, Çin Bilimler Akademisi, Örüntü Tanıma Eyalet Anahtar Laboratuvarı, araştırmacı, doktora şefi ve Çin Bilimler Akademisi Yapay Zeka Okulu'nda profesör. Araştırma alanları arasında doğal dil işleme, bilgi grafikleri, soru yanıtlama sistemleri vb. Yer alır. Proje lideri olarak, Çin Ulusal Doğa Bilimleri Vakfı'nın önemli projeleri ve Yunzhisheng, Huawei ve Ant Financial gibi kurumsal uygulama projeleri gibi bir dizi önemli ulusal bilimsel araştırma projesini üstlendi. ACL, IJCAI, SIGIR, AAAI, COLING, EMNLP gibi önde gelen uluslararası konferanslarda ve TKDE gibi önemli akademik dergilerde 80'den fazla makale yayınladı. Doğal dil işleme konusunda uluslararası bir üst düzey akademik konferans olan COLING 2014'te en iyi makale ödülünü kazandı. Aynı zamanda ACM TALLIP'in editör yardımcısı, Çin Çin Bilgi Toplumu'nun yönetici direktörü, Dil ve Bilgi Hesaplama Komitesi'nin müdür yardımcısı, Hesaplamalı Dilbilim Komitesi'nin müdür yardımcısı ve Chinese Information Journal'ın yayın kurulu üyesidir. "Bilgi Grafiğine Giriş" konulu dersler ve Çin Bilimler Akademisi Üniversitesi'ndeki diğer kurslar.

Aşağıda, Profesör Zhao Jun'un "Açık Alan Etkinlik Çıkarma" başlıklı konuşmasının tam metni yer almaktadır. Profesör Zhao Jun'un yardımıyla, Leifeng.com'un Yapay Zeka Teknolojisi İncelemesi asıl amacı değiştirmedi:

Çok teşekkür ederim, Bay Liu Ting ve CCF-GAIR 2018 daveti. Öğretmen Liu ayrıca raporumun bilgi ile ilgili olduğunu söyledi. Doğal dil işleme, yapay zekanın önemli bir uygulama yönüdür. 1950'lerde ve 1960'larda yapay zekanın ana araştırması, arama algoritmaları veya çıkarım algoritmalarıydı. Ancak insanlar bir süre bu yönü inceledikten sonra önlenemeyecek bir sorun olduğunu, yani bilgi olduğunu anladılar. Sistemlerimizin çoğu alan bilgisi veya uzman bilgisine sahip değildir, bu durumda çıkarım algoritmaları kullanılamaz. Şu anda bilgi, yapay zeka için çok önemli bir konu haline geliyor.

1977'de Feigenbaum, bilginin yapay zekanın çok önemli bir yönü olduğunu öne sürdü. 2012'de Web2.0 piyasaya sürüldü ve Wikipedia ve Baidu Baike gibi değerli bilgi kaynakları İnternette mevcuttu. Bilgi çıkarma gibi doğal dil işleme teknolojilerinin geliştirilmesiyle birleştiğinde, bu, geleneksel bilgi tabanları oluşturmak için uzmanlara güvenme yöntemlerinde önemli değişikliklere neden oldu. Bilgi tabanlarının ölçeği ve türü de önemli ölçüde değişti ve bilgi mühendisliği bir kez daha yapay hale geldi Derin öğrenme ve duygu gibi sıcak bir zeka noktası, yeni nesil yapay zekanın çok temsili bir çalışmasıdır.

Aşağıdaki bilgi grafiği türleri vardır:

Varlık Atlası , Bir çeşit ortak varlık merkezli haritamızdır. Örneğin, grafiğin ortasında, her bir düğüm Barack Obama ve Michelle Obama gibi bir varlıktır ve karı-koca arasındaki ilişkiyle birbirine bağlıdırlar.Şimdi çoğu grafik böyle.

Etkinlik haritası, Bir olayın bilgi grafiği uygulamada vazgeçilmez bir grafik türüdür.İçindeki her düğüm bir olaydır ve olaylar, olayın grafiği olarak adlandırılan olayların ilişkisi (zamanlama ilişkisi, nedensellik vb.) İle ilişkilendirilir.

Varlık grafikleri ve olay grafikleri, Soru-Cevap ve diğer uygulamalarımız için çok önemlidir. İster fiziksel bir harita, ister bir olay haritası olsun, tamamen manuel yapıya güvenemeyiz Anahtar teknolojilerin desteğine ihtiyacımız var Bu anahtar teknoloji, bilgi çıkarma teknolojisidir.

Varlıkların tanınması en temel olanıdır. Varlıklara sahip olduktan sonra, varlık grafiği ilişkinin çıkarılmasını gerektirir. Örneğin (Bill Gates, Microsoft'un CEO'sudur), yapılandırılmış bir üçe, CEO'ya (Bill Gates, Microsoft). elbette. Birden fazla ilişki de vardır ve hepsi ikili ilişkilere dönüştürülebilir, böylece depolama ve uygulama daha verimli olur.

Olayların çıkarılması olay haritası ile ilgilidir.Örneğin, Türkiye'deki uçak kazası.Böyle bir olay terör olayı olarak sınıflandırılır.Saldırının hedefi bir Rus savaş uçağı, saldırının aracı bir F-16, yeri ve zamanı. Olay bu. Bu tür olay bilgilerini bir metinden bulmalı ve yapılandırmalıyız.Bu olay çıkarımıdır.

Aslında ilişkiyle ilgili pek çok olay var.Şu anda başvurumuz, olayların aynı referans ilişkisinin yanı sıra zamansal ilişki, nedensel ilişki ve ikincil ilişki ile ilgilidir.

Bugün olayların çıkarılmasından bahsediyorum ve ayrıca ilişkilerin çıkarılmasından da bahsedeceğim.

Şu anda, esas olarak açık alan olaylarının çıkarılmasını açıkladım. Öncelikle açık bir alan adının ne olduğunu anlayalım.Açık bir alan adından bahsetmeden önce, geleneksel anahtar çıkarmanın neye benzediğine bir göz atalım. Geleneksel yöntem, önceden tanımlanmış ilişki çıkarma olarak adlandırılır. Çıkardığımız hedef ilişki kategorisi iyi tanımlanmıştır ve verdiğimiz külliyatın yapısı nispeten basittir Bu, önceden tanımlanmış ilişki çıkarımıdır.

Akademi ve endüstri bu konuda çok şey yaptı ve uluslararası değerlendirmeler de var.Genel olarak, tümü denetimli anahtar çıkarma teknikleri olan bazı etiketli külliyat verilmiştir. ACE, Amerika Birleşik Devletleri'nde yapılan bir değerlendirmedir ve değerlendirme, bu tabloda listelenen varlık ilişkisi kategorilerine dayanmaktadır. Bu, tamamı önceden belirlenmiş olan TAC-KBP'nin varlık ilişkisi kategorisi olan SemEval'in varlık ilişkisi kategorisidir.

Önceden tanımlanmış ilişki çıkarımı, önceden tanımlanmış ilişki çıkarımı yapmak için çeşitli yöntemler vardır. Şimdi, herkesin ortak endişesi hala derin öğrenme yöntemidir. 2014'teki COLING'de, evrişimli sinir ağlarına dayalı önceden tanımlanmış ilişkileri çıkarmak için ilk kez derin öğrenme yöntemini kullandık. Performans açısından, derin öğrenmeye dayalı ilişki çıkarma yöntemi geleneksel yöntemlere göre önemli bir gelişmeye sahiptir.

Öyleyse neden açık alan ilişkisi çıkarımını inceleyelim? Bakalım:

Freebase: 40 milyondan fazla varlık, on binlerce öznitelik ilişkisi ve 2,4 milyardan fazla gerçek üçlüsü. Bu düzeyde bir ilişki çıkarımı, şu anda yönteme hala güveniyorsanız ve manuel olarak etiketlenmiş eğitim setlerine güveniyorsanız, kesinlikle bu bağlamda çalışmayacaktır. Şu anda, açık ilişki çıkarımı yapmak için bazı otomatik veya zayıf denetimli, yarı denetimli yöntemleri düşünmeliyiz.

Zor olan sorun eğitim külliyatının nasıl elde edileceğidir. Derlemeyle bu yeterli değil, yine de yeni ekstraksiyon yöntemlerini incelememiz gerekiyor. Bu bağlamda, dünyada iki temsili açık alanlı ilişki çıkarma araştırma yöntemi vardır, biri sözdizimine, diğeri bilgi denetimine dayanmaktadır.

Sözdizimi tabanlı yöntem, Amerika Birleşik Devletleri Washington Üniversitesi Turing Laboratuvarı tarafından yapılan bir dizi çalışmadır.Örneğin, (Huawei, Shenzhen merkezli), derlemede çeşitli ifade yöntemleri var, çıkarabiliriz (Shenzhen'deki Huawei merkezi, Shenzhen'deki Huawei merkezi, Huawei Merkezi Shenzhen'de inşa edildi), ilgili tüm bilgiler. Bu tür cümlelerin üçlü yapısını bulmak ve bunları birlikte çıkarmak için bir sözdizimsel çözümleyici kullanmalıyız.Bu, ihtiyacımız olan bilgi.

Sözdizimi tabanlı yöntemin özü, sözdizimsel çözümleyicidir. Bununla birlikte, bulunan sözdizimsel üçlülerin çoğu, ihtiyacımız olan gerçek anlamlara sahip üçlüler değildir Bunun nedeni, bu üçlüleri gerçek anlamlarla filtrelemek için bazı kuralları manuel olarak tasarlamamız gerektiğidir.Bu, sözdizimsel ilişkiye dayanmaktadır. Ekstraksiyonun ana fikri. Bu yöntemle ilgili sorun, bu varlık-ilişki üçlülerinin çıkarılıp bir araya getirilmesidir.Hangi semantiği temsil ettikleri ve anlambilimlerinin insan bilgi temellerine bağlı olmadığı açık değildir, bu nedenle bu bir tür Kapsamlı anlayış. Dahası, aynı ilişki çeşitli dillerde normalleştirilmeden ifade edilir, bu nedenle nasıl uygulanacağı konusunda hala birçok sorun vardır.

Bilgi denetimine dayalı yöntem. CIKM'in 2007'deki makalesi bu fikri ilk olarak ortaya attı.Vikipedi'de iki alana bölünebilir.Bir alan Infobox adını verdiğimiz yapılandırılmış kısım, diğer alan ise doğal dil anlatım kısmıdır.İki kısımda anlatılan bilgiler örtüşüyor. Örneğin, Tsinghua Üniversitesi'nin bilgisini ve kurulduğu zamanı tarif etmek için Infobox'ta ve doğal dilde örtüşen açıklamalar vardır.İki bölüm karşılık geliyorsa, iki bölgenin bilgisine karşılık gelebilir ve bir taraf onun eğitim setidir. Bu çok basit bir fikir. Bir wikipedia girişinin doğal dil metnini geri işaretlemek için Infobox'un yapılandırılmış bilgilerini kullanırsanız, eğitim külliyatı otomatik olarak oluşturulabilir.

Mintz bu fikri geliştirdi ve bir uzaktan denetim yöntemi veya bilgi denetimi yöntemi önerdi. Bu örneğe bakın, ilk örnek olumlu bir örnek, geri kalanı olumsuz örneklerdir (yani gürültü). İçeride işaretlenmiş örneklerdeki gürültü örneklerini filtrelememiz gerekiyor. Gürültü sorunu şu anda eğitim setlerini oluşturmak için bilgi denetimi yöntemlerinin kullanılmasındaki en büyük zorluktur. Herkes bu alanda pek çok araştırma yapmıştır. Ana fikir şudur: olumlu örnekler düzenli olarak ortaya çıkar ve karşı örnekler dağınık görünür, böylece bu fikri filtrelemek için kullanabiliriz.

Bu, açık ilişki çıkarma konusundaki araştırma çalışmamızdır. Freebase'i yapılandırılmış bilgi olarak kullanıyoruz ve New York Times'ın metnini geri tikliyoruz. Gürültüyü filtrelemenin bir yöntemi olarak çoklu örnek öğrenmeyi kullandık. Geleneksel yöntemde, geri ödemenin her bir cümlesinin bu ilişkiyi temsil ettiği varsayılırsa, çok fazla gürültü çıkaracaktır. Çoklu öğrenme örneğinde, en az bir cümlenin bu ilişkiyi temsil ettiğini varsayıyoruz. Amaç, en olası cümleyi işaretlemektir, böylece doğruluk oranı önceki paketteki doğruluk oranından daha yüksektir ve performans Gelişecek.

Bu çalışma da derin öğrenme çerçevesinde yapılmaktadır. İlişki çıkarımı için iki varlık gerektiğinden, cümle üç paragrafa bölünebilir. Derin öğrenme ve vektörleştirme yaptığımızda, bir cümleyi vektör olarak kullanmak yerine cümleyi üç kısma ayırırız.Üç kısım derin evrişim için dağıtılır.Üç kısımlı vektörler birleştirilerek tüm cümlenin vektörleştirilmiş gösterimi yapılır. Cümlenin daha yapılandırılmış bilgilerini tutabilir.Bu modele, özellikleri otomatik olarak öğrenmek için bölümlere ayrılmış evrişimli sinir ağı diyoruz.

Bu, Freebase ve The New York Times olarak etiketlediğimiz bilgi tabanı ve külliyattır. Bunu yaparsak, nispeten iyi bir performans elde edebiliriz (yaklaşık% 70 veya daha fazla) Nispeten düşük olmasına rağmen, zaten geleneksel yöntemden daha yüksektir, çünkü bu, Freebase'in birçok ilişkisel kategorisinde yapılır. Bu düzeyde, umut aslında görülebilir.

Olay çıkarma hakkında daha sonra konuşalım. Bu bir ACE olayıdır.Tanımlanabilecek pek çok olay türü vardır.

Önceden tanımlanmış olay çıkarma, önceden tanımlanmış olay çıkarma da sinir ağları kullanılarak yapılır. Açık olay çıkarımı, açık ilişki çıkarımından çok daha zordur. Neden?

Bir ilişki iki varlıktan ve aralarındaki ilişkiden oluşur. Ancak evlilik olayı gibi bir olay farklıdır, beş unsuru vardır. İki varlığı bağlantı noktası olarak kullanabilir ve bunları metinde işaretleyebiliriz. Bu olayın beş öğesi vardır, ancak bir cümlede beş öğenin tümünü bulmak imkansızdır, çünkü olay öğeleri bulmak için genellikle birkaç cümleyi veya hatta bir paragrafı kapsar. Daha önemli bir özellik daha var. Ortadaki, Freebase'de kimlik numarası olarak gösterilen Evlilik. Metinde karşılık gelen konumu bulmak imkansız, bu yüzden bu en ayırt edici özelliği bulamıyoruz, bu yüzden çok büyük bir Zorluklar. Başka bir deyişle, tetikleyici kelime olayın en temsilcisidir, ancak bilgi tabanında yalnızca bir etiket vardır, bu nedenle tetikleyici kelime yoktur, ki bu çok zordur.

Yöntemimiz, örneğin, bir olay türünde 10 öğe vardır ve 10 öğenin tamamının görünmesi imkansızdır, ancak bir olayda bazı temel öğeler vardır, temel öğeleri bir grup öğeden buluruz ve cümleyi bulmak için temel öğeleri kullanırız Kelimeleri tetikleyin, tetikleyici kelimeleri önceki unsurlarla ilişkilendirin ve ardından etikete dönün, metinde daha fazla veri bulabilirsiniz, bu bizim temel fikrimizdir. Bu çalışmada, Freebase'de 21 kategori yaptık. ACE yalnızca 6.000 cümle eğitim seti sağlıyor. Yöntemimizi kullanarak 420.000 külliyat bulabilir ve bazı gürültüleri filtreleyebiliriz. Güvenilirlik çok yüksektir. 10.000'den fazla cümle ve ardından olay çıkarma modelini eğitin, doğru tetikleyici kelime tanıma oranı% 89'a ulaşabilir ve doğru öğe etiketleme oranı% 85'e ulaşabilir.

Bu yıl ACL-2018 çalışmalarımızdan biri de Freebase'de yapıldı.Belirli bir finans alanında (genel alanda değil) bazı projeler yapıyoruz, daha iyi bir rol oynayabilir miyiz? Finans alanında dört tür finansal olay gerçekleştirdik: dondurma, rehin, geri satın alma, holdinglerin artırılması ve azaltılması. Bilgi denetimi yöntemi, dört tür olayı çıkarmak için bir eğitim topluluğu oluşturmak için kullanılabilir mi? Ana yöntemimiz finansal bilgi tabanını kullanmaktır.İade teklifi metni, borsada işlem gören şirketin yıllık raporudur.Bu, iade teklifinin cümlesidir, ardından dönüşten sonra özel derin öğrenme yöntemi uygulanır.Süre sınırı ayrıntılı olarak açıklanmamıştır.

Deneyimlerimizden, listelenen bir şirketin yıllık raporunun nispeten standartlaştırılmış metninde, bilgi tabanının da daha ayrıntılı olduğu görülebilir. Genel alandan daha iyisini yapabiliriz, temelde% 90 düzeyine ulaşabiliriz. Bilgi tabanı, manuel düzenleme yapıyorlar ve yaptıkları bilgi kaynakları hala çok kullanışlıdır.Bu bizim metodumuzun finans alanındaki uygulamasıdır.

Bugün muhtemelen bunlardan bahsetmiştim: Bilgi grafiği çok önemlidir ve olay grafiği çok önemli bir bilgi grafiği türüdür.Olay grafiği oluşturmak için, açık alan ilişkisi çıkarma, açık alan olay çıkarma vb. Çalışmamız gerekir, aslında burada olabilir Alanında çok ilginç işler yapmak için birçok uygulama da olabilir, çok umut verici bir yöntemdir.

Makalenin sonundaki tıklayın Orijinali okuyun AI etki faktörünü görüntüleyin.

( 0 ) Paylaşmaya hoş geldiniz, yarın görüşürüz!

23.77-28.77 milyon fiyatıyla yeni Brilliance Huasong 7 piyasada
önceki
Homecoming Survey KTV'deki "Chengdu" ve bu 18. kademe şehrin müzik tüketimi konsepti
Sonraki
Envanter | Hibrit bulut savaşı başlamak üzere, devlerin hangi kartları var? En çok kimi seviyorsun?
Quan Zhilong tarafından kutsanan NIKE Air Max Plus nihayet büyük "Tn" versiyonunun piyasaya sürülmesini bekliyor!
Gerçekten gözeneksiz bir cep telefonu olan Meizu Zero, şimdi 1.299 $ 'lık bir yardımla kitle fonlaması yapıyor.
Altın cümleler sık sık ortaya çıktı, 16 büyük tanrı ICML'de bir makine öğrenimi Büyük Tartışmalar başlattı
Gücü artırırken yakıt tüketimini azaltırken? Bu tür bir motor cennete gidiyor!
Star Art Test Sendromu: Özel yoldan geçenler, endişeli medya ve halkla ilişkiler hayranları
23 yıl sonra tekrar Huang Feihong'u canlandıran başrol ve yapımcı Zhao Wenzhuo, on üçüncü teyze bir sürpriz gibi görünüyor!
Çin'deki en iyi bilgisayar uzmanı kim? İşte en güçlü referansların bir listesi ~
Xiaomi'nin ilk Android Go giriş makinesi Redmi Redmi Go piyasaya sürüldü, 1GB + 8GB depolama alanı
Rapor 1970'lerden günümüze, otonom araçların gelişimi ne tür tarihsel değişimler yaşadı?
"The Secret of June" filminin çekimleri 3. yılın sonunda başlayacak.Aaron Kwok ve Miao Miao baba kız rollerini üstleniyorlar, sabırsızlanıyor musunuz?
Site ACL Workshop'a bir bakış: Endüstri-Üniversite İşbirliği
To Top