Liu Zhiyuan, Tsinghua Üniversitesi: Bilgi Temsilciliği Öğrenimi ve Uygulaması (PPT İndir)

Bu ders, Tsinghua Üniversitesi doçentinden seçilmiştir. Liu Zhiyuan 27 Nisan 2018 tarihinde 2. "Tsinghua'da Büyük Veri" Zirve Forumu Başlıklı "Bilgi Temsilcisi Öğrenme ve Uygulaması" Konuşma.

Not: "0520" anahtar kelimesini arka planda özel mesajla yanıtlayın, PPT'nin tam sürümünü indirin.

Tam konuşma Liu Zhiyuan: Bugün sizlerle paylaştığım konu "Bilgi Temsilciliği Öğrenimi ve Uygulaması".

Yaklaşık 20 veya 30 yıl önce, sözde veri aşırı yükleme problemi ile karşı karşıya kaldık.O zamanlar, büyük veride ilgili bilgilerin nasıl hızlı bir şekilde elde edileceğini incelemek için bilgi alma adı verilen özel bir alan vardı.

Arama motoru çok önemli bir uygulama, neredeyse 20 yıldır piyasada olan Google ve Baidu gibi her gün sayısız kez kullanıyoruz.

Geçmiş aramalarımız daha çok anahtar kelime eşleme şeklindedir. Önce, kullanıcı bir dizi anahtar sözcük yazar ve ardından arama motoru anahtar sözcüklerle eşleşir. 2012'de Google, "Dizeler Değil, Şeyler" adlı yeni bir slogan ortaya attı. Bu, arama motorunun yalnızca kullanıcı tarafından girilen anahtar kelimeleri veya tek tek işlemesi gereken büyük İnternet verilerini ele almak istemediği, ancak bu dizeleri gerçekten tanıyabilmeyi veya bulmayı umduğu anlamına gelir. Gerçek dünyadaki gerçek şeyler perde arkasına yansıdı.

Bu konseptle hareket eden Google'ın bilgi grafiği ürünü doğdu. Kullanıcılar ister Baidu, Sogou veya Google kullanıyor ister bir ünlüyü, bir kuruluşu veya bir yer adını arıyor olsun, kuruluş veya kişi hakkında bazı yapılandırılmış bilgiler görünecektir.

Örneğin, Yao Ming'i ararsak, Yao Ming ile ilgili bilgiler listelenecektir Bu bilgi sözde bilgi grafiğidir. Gerçek dünyadaki tüm bilgileri yapılandırılmış bir biçimde saklamaya çalışır. Bu tür bir bilgi grafiği sadece arama motorumuzu desteklemek ve bilgiyi bize daha doğru bir şekilde iletmek için değil, aynı zamanda bazı yapay zeka uygulamaları için altyapıdır. Yalnızca arama motorları açısından bakıldığında, bilgi grafiği desteğiyle birçok yeni uygulama ortaya çıkmıştır.

Arama motorlarında gün geçtikçe daha fazla anahtar kelime girmeye, cevabı web sayfasında bulmaya gerek kalmadan bu soruyu doğrudan sorar ve arama motoru bize cevabı söyleyebilir.

Örneğin, "Çin'de GSYİH'nın en yüksek olduğu il hangisi?" Diye sorarsak, size doğrudan ilgili cevabı verebilir. Mümkünse, ilgili bilgiler hakkında bilgi almak için de tıklayabilirsiniz.

Örneğin, "Tsinghua Üniversitesi hangi yılda kuruldu?" Diye sorarsak, size ilgili bilgileri söyleyecektir. Bu bilgiler arkasındaki bilgi grafiğinde saklanır. Anlamak için doğal dil işleme teknolojisi ve bilgi grafiği teknolojisinin uygulanması gerekir Sorunuz ve ardından bilgi grafiğinde cevabı bulun.

Hatta "Hangisi daha iyi, Tsinghua Üniversitesi mi, Pekin Üniversitesi mi?" Gibi daha karmaşık soruları yanıtlamayı deneyebilirsiniz. Sogou bize şunları söyledi: İnsanların% 64'ü Tsinghua'nın iyi olduğunu düşünüyor.

Bilgi grafiğinin desteği ile ilgili akıllı muhakeme de gerçekleştirebiliriz. Örneğin, "Liang Qichao'nun oğlunun karısının sevgilisi kimdir?", Cevabı doğrudan bilgi grafiğinde mevcut değildir, ancak cevabı bulmak için bilgi grafiği yapısında birkaç atlamayı gerektirir. Bu, tamamlamak için bazı ilgili akıllı muhakemeleri gerektirir. Aslında, Çin'deki Google veya Baidu olsun, bu göreceli arama motorları, kullanıcılara daha iyi hizmetler sunmak için çok sayıda bilgi grafiği oluşturmaya çalışıyor. Büyük veri çağı için bu konu çok önemlidir.

Hatta "Hangisi daha iyi, Tsinghua Üniversitesi mi, Pekin Üniversitesi mi?" Gibi daha karmaşık soruları yanıtlamayı deneyebilirsiniz. Sogou bize şunları söyledi: İnsanların% 64'ü Tsinghua'nın iyi olduğunu düşünüyor.

Bilgi grafiğinin desteği ile ilgili akıllı muhakeme de gerçekleştirebiliriz. Örneğin, "Liang Qichao'nun oğlunun karısının sevgilisi kimdir?", Cevabı doğrudan bilgi grafiğinde mevcut değildir, ancak cevabı bulmak için bilgi grafiği yapısında birkaç atlamayı gerektirir. Bu, tamamlamak için bazı ilgili akıllı muhakemeleri gerektirir. Aslında, Çin'deki Google veya Baidu olsun, bu göreceli arama motorları, kullanıcılara daha iyi hizmetler sunmak için çok sayıda bilgi grafiği oluşturmaya çalışıyor. Büyük veri çağı için bu konu çok önemlidir.

Şimdiye kadar, bu ticari bilgi grafiği uygulamaları, "sembolik temsil" dediğimiz daha geleneksel bir temsile bağlı kalmıştır. Bir bilgisayarda, bilgi grafiğini temsil etmek istiyorsanız, her bir varlığı benzersiz bir sembol olarak temsil etmeli ve onu çok uzun bir vektör olarak göstermelisiniz.Sadece bir konum 1 ve diğerlerinin tümü 0'dır. Farklı nesneler ayırt edilebilir.

Bu derin öğrenme dalgası, doğal dil işleme dahil olmak üzere birçok yapay zeka alanını taradı. Dağıtık gösterimdeki nesneler, düşük boyutlu yoğun, gerçek değerli bir vektör olarak temsil edilir. Bu şekilde, nesnelerin uzaydaki göreceli mesafesini aralarındaki anlamsal ilişkiyi yansıtmak için kullanabiliriz. İki nesne ne kadar yakınsa, ilişki o kadar yakın ve iki nesne ne kadar uzaksa, aralarındaki ilişki o kadar yakın olur.

Doğal dil işleme, tipik bir uzun kuyruklu dağıtılmış büyük veridir. En büyük özellik, uzun kuyruk kısmında çok önemli bir veri seyrek problemi olacaktır. Bu nesneler düşük boyutlu bir vektör uzayında ifade edilirse, bu uzayda farklı konumların anlamlarını öğrenmek için bu uzayda az sayıda ama özellikle yüksek frekanslı nesneler kullanılabilir. Uzun kuyruktaki seyrek veriler de bu alana eşlendiğinde, yüksek frekanslı veriler, büyük verilerdeki tipik uzun kuyruk dağılımının neden olduğu veri seyrek sorununu bir dereceye kadar çözmemize yardımcı olmak için kullanılabilir.

Bir başka çok önemli zorluk da, doğal dilin birden fazla taneli dil birimine sahip olmasıdır. Doğal dil işlemeyi gerçekleştirirken, bir kelime ile cümle arasındaki benzerliği hesaplamak veya bir cümle ile bir belge arasındaki benzerliği hesaplamak gibi farklı taneciklik birimleriyle anlamsal hesaplamalar yapmak için genellikle algoritmalar tasarlamak gerekir. Bu nesneler düşük boyutlu bir vektör uzayına yerleştirilebilirse, aralarındaki benzerliği hesaplayabilen birleşik bir hesaplama şemasına sahip olabiliriz.

Örneğin, aynı araştırma nesnesi, bir cümle veya bir belge için birçok farklı görev olacaktır.Leksik analiz, sözdizimsel analiz veya anlambilimsel analiz yapmak, altta yatan temsil tutarlıysa, çok görevli öğrenmeyi daha iyi sağlamamıza da yardımcı olabilir. Bunun desteği, dağıtılmış temsilin bir avantajı olduğunu düşündüğümüz şeydir.

Büyük ölçekli bilgi grafiklerinin geleneksel temsili de benzersiz sembollerle temsil edilen sembollere dayanmaktadır. Bilgi grafiğini düşük boyutlu bir vektör uzayına eşlemek, sözde bilgi temsili öğrenmesidir.

Bilgi grafiğinde pek çok gerçek vardır ve her bir gerçeği, baş varlıktan kuyruk varlık vektörüne bir dönüştürme işlemi olarak vektör olarak görebiliriz.

Yukarıdaki şekilde gösterildiği gibi, baş öğe h ile temsil edilir ve kuyruk öğesi t ile temsil edilir. Bir r ilişkisi varsa, bu r, baş varlıktan kuyruk varlığa çeviridir. Kısacası, optimizasyon hedefimiz h + r = t'ye izin vermektir. Bu şekilde, birlikte optimize edilmiş binlerce üçlü ile, tüm varlıkların ve bunların ilişkilerinin düşük boyutlu vektör temsillerini elde edebiliriz. Düşük boyutlu vektör gösterimi ile birçok ilgili anlamsal hesaplama yapılabilir.

Büyük ölçekli bir bilgi grafiğinden düşük boyutlu bir vektör uzayına kadar olan süreçte bilgi kaybı olmalıdır, ancak en olası varlık kümesini hızlı bir şekilde bulabilir ve ardından gerçek cevabını bulmak için daha karmaşık algoritmalar kullanabilir. Bu, düşük boyutlu vektör temsilinin uygulama anlamıdır.

İlişkiyi tahmin etmek için bilgi grafiğini kullanmaya çalıştık ve t-h ile değerlendirilebilen tüm varlıklar ve ilişkiler arasındaki temsili elde ettik.

Bilgi edinmenin diğer bir çok önemli kaynağı da metinsel bilgidir İki varlık arasındaki olası ilişki bir cümle ile değerlendirilebilir.

Bilgi grafiği düşük boyutlu vektör uzayıyla eşleştirilirse, metin anlam alanı çok iyi bir şekilde birleştirilebilir; bu, tamamen genişletilebilen bilgi miktarına eşdeğerdir ve bilgi edinmenin doğruluğu önemli ölçüde geliştirilebilir.

Diğer bir girişim ise varlık hizalama olarak adlandırılır. Bir sorunla karşı karşıyayız.Farklı kurumlar ve ülkeler çeşitli farklı bilgi grafikleri oluşturabilir.Bu bilgi grafikleri sadece farklı değil, aynı zamanda belirli ortak yönlere de sahiptir. Farklı kaynaklardan elde edilen bu bilgi haritalarını daha büyük bir bilgi haritasına nasıl birleştirebiliriz? Varlık uyumu sorunu var. Bilgi grafiğindeki varlık ve başka bir bilgi grafiğindeki varlık, varlık hizalaması dediğimiz aynı varlıktır.

İki bilgi grafiği iki alanı ayrı ayrı öğrenebilir ve ardından iki alanı gerçekten ilişkilendirmek için bilinen iki bilgi grafiğindeki hizalanmış varlıkları kullanabilir. Bu boşluktaki bir konumu ve bu uzaydaki başka bir konumu bilebilirim. Aralarında iki Bilgi Grafiğinin temsil uzayını ayrı ayrı öğrenmeye eşdeğer bir korelasyon var ve sonra bu ikisini birleştirmek için çok sınırlı çekirdek varlıklar kullanın Alan birbirine karıştırılmıştır.

Çok sayıda deney, yöntemimizin iki bilgi grafiğini hizalamanın etkisini önemli ölçüde iyileştirebileceğini kanıtlamıştır.Aynı zamanda bilgi grafiğinin çok önemli bir uzun kuyruk etkisine sahip olduğunu da göstermektedir. Onu düşük boyutlu bir vektör uzayına eşleyerek, bilgi grafiğinden daha iyi faydalanabilir. Küresel bilgi anlamsal bir alan oluşturur.

Üçüncü görev, bir cümleyi anlamak veya bu cümleden varlıklar arasındaki ilişkiyi çıkarmak için çok önemli olan varlık sınıflandırmasıdır. En büyük sorun, bilgi grafiği sembollerle temsil ediliyorsa, onu derin öğrenmeyle bütünleştirmenin zor olmasıdır. Artık dağıtılmış temsil mümkün olduğuna göre, bu iki modeli bir araya getirmek doğaldır.

Geçmişte, bilgi grafiği çok büyük ve önemli olmasına rağmen, metinsel bilgiyle bütünleştirilmesi zor olan tipik bir yapılandırılmış bilgi olduğu için kullanımı zordu. Ancak şimdi düşük boyutlu vektör gösterimi ile, ilgili işlemler için bilgi grafiği ve metin bilgisinin bilgisini tek bir alana koymak gerçekten mümkün. Bu bağlamda, bilgi grafiklerinin büyük ölçekli temsilinin anlamsal uzayının gelecekte birçok yönde uygulamaları olacağına inanıyoruz. Bununla birlikte, bazı genel bilgi grafiklerinde büyük ölçekli bir bilgi grafiği temsili öğrenme modelini öğrenmenin zor olduğunu bulduk. Bu nedenle, şu anda daha etkili olan ve birleşik bir arayüz kullanan tüm bilgi temsil modellerini uygulamak için bir platform oluşturduk.

İki genel amaçlı büyük ölçekli bilgi grafiği olan WikiDATA ve Freebase'e yöneliyoruz Temsili öğrenme teknolojisine dayanan bilgi grafiği, bilgi alma ve öneri sistemleri gibi birçok alana derinlemesine uygulanması beklenen düşük boyutlu bir anlamsal alana eşleştirilir. Bu alanların her ikisi de aktif olarak büyük ölçekli bilgi grafiği bilgilerinin kullanımını düşünüyor ve ayrıca geri getirme sonuçlarını iyileştirmek için düşük boyutlu uzay kullanmaya çalışıyoruz ve etki çok açık.

Finans, tıbbi bakım ve hukuk gibi dikey alanlarda, bir bilgi haritası oluşturma süreci çok karmaşık, zaman alıcı ve yoğun emek gerektirir. Öğrenmenin bilgi ediniminde bir rol oynayabileceğine inanıyoruz. Şu anda, günlük bilgi için büyük ölçekli bilgi grafiklerinin kapsamı ve güncelleme hızı çok sınırlıdır. Gelecekte, bazı derinlemesine çalışmalar yapmayı ve bilgi haritası teknolojisi üzerinde yeterince çaba harcamayı umuyoruz. Yukarıdakiler, bugün sizinle paylaşmayı umduğum ana içeriktir, teşekkür ederim!

Hazard ve ona ek olarak Zidane, Real Madrid'in Liverpool'un kalçasına imza atmasını istiyor!
önceki
Yeni yıl tabana ziyareti 20 | Zibo mutfağının çıtır balık kabına ek olarak, Xinglong maden halkının yeni bir vizyonu
Sonraki
Günde 16 saat çalışmak, her şeyi tek elle yapmak ... Girişimcilikte bu tuzaklardan nasıl etkili bir şekilde kaçınabiliriz?
Yapay zeka balonunun bir sonraki turu tüketici robotları tarafından tetiklenebilir
Chengdu özel devriye polisi gerçek savaş yarışmasına, 372 kişiden 24 takım katıldı
Klasikleri özlüyorum! Bashen, Manchester United forvetinin formasını Paris'le alay etmek için hazırladı, ancak gol atamadı!
Shenjian Teknolojisinin kurucu ortağı: Makine Görüşü için Derin Öğrenme İşlemcisi (PPT İndir)
Çin Yeni Yılında ateşli kafalar Ülkenin her yerinde anneler böyle mi?
Google I / O konferansını anlamak için bir makale: Android'de büyük değişiklikler, AI'nın geliştirilmesi, Google Asistan iPhone'a açılmalıdır
6 yıllık tecrübe ve 2 Dünya Kupası'nın ardından, CCTV'nin en güzel kadın spor spikerlerinden Moskova Kızıl Meydan'ın cam evi
Arenada yapay zeka envanteri, Tsinghua halkının "Batı ve Doğu Soru Yok"
Chenxiao'nun "Renk Dünyasını" Beş Duyu Çinli renk sanatçısı Chenxiao'nun Chengdu'daki SM Plaza'daki ilk sergisiyle tadın.
Dört yıl önce neredeyse Avrupa'nın zirvesine ulaştılar, ancak şimdi amatör ligine düştüler!
Profesör Zhang Changshui, Tsinghua Üniversitesi: Makine Öğrenimi ve Görüntü Tanıma (PPT indirmeli)
To Top