Alibaba AAAI 18 Paper CoLink: Bilgi Grafiği Varlık Bağlantısı için Denetimsiz Öğrenme Çerçevesi

Leifeng.com AI Teknolojisi Yorumu: Alibaba, AAAI 2018 tarafından kabul edilen, Machine Intelligence Technology Laboratory, Business Platform Division, Alimama Division, Artificial Intelligence Lab, Cloud Retail Division, bunlardan 5 tanesi olmak üzere 11 bildiriye sahiptir. Yazar, ana konferansta bir OralSpotlight raporu vermeye davet edildi ve bir başka yazar, ana konferansta bir poster vermek için iki bildiri getirdi. Makalenin içeriği, düşmanca öğrenmeyi, sinir ağlarını, hafif ağların performansını iyileştirmek için eğitim çerçevelerini, makine çevirisini, sohbet robotlarını, denetimsiz öğrenme çerçevelerini, aşırı düşük bit sinir ağlarını ve diğer teknik yönergeleri içerir.

Aşağıda Alibaba AI Lab, Microsoft Research ve Urbana-Champaign'deki Illinois Üniversitesi arasındaki ortak çalışmaların yorumlanması ve sunulması yer almaktadır.

Baş Yazarlar (Çince ve İngilizce): Zhong Zexuan Zexuan Zhong, Cao Yong Yong Cao, Guo Mu Mu Guo, Nie Zaiqing Zaiqing Nie

Kağıt indirme adresi: https://102.alibaba.com/downloadFile.do?file=1518508273059/CoLink%20An%20Unsupervised%20Framework%20for%20User%20Identity%20Linkage.pdf

Özet

Aynı varlık bilgisinin birkaç alt bilgi grafiğiyle ilişkilendirilmesi (kullanıcı kimliği bağlantısı (UIL) sorunu olarak da bilinir) birçok uygulama için gereklidir. Varlık bağlantısı probleminde iki temel zorluk vardır.

İlk olarak, eğitim verileri olarak manüel olarak bağlanmış varlık bilgi çiftlerini (kullanıcı çiftleri) toplamanın maliyeti çok yüksektir.

İkinci olarak, farklı alt bilgi grafiklerinin varlık özniteliklerinin genellikle çok farklı tanımları ve biçimleri vardır, bu da öznitelik hizalamasını çok zor hale getirir.

Bu yazıda, varlık bilgilerini ilişkilendirme sorunları için genel bir denetimsiz çerçeve olan CoLink'i öneriyoruz. CoLink, aynı anda iki bağımsız modeli (öznitelik tabanlı modeller ve ilişki tabanlı modeller) çalıştırabilen ve iki modeli denetimsiz bir şekilde birbirleriyle yinelemeli olarak geliştiren işbirliğine dayalı bir eğitim algoritması kullanır. Öznitelik tabanlı bir model olarak "sırayla diziye" öğrenmeyi kullanmanın çok etkili olduğunu da öneriyoruz Bu yöntem, öznitelik hizalama sorununu bir makine çevirisi sorunu olarak ele alabilir. CoLink'i kurumsal ağdaki çalışanları LinkedIn profilleriyle eşleştirme görevine uyguladık. Deneysel sonuçlar, CoLink'in F1 puanlarındaki performansının, önceki en iyi denetimsiz yöntemi% 20'den fazla aştığını göstermektedir.

Giriş

Aynı varlık bilgisinin farklı alt bilgi grafiklerine (kullanıcı kimliği bağlantı (UIL) sorunu olarak da bilinir) bağlanması, genellikle varlığın daha iyi ve daha derin bir şekilde anlaşılmasına neden olur ve bu da genellikle daha iyi işlere yol açar akıllı.

Varlık bağlama problemlerinde makine öğrenimi algoritmaları yaygın olarak kullanılmasına rağmen, eğitim verilerinin etiketlenmesi basit değildir. Her şeyden önce, bağlantılı varlıkların bilgi çiftini bulmak son derece zaman alıcıdır, çünkü tüm alt bilgi grafiklerini araştırmayı ve çok sayıda aday çifti dikkatlice değerlendirmeyi gerektirir. Ek olarak, bu çalışma, insan açıklayıcıların kapsamlı alan bilgisine sahip olmasını gerektirir. İkinci olarak, gizlilik koruma nedenlerinden ötürü, bilgi grafiğindeki tüm varlık verileri, özellikle bilgiler kişisel sosyal ağlardan veya kurumsal iç ağlardan geldiğinde, insan açıklamacılarına sağlanamaz.

Varlıkları iki alt bilgi grafiği arasında birbirine bağlamak, iki alt grafikteki ad, konum, konum vb. Gibi varlık özelliklerinin dikkatli bir şekilde karşılaştırılmasını gerektirir. Bu nedenle, öznitelik değerlerinin hizalanması, varlık bağlama problemi için çok önemlidir. Bununla birlikte, geleneksel dizi benzerlik işlevinin iki eksiği vardır:

  • Farklı varlık ağlarında aynı özniteliğin değişikliğini idare edebilecek evrensel bir yöntem yoktur.

  • Örtük öznitelik yazışması bulunamıyor

Bu yazıda, varlık bağlama sorunları için genel bir denetimsiz CoLink çerçevesi öneriyoruz. Bilgi grafiğindeki varlık verileri, doğal olarak iki bağımsız özelliğe bölünebilir: ortak eğitim algoritmalarının gereksinimlerini mükemmel şekilde karşılayan özellikler ve ilişkiler.

CoLink iki bağımsız model kullanır: öznitelik tabanlı bir model ve ilişki tabanlı bir model. Hem özniteliğe dayalı model hem de ilişkiye dayalı model, iki varlığın bağlanıp bağlanamayacağını belirleyen ikili sınıflandırıcılardır. Herhangi bir makine öğrenimine veya sezgisel algoritmaya dayalı olabilirler. Bu nedenle, bilgi grafiği verileri nitelikler ve ilişkiler içerdiği sürece CoLink, bilgi grafiğinin varlık bağlantı problemine uygulanabilir. .

Ayrıca, CoLink'in öznitelik tabanlı modelinin gerçekleştirilmesinde kullandık "Sıraya Göre Sıra" Farklı varlık ağları arasında öznitelik hizalaması için genel bir yöntem sağlayan öğrenme algoritması. Öznitelik hizalamasını dize benzerliği karşılaştırması olarak ele almadık, ancak bir "dilin" (belirli bir ağ stili) öznitelik değerini başka bir "dile" "çevirmeye" çalıştık. Kısaltmalar, kısaltmalar, eşanlamlılar ve hatta örtük yazışmalar, hepsi özel çeviri durumları olarak kabul edilebilir. "Sıradan diziye" algoritmasını seçmemizin nedeni, makine çevirisi görevlerinde etkinliğini göstermiş olmasıdır. Spesifik olarak, "sıraya göre sıralama" yönteminin CoLink ile kullanılabilen iki avantajı vardır. Her şeyden önce, özellikleri manuel olarak çıkarmadan otomatik olarak kelime düzeyinde eşleme ve sıra düzeyinde eşleme elde edebilir. İkincisi, eğitim verileri olarak yalnızca olumlu örneklere (hizalanmış öznitelik çiftleri) ihtiyaç duyar, bu da olumsuz örneklerin örneklenmesi işini azaltabilir.

Kurumsal ağdaki çalışanları LinkedIn profilleriyle ilişkilendirmeye çalıştığımız sosyal ağların aynı kullanıcılarını birbirine bağlama görevine CoLink'i uyguladık. CoLink'i daha önce en iyi denetimsiz yöntemle karşılaştırdık. Deneysel sonuçlar, CoLink'in F1 skorundaki performansının daha önce en iyi denetimsiz yöntemin% 20'sini aşabileceğini göstermektedir. Katkılarımız şu şekilde özetlenmiştir:

  • İlk olarak işbirliğine dayalı eğitim algoritmasını bilgi grafiği varlıklarını bağlama sorununa uyguladık. Varlık ağındaki varlık öznitelikleri ve varlık ilişkileri doğal olarak ayrıldığından, bu, işbirliğine dayalı eğitimi mükemmel ve maliyetsiz bir çözüm haline getirir.

  • İlk olarak öznitelik hizalama problemini makine çevirisi olarak modelledik. Neredeyse öznitelikleri çıkarmadan iyi genelleme yapabilen özniteliğe dayalı modelin temeli olarak "diziden diziye" yöntemini kullanıyoruz.

  • Çok sayıda deney yaptık, önerdiğimiz yöntemi daha önce en iyi denetimsiz yöntemle karşılaştırdık, farklı ayarları ve modelleri sıraladık ve sonuçlar önerdiğimiz çözümün etkinliğini gösterdi.

CoLink

Problem tanımı

Bilgi grafiğindeki varlık bağlantı problemi şu şekilde tanımlanır: girdisi bir kaynak bilgi grafiği ve bir hedef bilgi grafiği içerir. Çıktı, kaynak haritadan hedef haritaya bağlanan varlık çiftlerini temsil eden bir dizi varlık bağlantı çiftidir.

CoLink çerçevesi

CoLink çerçevesi, Algoritma 1'de gösterilen işbirliğine dayalı eğitim algoritmasına dayanmaktadır. Bu çerçevede iki farklı model tanımlıyoruz: öznitelik tabanlı bir model fatt ve ilişki tabanlı bir model frel. Her iki model de verilen varlık çiftlerini pozitif (bağlantılı) veya negatif (bağlantısız) olarak sınıflandırarak ikili sınıflandırma tahminleri gerçekleştirecektir. İşbirliğine dayalı eğitim algoritması, bu iki modeli yinelemeli bir şekilde sürekli olarak geliştirir. Ortak eğitimin her yinelemesinde, iki model, yeniden eğitim için bağlantılı çift kümesi S'yi kullanacaktır. Daha sonra, bu iki model kullanılarak oluşturulan yüksek kaliteli bağlantılı çiftler, S yakınlaşana kadar bir sonraki yineleme için S ile birleştirilecektir. En başta, işbirliğine dayalı eğitim sürecini başlatmak için bir başlangıç bağlantılı eşleştirme kümesine (bir tohum kümesi olarak atıfta bulunulur) ihtiyaç vardır Bu küme, bir dizi çekirdek kural tarafından oluşturulabilir. Modelin kullandığı algoritmaya bağlı olarak, öznitelik tabanlı modellerin ve ilişkiye dayalı modellerin eğitimi olumsuz örnekler gerektirebilir. Algoritma 1, olumsuz örnekleri örnekleme sürecini göstermez.

Algoritma 1: CoLink'te ortak eğitim algoritması

Bu birlikte eğitim algoritması, önceki yinelemelerde oluşturulan bağlantılı çiftleri değiştirmez. Bu nedenle, önceki yinelemede ortaya çıkan hatalar daha sonra onarılmayacaktır. Bu algoritmaya bir alternatif, işbirlikçi eğitim birleştikten sonra son bir değişiklik yapmaktır. Yani, S'yi yeniden yapılandırmak için işbirliğine dayalı öğrenme sürecinden elde edilen son modeli kullanın.

Tohum kuralları

İşbirliğine dayalı eğitim algoritmasının başlangıcı, bağlantılı varlık çiftlerinden oluşan küçük bir çekirdek kümesi gerektirir. Tohum setini elde etmenin basit ve doğrudan bir yolu, onu tohum kuralları olarak adlandırdığımız manuel olarak tasarlanmış kurallara göre oluşturmaktır. Bu tohum kuralları, hedef bilgi grafiğinden aşağıdaki gerçekleri dikkate alabilir:

  • Varlık adının benzersizliği

  • Varlık öznitelik değeri eşleme

  • Varlık ilişkisi yayılımı

Tohum kurallarının seçimi, CoLink'in performansını doğrudan etkileyecektir.

Öznitelik tabanlı model

Özniteliğe dayalı model, varlıkların özniteliklerini dikkate alarak bağlantılı varlık çiftlerini tahmin eder. Herhangi bir sınıflandırma algoritmasını kullanabilir. Bu yazıda, iki farklı makine öğrenme algoritması denedik: "sıraya göre sıralama" ve destek vektör makinesi (SVM).

Sıraya göre sıralama

Özniteliklerin farklı varyasyonları nedeniyle, geleneksel dizi benzerlik yöntemleri öznitelik hizalamasını ele alırken kötü performans gösterir. Öznitelik hizalaması, makine çevirisi sorununa benzer olduğu için, "sıraya göre sıralama" yöntemini benimsedik. Kısaltmalar, kısaltmalar, eşanlamlılar ve hatta örtük bağlantıların tümü özel çeviri durumları olarak kabul edilebilir.

Sutskever, Vinyals ve Le (2014) tarafından önerilen "sekans-sekans" ağ yapısını benimsiyoruz. Ağ iki bölümden oluşur: dizi kodlayıcı ve dizi kod çözücü. Hem kodlayıcı hem de kod çözücü, derin ve uzun bir kısa süreli bellek (LSTM) mimarisi kullanır. Enkoder derinliği LSTM, giriş sırasını okuyacak ve her kelime pozisyonunun temsil vektörünü bulacaktır. Bu vektörler daha sonra çıkış kelimesinin konumu dikkate alınarak girdi dizisinin genel bir temsilini elde etmek için bir dikkat katmanına gönderilecektir. Daha sonra, kod çözücü derinliği LSTM'nin gizli durumu, çıktı kelimesini tahmin etmek için ayrıca tam olarak bağlı bir katmana (çıktısı kelime boyutunun boyutsal bilgisini içerir) gönderilecektir.

Önceki çalışmamızı takiben, bağlantılı öznitelik değer çiftlerini kullanarak "diziden diziye" bir ağ eğittik. Bununla birlikte, çıkış sırasını tahmin etmek için ağı kullanmak yerine, CoLink'te ikili sınıflandırma gerçekleştirmek için öğrenilmiş "sıradan sıraya" ağı kullanırız. İlk olarak, bir çift özniteliği eşleştirme olasılığını bulmak için ağı kullanırız. Ardından, eşleşen bir olasılık eşiği seçeriz ve bu eşiği aşan varlık çiftleri bağlantılı kabul edilir.

Vektör makineleri desteklemek

SVM gibi geleneksel sınıflandırma algoritmaları, öznitelik tabanlı modellerde de kullanılabilir. Yalnızca pozitif eğitim örnekleri (bağlantılı eşleşmeler) gerektiren "sekans-sekans" yönteminin aksine, SVM ayrıca negatif örnekler gerektirir. Kullanıcı eşleştirme alanı çok büyük olduğu için, olumlu örnekler aslında tüm alanda çok seyrek. Bağlı bir çift verilen her bir ortak eğitim yinelemesinde, negatif örnekler olarak aynı sayıda rastgele varlık çifti de seçeriz.

İlişkiye dayalı model

İlişki tabanlı model, bağlantılı varlık çiftlerini tahmin etmek için yalnızca varlık ilişkilerini kullanır. İki ağda yalnızca ilişkiye dayalı olarak eşdeğer düğüm bulma problemine genellikle ağ hizalama sorunu denir.

İlişki tabanlı model, herhangi bir ilişki tabanlı ağ hizalama modelini kullanabilir. Bu makalenin odak noktası, algoritmaların birlikte eğitilmesi ve "sıradan sıraya" öznitelik tabanlı modellere odaklandığı için, bu makalede bir varsayıma dayalı basit bir sezgisel model kullanıyoruz: farklı ağlardan iki varlık Her ikisinin de birbiriyle ilişkili çok sayıda bağlı varlıkları vardır, bu nedenle bu iki varlık da muhtemelen bağlantılıdır.

Deney

Deneyimiz, CoLink'i mevcut en iyi denetimsiz yöntemle karşılaştırmaktadır. Bağlantı sonuçlarını nasıl etkileyebileceklerini daha iyi anlamak için tohum kurallarının seçimini ve bağlantı olasılık eşiklerini de inceledik.

veri seti

CoLink'i değerlendirmek için iki sosyal ağ içeren gerçek bir veri seti seçtik. Sosyal ağlardan biri LinkedIn, diğeri ise kurumsal bir dahili kullanıcı ağıdır.

Tablo 1: Veri setinin genel durumu

Aday varlık çiftlerinin seçimi

Bağlanması imkansız olan çok sayıda varlık çiftini kaldırabilen bir aday varlık çifti filtresi oluşturduk. Aday filtre aşağıdaki öznitelikleri dikkate alır.

  • Varlık adı

  • organizasyon

Filtrelemeden sonra, test setindeki tüm bağlantılı çiftleri kapsayan 758.046 aday varlık çifti elde ettik.

Sıraya göre sıralama

Deneyimizdeki "sekans-sekans" ağı, dikkat ağına sahip derin bir LSTM kodlayıcı ve derin bir LSTM kod çözücüsünden oluşur. Kodlayıcı derinliği LSTM ve kod çözücü derinliği LSTM'nin her ikisinde de 2 yığınlanmış LSTM bulunur, çünkü varlık bağlama görevleri için 2'den fazla katmana sahip kodlayıcılar veya kod çözücüler daha fazla iyileştirme sağlayamaz. Her LSTM'nin döngü birimi boyutu 512'dir. Her kelime, kodlayıcıya ve kod çözücüye gönderilmeden önce ilk olarak 512 boyutlu bir gömme vektörüne dönüştürülür. "Sıralamaya göre sıralama" modelinin eğitim süresi, eğitim verilerinin boyutuna bağlıdır. Ortalama olarak, bir Tesla K40 GPU kullanarak, modelin 100.000 öznitelik çifti üzerindeki eğitimi tamamlaması 30 dakika sürer.

Tohum kuralları

CoLink'in sağlamlığını test etmek için aşağıdaki 3 çekirdek kural setini denedik:

  • Kabaca ayarlanmış koleksiyon

  • İnce ayarlanmış koleksiyon

  • Gürültülü koleksiyon

Şekil 1: Tohum kümesi karşılaştırması; işbirliğine dayalı eğitim yinelemesinin başlamasından sonra P / R / F1 eğilimi

Ortak eğitim

İlişki özelliğini öznitelik özelliğinden ayırarak işbirliğine dayalı eğitimi kullanırız. Hem özniteliğe dayalı model hem de ilişkiye dayalı model, her yinelemede yeni çiftler bulabilir ve birbirini geliştirebilir. Şekil 2, her model tarafından elde edilen bağlantılı çiftlerin istatistiklerini göstermektedir. Bu görevde, öznitelik tabanlı model, ilişkiye dayalı modelden daha fazla eşleştirme üretir çünkü tam LinkedIn ilişki verilerine sahip değiliz. Her kullanıcı için yalnızca 10'dan az ilişki sağlayan genel LinkedIn profilindeki "Ayrıca İzlenen Kişiler" listesini taradık.

Şekil 2: Ortak eğitim yinelemeleri kullanılarak kabaca ayarlanmış tohum çiftlerine dayalı bağlantılı çiftlerin büyümesi

Olasılık eşiği

Şekil 3, farklı eşiklerin karşılaştırmasını göstermektedir. Daha katı bir eşik (daha küçük yüzde) kullanmak, daha yüksek doğruluk ve nispeten daha düşük geri çağırma ile sonuçlanacaktır. Bu görevde seçtiğimiz eşik% 95'tir.

Şekil 3: Sıradan diziye bağlantı olasılığı eşik karşılaştırması

Sonuçları karşılaştırma

Tablo 2: Farklı yöntemlerin performanslarının karşılaştırılması

Öznitelik hizalaması

CoLink, "sıraya dizme" yöntemini kullanarak, geleneksel dizi benzerlik işlevlerini kullanarak başa çıkması zor olan öznitelik hizalama sorununu çözebilir. Tablo 3, farklı yöntemlerden (tümü aralıkta) hizalama ve benzerlik puanları için seçilmesi gereken özelliklerin bazı örneklerini vermektedir. "Sıralamaya göre sıralama" yardımıyla, bu yöntem diğer varlık eşleştirme görevlerine neredeyse hiç özellik çıkarmadan kolayca uygulanabilir.

Tablo 3: Seçilen özniteliklerin bazı örnekleri ve benzerlik puanları

Lanbi Stone Craftsman Düşük Güç Tüketimi + Yüksek Anti-parazit + Güvenlik 16-bit MCU Yaratır
önceki
Araba seyahat ederken sürüş hızı nasıl düzenlenir?
Sonraki
Yetenekli neslin yükselişi: iki nesil girişimcilerin manevi geçişi
Double Twelve'de satın almaya en değer Fuji Instax Polaroids'in listesi burada
C1'den A1'e en kısa ehliyet ne kadar sürer?
İlkbahar, yaz, sonbahar, kış ve ilkbahar
Cesur olanlar korkusuzdur, "bilge" öncüler: Schmid kahraman paylaşımları gönderiyor, 9.8 akıllı kapı ve pencere zenginliği etkinliğini dört gözle bekliyor
Hong Kong polisi resmi Weibo'yu başlattı ve popülerlik kazandı
"Film İzleme için Yıldırım Çubuğu" Wu Yifan'ın oyunculuk becerilerinin geri dönmesi gerekiyor ve ona iyi bakması oyuncuya bağlı
PlayStation Hong Kong hizmeti Mart teklifi başlıyor, satışta minimum% 20 indirim
Teknoloji şirketlerinin yönlendirdiği gelişme neden birçok insanı mutlu etmedi?
Alibaba, GPU'da genel hızlanma sağlamak için TVM'yi TensorFlow'a entegre ediyor
Kutup ayıları hala yok olmaktan çok uzak, ancak onsuz insanların nesli erken tükenmiş olabilir.
İş ilanları kayboldu, ancak işsizlik oranı yükselmedi ve iş piyasası "dondu" mu?
To Top