ICLR 2020 | Grafik sinir ağına dayalı geleneksel, endüktif matris tamamlamanın ötesinde

Bu makale, ICLR2020 seçilmiş kağıt "GRAFİK SİNİR AĞLARINA DAYALI İNDÜKTİF MATRİK TAMAMLAMA" (grafik sinir ağına dayalı endüktif matris tamamlama) tanıtmaktadır. Makale, St. Louis'deki Washington Üniversitesi'nden doktora ve Facebook AI Araştırma Enstitüsü'nde araştırma bilimcisi olan Zhang Muhan'dan geliyor.

Metin | Zhang Muhan

Düzenle | Kongun Sonu

İndirme bağlantısı: https://openreview.net/pdf?id=ByxxgCEYDS

Kod adresi: https://github.com/muhanzhang/IGMC

1 özet

Matrix Tamamlama, öneri sistemlerinde yaygın olarak kullanılmaktadır. Geleneksel matris çarpanlarına ayırma (Matris Çarpanlarına ayırma) yöntemi, Dönüştürücü Modeldir ve öğrenilen gömme, eğitim setinde görünmeyen kullanıcılara ve öğelere genişletilemez. Endüktif Matris Tamamlama (IMC) modeli matrisi tamamlamak için içerik kullanır.Dezavantaj, içeriğin kalitesinin çok yüksek olması ve içeriğin kalitesi iyi değilse, matris ayrıştırma performansının çok daha düşük olacağıdır.

Bu makale, tümevarımsal akıl yürütmeyi sürdürürken hiçbir içerik bilgisine dayanmayan yeni bir Endüktif Grafik Tabanlı Matris Tamamlama (IGMC) modeli önermektedir. İçerik bilgisinin yardımı olmadan tümevarımsal akıl yürütmenin sırrı, alt grafik yapısında yatmaktadır. IGMC, her (kullanıcı, öğe) çifti için kapalı bir alt grafik çıkarır ve alt grafiğin yapısını kullanıcının ürün derecelendirmesine (derecelendirmesine) eşleyen bir regresyon modeli eğitmek için bir grafik sinir ağı kullanır.

IGMC, çoklu veri setlerinde en gelişmiş performansı elde etti; sadece eğitim setinde görünmeyen kullanıcılara ve ürünlere uygulanamaz, aynı zamanda yeni verilere de aktarılabilir. Douban film derecelendirmelerini tahmin etmek için MovieLens üzerinde eğitilmiş bir IGMC modeli kullandık ve çok iyi performans elde ettik, özellikle Douban verileri üzerinde eğitilmiş birçok modelden daha iyi.

2 hareketli makine

Her bir kullanıcıyı veya öğeyi bir düğüm olarak ve her derecelendirmeyi bir kenar olarak gördüğümüz sürece, matris tamamlama, ikili grafikte bağlantı tahmini olarak kabul edilebilir. )sorun. Yalnızca bağlantı varlığını tahmin etmeye odaklanan geleneksel bağlantı tahmininden farklı olarak, burada bağlantı değerini, yani kullanıcının ürünü değerlendirmesini tahmin etmemiz gerekir.

İlk olarak, çevreleyen alt grafiği tanımlıyoruz. Bir (kullanıcı, öğe) çifti için, h-sıra alt grafiği, kullanıcı, öğe, kullanıcının h-hop'undaki tüm bitişik düğümler ve öğeden (h-hop dahil) ve tüm bu düğümler arasındaki kenarlardan oluşur. Kompozisyon figürü. Böyle bir alt grafik, skoru tahmin etmek için birçok yararlı bilgi içerir. Örneğin, yalnızca tek düzeyli dahil etme alt grafikleri kullanılsa bile, ortalama kullanıcı derecelendirmeleri, ortalama ürün derecelendirmeleri, kümülatif ürün incelemeleri ve yollara dayalı büyük miktarda yapı bilgisi gibi bilgileri elde edebiliriz. Birinci resmi çek.

Basit bir yol tabanlı yapısal özellik şu şekildedir: v0 ürünü için u0 kullanıcısının derecelendirmesini bilmek istiyorsak, u0'a benzer zevklere sahip kaç kullanıcının v0'a yüksek puan verdiğini görebiliriz ve benzer zevkler u1 ve u0 bir zamanlar başka bir ürün v1'e yüksek puan verdi. Özet olarak, böyle bir yol özelliği:

Böyle kaç tane yol olduğunu kontrol ederek u0'ın v0'a yüksek bir puan verip vermeyeceğini tahmin edebiliriz. Ayrıca, tüm bu tür yollar 1-sekmeli çevreleyen bir alt grafiğe dahil edilir.

Bunun gibi sayısız yapısal özellik olduğuna inanıyoruz. Bu nedenle, bu tür çok sayıda buluşsal yöntemi manuel olarak tanımlamak yerine, birinci dereceden alt grafiği bir grafik sinir ağına doğrudan girmek ve daha genel ve ifade edici özellikleri otomatik olarak öğrenmek için grafik sinir ağının güçlü grafik özelliği öğrenme yeteneğini kullanmak daha iyidir. Yetenek özellikleri. Alt grafiği puana eşleyen bir regresyon modeli eğitmek için grafik sinir ağını kullanıyoruz Deneyler, bu yeni yöntemin puanı doğru bir şekilde tahmin edebileceğini göstermiştir.

3 yöntem

Dahil edilen her bir alt grafiği çıkardıktan sonra, önce içindeki düğümleri etiketlememiz gerekir (düğüm etiketleme). Amaç, moleküler grafikte düğümlerin farklı rollerini ayırt etmektir. Örneğin, hedef kullanıcı / öğe ve bağlam düğümleri arasında ayrım yapmalıyız. Hedef düğüm, tahmin etmek istediğimiz alt grafikteki hangi çift (kullanıcı, öğe) puanlarını gösterir. Aynı zamanda, farklı sıradaki komşu düğümleri ayırt edebiliriz, örneğin birinci dereceden komşuların (1-sekmeli komşular) ve ikinci dereceden komşuların (2-sekmeli komşular) hedef düğüme katkısı aynı değildir.

Basit bir yaklaşım benimsedik: Hedef kullanıcı için 0, hedef öğe için 1, arka plan i-hop kullanıcısı için 2i ve i-hop için etiketliyoruz. Arka plan ürününü 2i + 1 olarak işaretliyoruz. Bundan sonra, bu açıklamaları, her düğümün başlangıç özellikleri olarak grafik sinir ağına girdi olan tek sıcak kodlama vektörüne dönüştürüyoruz.

Grafik sinir ağında (GNN), evrişimli katman olarak ilişkisel grafik evrişimli operatörünü (R-GCN) kullanırız, çünkü R-GCN kenar türlerinden öğrenebilir.

Bunlar arasında, birinci katmandaki düğümün özellik vektörünü temsil eder ve derecelendirmeyi temsil eden öğrenilebilir parametrelerdir (genellikle bunlar arasından seçilir ve düğüme tip kenarı ile bağlanan komşu düğümleri temsil eder.

Çok katmanlı evrişimden sonra, her düğümün nihai temsilini elde etmek için her katmanın sonuçlarını birbirine bağlarız:

Son olarak, bu içeren alt grafiğin nihai temsili olarak hedef kullanıcının ve hedef ürünün bağlantılı temsilini alıyoruz:

Ve alt grafik gösteriminden hedef derecelendirmeye (derecelendirmeye) kadar iki katmanlı bir sinir ağını (MLP) eğitin.

4 Deneysel sonuçlar

IGMC'yi eğitmek için yalnızca birinci dereceden dahil etme alt grafiklerini kullanıyoruz. İlk olarak Tablo 2'de Flixster, Douban ve YahooMusic'teki RMSE performansını gösteriyoruz. IGMC modelimiz, diğer yeni grafik sinir ağı tabanlı modelleri geride bırakarak son teknoloji performans elde etti.

Tablo 3'te IGMC'nin ML-100K ve ML-1M üzerindeki performansını gösteriyoruz. ML-100K'da IGMC, önceki lider transdüksiyon modeli GC-MC ile aynı olan en iyi performansı elde etti. Bununla birlikte, GC-MC'nin ek içerik özellikleri kullandığını, IGMC'nin ise tamamen alt grafik yapısına bağlı olduğunu unutmayın. GC-MC'nin RMSE'si içerik kullanmadan 0,910'dur. ML-1M'de IGMC, muhakemeyi dönüştürmenin bazı diğer yöntemlerinin gerisinde kalıyor. Şimdi bu konuyu inceleyelim.

ML-1M veri seti için, eğitim matrisini sırasıyla 0,2, 0,1, 0,05, 0,01 ve 0,001 katına ayırıyoruz. Şekil 2, GC-MC ve IGMC'nin performansını farklı seyreklik seviyelerinde karşılaştırmaktadır. Seyreklik = 1 olduğunda IGMC GC-MC'nin gerisinde kalsa da, IGMC'nin farklı seyreklik altında GC-MC'den daha iyi olduğunu ve matris ne kadar seyrek olursa, performans avantajının o kadar açık olduğunu bulduk. Alt grafik özellik öğrenmeye dayalı IGMC'nin seyrek matrislere göre daha sağlam olduğunu tahmin ediyoruz; matris çarpanlarına dayalı dönüştürme modeli ise iyi performansa sahip olmak için daha yoğun bir matris gerektiriyor. Bu aynı zamanda, seyrek veriye sahip bir öneri sisteminde IGMC'nin potansiyelini de ifade eder.

Son olarak, IGMC'nin transfer öğrenme performansını test ediyoruz. Flixster, Douban ve YahooMusic'i tahmin etmek için doğrudan ML-100K üzerinde eğitilmiş IGMC modelini kullanıyoruz. Beklenmedik bir şekilde, taşınan IGMC modeli, bu üç veri seti üzerinde özel olarak eğitilmiş bazı modellerden bile daha iyi, son derece güçlü bir performans elde etti. Bu, önerilen farklı görevlerin çok sayıda aynı alt grafik modelini paylaştığını gösterir.

Bunu doğrulamak için, bazı gerçek dahil etme alt grafiklerini görselleştirdik, bkz.Şekil 3. Yüksek puanlara ve düşük puanlara karşılık gelen içerilen alt grafiklerin gerçekten önemli ölçüde farklı olduğu ve farklı veri setlerinin birçok benzer alt grafik modelini paylaştığı bulunabilir.

5 Özet

Bu makale, alt grafik özelliklerine, IGMC'ye dayalı tümevarımlı muhakeme için bir matris tamamlama modeli önermektedir.

Bu makale sayesinde, yalnızca birinci dereceden dahil edilen alt grafiklerden grafik özelliklerinin öğrenilmesinin birçok veri kümesinde lider performansa ulaşabileceğini kanıtlıyoruz, bu da daha yüksek sıralı bağlantı ilişkilerinin çok fazla ekstra değere sahip olmadığı anlamına geliyor.

Buna ek olarak, içeriksiz endüktif matris tamamlama (IMC) yönteminin eşit derecede uygulanabilir olduğunu ve içerikle geleneksel IMC yöntemini büyük ölçüde aştığını da kanıtladık. IGMC'nin mobilite, seyrek sağlamlık vb. Gibi birçok özelliği, güçlü potansiyeline işaret eder. IGMC'nin matris tamamlama ve öneri sistemleri alanına yeni fikirler ve ilhamlar getirebileceğini umuyoruz.

Ek olarak, alt grafik özelliklerinin yardımıyla bağlantı tahmin yöntemi büyük bir başarı elde etti, diğer makalemize bakın "Grafik Sinir Ağlarına Dayalı Bağlantı Tahmini":

ICLR 2020 makale serisinin yorumlanması

0 ICLR 2020 konferans haber raporu

Salgın ciddi, ICLR2020 sanal bir konferans düzenleyecek ve Afrika'nın ilk AI uluslararası zirvesi sırılsıklam olacak

Salgından etkilenen ICLR aniden çevrimiçi moda geçti. 2020 zirvenin değişim yılı mı olacak?

Popüler grafik makine öğrenimi, ICLR 2020'deki araştırma trendleri nelerdir?

1. Canlı yayın

Tekrar | Huawei Noah's Ark ICLR Full Score Paper: Reinforcement Learning'e Dayalı Nedensel Keşif

2, Oral

01. Sözlü | Yansıtılmış üretken makine çevirisi modeli: MGNMT

02. Oral | Negatif çeşitlilik cehaletini hafifletmeden önce Ekstra Gauss

03. Oral | Ek geçitleme işlemleri uygulayın, LSTM biraz değiştirildi, performans Transformer-XL ile karşılaştırılabilir

04. Oral | Paralel Monte Carlo araması, performans kaybı olmadan, doğrusal hızlanma ve "Eksik Eğlence" nin 1000 seviyesini cesurca aşma!

05. Sözlü | Meta yoğunlaştırılmış öğrenme, soğuk su dolu bir tencerede başlatıldı: yuan-Q öğrenmesinden çok daha iyi değil

06. Oral | Derin, eşdeğer bir kapsül ağı oluşturmak için grup evrişimini kullanın

07. Oral | Google, dağıtılmış pekiştirmeli öğrenme çerçevesi SEED'i başlattı, performans "patlayıcı" IMPALA, binlerce makineye genişletilebilir, ancak aynı zamanda çok ucuz

3. Gündem

01. Gündem | Bu kadar çok model parametresi varken, genelleme yeteneği neden bu kadar güçlü?

02. Gündem | Adalet ve hassasiyet aynı derecede önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir

03. Gündem | Zayıf kombinasyon genelleme yeteneği? Derin öğrenme füzyon kombinasyonu çözücüyü kullanmayı deneyin

04. Gündem | NAS'ı hızlandırın, aramayı yalnızca 0,1 saniyede tamamlayın

05. Gündem | Washington Üniversitesi: Görüntü sınıflandırmada ulaşılabilir saldırılara karşı savunma (video yorumlama)

4. Afiş

01. Afiş | Huawei Noah: Zekice düşünme, NAS ve "yüzleşme" kombinasyonu hızı 11 kat artırıyor

02. Poster | Evrişimin yanı sıra, çok başlı öz-ilgi herhangi bir evrişim işlemini ifade edebilir

03. Poster | NAS çok zor, arama sonuçları rastgele örnekleme ile karşılaştırılabilir! Huawei 6 öneri veriyor

04. Poster | Tsinghua, yorumlanabilirliği öğrenmek için "nöron yürütme ağacını" kullanarak NExT çerçevesini önerdi

05. Poster | Google'ın son araştırması: "Bileşik diverjans" nicel modelle genelleme yeteneğini sentezleyin

06. Poster | Google'ın en iyi NLP ön eğitim modeli BERT'e karşı zafer, açık kaynaktır, tek kartlı eğitim yalnızca 4 gün sürer

07. Poster | FSNet: Evrişim çekirdek özeti kullanılarak derin evrişimli sinir ağlarının sıkıştırılması

08. Poster | "Eşzamanlı Ortalama Öğretim" çerçevesi, denetimsiz öğrenim için daha sağlam sözde etiketler sağlar

09. Poster | Hızlı Sinir Ağı Uyarlanabilir Teknoloji

İlk ciddi "BERT çalışması" araştırması, 40+ tez karşılaştırması, BERT çalışma prensibinin yorumlanması
önceki
Canlı CVPR Oral: Örnek Segmentasyon Yeni Fikirler
Sonraki
Gözetimsiz makine çevirisi yapmak için bir araç olarak vizyonu kullanan DeepMind'ın büyük hareketi, etkisi mükemmel
LSTM neden bu kadar etkilidir? Bilmen gereken bu beş sır
güncel! Tsinghua ve birkaç yetkili kuruluş, tüm ağdaki en yeni koroner pnömoni veri kaynağını yayınladı
CVPR 2020 Oral | İkili Şube Ağı BBN: Uzun Kuyruk Dağıtımı ile Gerçek Dünya Görevlerinin Üstesinden Gelmek
ICLR 2020 | Reformer, verimli bir Transformatör
Shan Shiguang: Yapay zeka metodolojisinin güncellenmesi gerekiyor Salgından sonra yapay zeka nasıl gelişecek?
Today Paper | DeepCap; metin sınıflandırması; frekans etki alanı grafik dikkat ağı; 3D insan poz tahmini vb.
Canlı | Yang Qiang, WeBank Yapay Zeka Başkanı: Neden federal öğrenmeye ihtiyacımız var?
Süpüren robotun "gözlerinin" evrimsel tarihi
Canlı | Microsoft Super Mahjong AI Suphx Ar-Ge ekibi teknik ayrıntıları derinlemesine açıklıyor
Today Paper | ScrabbleGAN; UnrealText; izleme modeli; G2L-Net, vb.
Today Paper | Güçlendirmeli Öğrenme; Yeniden Yapılandırılabilir GAN'lar; BachGAN; Zaman Serisi Sınıflandırması, vb.
To Top