Tencent Angel'ı temel alan "Endüstri" LDA *, Microsoft LightLDA'yı geçerek VLDB olarak seçildi

1 Xinzhiyuan raporu

VLDB, VLDB Vakfı tarafından desteklenen veritabanı alanındaki en önemli konferanslardan biridir ve diğer iki konferans SIGMOD ve ICDE veritabanı alanındaki en önemli üç konferansı oluşturmaktadır. VLDB, bu üç konferansın en yüksek altın içeriği olarak kabul edilmektedir.VLDB makalelerinin kabul oranı genellikle çok düşüktür.Yenilikçi olması ve kabul edilme şansına sahip olması için makalelere çok katkıda bulunması gerekir. Son yıllarda, büyük verinin gelişmesiyle birlikte VLDB, veri tabanlarından büyük veri ile ilgili alanlara da genişlemiştir, ancak yine de yüksek kalite kontrolünü sürdürmektedir.

"LDA *: Sağlam ve Büyük Ölçekli Bir Konu Modelleme Sistemi" nin ana içeriği, endüstriyel bir ortamda büyük ölçekli bir konu modeli eğitim sisteminin nasıl kurulacağını incelemektir. Bildiri, Peking Üniversitesi ve ETH Zürih'ten araştırmacıların işbirliğiyle Tencent TEG Veri Platformu Bölümü tarafından tamamlandı. YahooLDA, Microsoftun LightLDA ve Petuum'u dahil olmak üzere daha önce birçok ilgili sistem çalışması yapılmıştı, ancak LDA *, karmaşık bir veri ortamında daha sağlam örnekleme performansının nasıl elde edileceğine ilişkin iki sorunu ve kelimelerin eğimli dağılımının neden olduğu ağ iletişimini çözer .

Mühendislik uygulamasıyla birlikte, LDA * sistemi mevcut sistemin 10 katını aşabilir ve Tencent tarafından altı yıldan fazla bir süredir konu modeli modelleme hizmetleri sağlamak için dahili olarak kullanılmıştır.

Konu Modeli: Belge gizli anlambiliminin olasılık dağılımını yakalamak için matematiksel bir çerçeve kullanın

Konu Modeli, makine öğrenimi ve doğal dil işleme alanlarında bir dizi belgede soyut konuları keşfetmek için kullanılan istatistiksel bir modeldir. Bir makale genellikle birden çok konu içerir ("kediler" ve "köpekler" gibi) ve her konunun farklı bir oranı vardır. Konu modeli, belgenin bu özelliğini yansıtmak için matematiksel bir çerçeve kullanmaya çalışır.

Konu modelinde, her belge bir konu dağılımı (Konu) olarak kabul edilir ve her konu bir kelimelerin dağılımı (Kelimelerin Konu Dağılımı) olarak kabul edilir. Metni konu modeliyle modelleyerek, belgelerin kümelenip analiz edilebilmesi için belgeyi bir konu dağılımı (Konu Olasılığı) olarak temsil ederiz. Başlangıçta doğal dil işleme ile ilgili yönlerde kullanıldı. Konu modeli artık öneri sistemleri, reklam TO tahmini, kullanıcı ilgi sınıflandırması gibi birçok alanda kullanılıyor ...

Endüstriyel senaryolarda konu modellerini eğitmede üç ana zorluk vardır:

  • Birincisi, eğitim veri ölçeğinin çok büyük olmasıdır. 2T boyutlu bir örneğin veri hacmi 300 milyar Token içerir ve sonuçları çalıştırmak birkaç saat sürer;

  • İkincisi, işlenmesi gereken veri ve parametrelerin çok karmaşık olması ve çeşitli veri ve parametre konfigürasyonları altında daha iyi performans sağlanması gerektiğidir;

  • Üçüncü nokta, tüm görevlerin merkezi bir kümede çalıştırılması ve sistemin yüksek ölçeklenebilirliğe ve sağlamlığa sahip olması gerektiğidir.

Bu bağlamda, LDA * makalesinin yazarı, hem model hem de mühendislik yönlerinden hedeflenen optimizasyonları gerçekleştirerek, LDA * 'nın geniş uygulanabilirlik ve iyi performans elde etmesini sağladı.

Aynı zamanda LDA *, Tencentin büyük ölçekli dağıtılmış makine öğrenimi açık kaynak platformu Angel üzerine inşa edilmiştir. Angelın parametre sunucusu mimarisi, iyi ölçeklenebilirliği ve programlama arayüzü tasarımı sayesinde, LDA * terabaytlarca veriyi ve on milyarlarca doları kolayca işleyebilir. Boyutsal konu modeli ve iyi performansı sürdürme.

Sorun noktası 1: Model örnekleme dengesi

Konu modellerini çözmek için yaygın bir yöntem Gibbs örneklemesidir. Bununla birlikte, veri ölçeği büyük olduğunda ve konu sayısı büyük olduğunda, orijinal Gibbs örnekleme çözümü verimliliği çok düşüktür. Bu nedenle, birçok araştırma çalışması, örnekleme algoritmasının karmaşıklığının nasıl azaltılacağını ele almaktadır.

Şu anda, sektördeki mevcut LDA yöntemleri AliasLDA, F + LDA, LightLDA ve WarpLDA'yı içermektedir. Bunların arasında, AliasLDA ve F + LDA, Seyrek Farkında Örnekleyiciler olarak da adlandırılan modelin örnekleme karmaşıklığını azaltmak için konu modeli parametrelerinin seyrek doğasını kullanır; LightLDA ve WarpLDA Metropolis Hastings yöntemini kullanırken, her örnek için yalnızca O (1) gereklidir. Hesaplama karmaşıklığı.

Ancak, O (1) örnekleme karmaşıklığı daha hızlı yakınsama hızı anlamına gelmez. Metropolis Hastings yöntemindeki kabul oranı nedeniyle, olasılık açısından, LightLDA ve WarpLDA, kabul edilebilir bir örnekleme örneği oluşturmak için birden fazla örnekleme işlemi gerektirir ve bu durum geçişiyle sonuçlanır; aksine AliasLDA ve F + LDA Her bir örnekleme işleminin karmaşıklığı nispeten yüksek olmasına rağmen, her örnekleme bir örnek oluşturabilir.

Sonuç olarak, makalenin yazarı, Seyrek Bilinçli Örnekleyiciler ile Metropolis Hastings Örnekleyicileri arasında bir değiş tokuş olduğunu keşfetti. Tüm veri kümelerine veya parametre ayarlarına tek bir örnekleyici uygulanamaz. Yalnızca değiş tokuş bulunduğunda ve iki örnekleyici etkili bir şekilde birleştirildiğinde En iyi performansı elde etmek için bunları birleştirin.

Ekip, bu değiş tokuşu keşfetmek için ayrıntılı bir deney yaptı ve iki örnekleyicinin kesişimini buldu. Bu kesişimi temel alan LDA *, yeni bir Hibrit Örnekleyici tasarlamak için F + LDA ve WarpLDA'yı etkili bir şekilde birleştirir.

Deneysel sonuçlar, Hibrit Örnekleyicinin PubMED veri setinde F + LDA ile karşılaştırılabilir veya hatta daha iyi performansa ulaştığını ve Tencent'in gerçek veri setinde WarpLDA'dan daha iyi performans gösterdiğini göstermektedir. Genel olarak, Hibrit Örnekleyici tüm veri kümelerinde ve parametre yapılandırmalarında en iyi performansı elde edebilir.

Sorun noktası 2: Asimetrik yapı, model paralelliği sağlama

Konu modellerinin eğitimi genellikle büyük ölçekli veri kümeleri ve çok sayıda konu gerektirir, bu nedenle büyük ölçekli konu modelleri genellikle dağıtılmış eğitimi kullanır. LightLDA, YahooLDA ve Petuum dahil mevcut konu modeli sistemleri, dağıtılmış eğitim için parametre sunucusu mimarisini kullanacaktır. Bununla birlikte, kelime dağıtımının eğimli doğası nedeniyle, standart parametre sunucusu mimarisi, İşçi tarafında büyük bir ağ iletişim ek yükü oluşturacaktır.Neredeyse her çalışanın, kelime-konu matris modelinin tamamını PSServer'dan çekmesi gerekir. , Bunun performans üzerinde büyük etkisi olacaktır.

Gerçek test altında, ağ ek yükünün çoğu uzun kuyruklu sözcükler tarafından oluşturulur.Bu uzun kuyruklu sözcüklerin neden olduğu ağ yükü, veri miktarı ve model parametreleri büyük olduğunda performans kaybına neden olur. LDA *, bu tür uzun kuyruklu kelimeler üzerinde özel işlemler gerçekleştirir ve bazı uzun kuyruklu kelime örneklerini PSServer tarafına iter, kelime-konu matrisini çekme işleminden kaçınır. Böyle bir mimaride, PSServer yalnızca dağıtılmış bir depolama olarak kullanılmaz, aynı zamanda belirli hesaplama görevlerine de katılarak, makalenin yazarının bahsettiği "asimetrik mimari" olan model paralelliğini belirli bir ölçüde elde eder.

Angel'ın iyi arayüz tasarımına ve psFunc işlevine güvenerek, LDA * 'nın asimetrik mimarisi Çekirdeğe herhangi bir değişiklik yapılmadan çok kolay bir şekilde uygulanabilir.

Performans verileri: Tencent'in önerilen gerçek veri setinde orijinal sistemin 9 katına kadar

Makalenin yazarı, LDA * ile önceki açık kaynaklı Petuum ve Microsoft'un LightLDA'sını iki veri setinde karşılaştırdı. Biri açık kaynak PubMED, diğeri ise Tencent'in gerçek öneri veri seti. Deneysel sonuçlar, veri miktarı ne kadar fazlaysa, LDA'nın * avantajının o kadar açık olduğunu göstermektedir.

PubMED veri kümesinde LDA *, sırasıyla Petuum ve LightLDA'dan 5 kat daha hızlıdır

Tencent'in gerçek öneri veri setinde, LDA * Petuum'un 9 katı ve lightLDA'nın 2.6 katıdır.

Makalenin yazarı ayrıca, Tencent'in dahili üretim kümesinde LDA * eğitmek için daha büyük bir veri kümesi kullandı. Aşağıdaki şekilde yer alan veri setinden de görülebileceği gibi, en büyük veri setinde 300 milyar token bulunur, bu da yaklaşık 1.8 TB veridir. Tüm görevlerde konu sayısı 8000'e ayarlanmıştır ve belirli veri seti boyutu aşağıdaki gibidir:

Test performansı

Yeterli kaynak olması durumunda, LDA * çok iyi bir ölçeklenebilirlik elde edebilir ve binlerce çalışana genişletilebilir.Terabaytlarca veri üzerinde eğitim olsa bile, saat seviyesinde kontrol edilebilir, bu da üretim sistemini iyi bir şekilde tatmin eder. İhtiyaçlar.

Sonuç

LDA *, model doğruluğu ve performansı açısından mükemmel performansa ve ölçeklenebilirliğe sahiptir ve öneri, reklam TO tahmini, kullanıcı ilgi sınıflandırması vb. Dahil olmak üzere Tencent'in çok sayıda öneri iş senaryosuna uygulanmıştır.

Ekip, LDA * 'nın Tencent'in Angel platformuna dayandığını belirterek, Angel'ın geliştirilmesi ve tanıtımı ile sektördeki daha fazla firmanın LDA *' dan yararlanabileceği ve büyük ölçekli konuları kolayca modelleyebilmesi umuluyor.

Daha fazla bilgi için lütfen ziyaret edin:

  • LDA * VLDB kağıdı:

  • Açık kaynak adresi Github: https://github.com/tencent/angel

İş ayrıntılarını görüntülemek için orijinal metni okumak için tıklayın ve katılmanızı dört gözle bekleyin ~

İnsan aklını anlamak için 7 adım
önceki
Sinirlenmekten korkuyor, Wanglaoji'den daha ünlü
Sonraki
Şubat ayının kompakt otomobil satış listesinde, bu 5 model "ülkenin yarısını" oluşturuyordu ve hiçbiri yurt içinde üretilmedi!
Melekler Şehri ve Disney'de bir aile gezisi gibi birleşme gecesini kaydetmek nasıl bir deneyim?
10 yıl sonra küresel ekonomide büyük değişiklikler: Çin ekonomisi yeni değişikliklerin kılıcı olabilir
MLM'de dolaşırken ... uçurumdan kaçtı ... Başarılı bir MLM organizatöründen bir hikaye
Kaliteli arabalar ama düşük satışlar? Bu "acı noktaları" çözememek bir başarısızlıktır!
Tatilde bile mükemmel bir figür tutmanın sırrı, bu sefer nihayet biliyorum!
Hindistan resmen dolar değer kaybetmeye başladıktan sonra, işler yeni bir ilerleme kaydetti ve doların giderilmesinin hızlandırılması bir sorun olabilir.
Bu yüksek hızlı tren 3 ülkeden geçiyor ve gidiş-dönüş ücreti 700 yuan. Yol boyunca manzara ne kadar güzel?
Çinli alıcılar Avustralya'dan çekildikten sonra işler ilerledi ve Avustralya ekonomisi durgun olabilir
Askerin "emoji imparatoru" neden takdire şayan ve sıkıntılı?
Chen Chunhua: Kazanmaktan veya kaybetmekten daha önemli olan simbiyozdur
Ekonomik ve uygulanabilir, aynı zamanda "Alman kalitesi" olan bu yeni SUV, gençlere bir çözüm sunuyor
To Top