Google ve Ali gibi 10 derin öğrenme TO modelinin en eksiksiz evrim haritası

Bu makale, Wang Zhe tarafından yapay zekanın ön saflarında açılan orijinal teknoloji sütunu "Derin Öğrenme TO Tahmin Modeli Uygulaması" nın dördüncü makalesidir (bundan böyle "Derin Öğrenme TO Tahmin Modeli Uygulaması" "Derin TO Modeli" olarak anılacaktır). Bay Wang Zhe'nin geçmişte yazdığı harika makaleleri inceleyin: "Youtube Derin Öğrenme Öneri Sistemi Makalelerini Yeniden Okumak, Kelimeler ve Kelimeler İlahi Oluyor" ve "YouTube Derin Öğrenme Öneri Sisteminin On Mühendislik Problemi".

Microsoftun Deep Crossing'i ile Google'ın WideDeep'i ve çok sayıda mükemmel derin öğrenme TO tahmin modeli 2016'da önerildi, hesaplamalı reklamcılık ve öneri sistemleri alanı derin öğrenme çağına girdi. Bugün derin öğrenme TO modeli, reklamcılık ve öneri alanlarında şüphesiz ana akım haline geldi. Bir önceki sütun olan "Derin Öğrenme Öncesi Dönemde TO Tahmin Modelinin Gelişimi" bölümünde, geleneksel TO modelinin yapısal özelliklerini ve evrim ilişkisini birlikte tartıştık. Derin öğrenme çağına girdikten sonra, CTR modeli sadece ifade yeteneği ve model etkisinde nitel bir gelişme sağlamakla kalmaz, aynı zamanda görüntü, konuşma ve doğal dil işlemede derin öğrenmenin sonuçlarını ödünç alıp entegre eder ve model yapısında hızlı ilerleme kaydetmiştir. Evrim.

Bu makale, reklamcılık ve öneri alanlarındaki en popüler 10 derin öğrenme TO modelinin yapısal özelliklerini özetler ve aralarında evrimsel bir harita oluşturur. Bir model seçme kriterleri aşağıdaki üç ilkeyi izlemeye çalışır:

1. Sektörde daha büyük etkiye sahip modeller;

2. Google, Microsoft ve Ali gibi tanınmış İnternet şirketleri tarafından başarıyla uygulanmıştır;

3. Mühendislik odaklı, sadece deneysel veri doğrulama veya akademik yenilik için değil.

Aşağıda, ilk olarak bu derin öğrenme TO modelinin evrim haritasını listeledikten sonra tek tek tanıtıyoruz:

1. Microsoft Deep Crossing (2016) - derin öğrenme CTR modelinin temel modeli

Microsoft tarafından 2016 yılında önerilen Derin Geçişin, derin öğrenme CTR modelinin en tipik ve temel modeli olduğu söylenebilir. Şekil 2'deki model yapı diyagramında gösterildiği gibi, derin TO modelinin en tipik öğelerini kapsar; bu, seyrek özellikleri bir gömme katmanı ekleyerek düşük boyutlu yoğun özelliklere dönüştürmek ve özellik vektörünü bölümlere ayırmak için yığınlama katmanı veya concat katmanı kullanmaktır. Bunları bağlayın, ardından çok katmanlı bir sinir ağı aracılığıyla özelliklerin kombinasyonunu ve dönüşümünü tamamlayın ve son olarak TO hesaplamasını tamamlamak için puanlama katmanını kullanın.

Klasik DNN'den farklı olarak, Deep crossing tarafından kullanılan çok katmanlı algılayıcı, şüphesiz ünlü MSRA araştırmacısı He Yuming tarafından önerilen ünlü 152 katmanlı ResNet'ten yararlanan artık ağlardan oluşur.

2. FNN (2016) -FM'nin gizli vektörü ile tam gömme başlatma

Deep Crossing ile karşılaştırıldığında, FNN'nin yeniliği, kullanıcı ve öğenin yerleştirilmesi olarak FM'nin gizli katman vektörünü kullanmak ve böylece eğitimin tamamen rastgele bir durumdan yerleştirilmesinden kaçınmaktır. Kimlik özellikleri çok sayıda tek sıcak kodlama yöntemi kullandığından, son derece büyük boyutlar ve son derece seyrek vektörlerle sonuçlanır, Gömme katmanı ile giriş katmanı arasında birçok bağlantı vardır ve gradyan iniş verimliliği çok düşüktür, bu da eğitim süresini ve modeli büyük ölçüde artırır. Gömme katmanı eğitimini tamamlamak için eğitim öncesi yöntemini kullanmak, kuşkusuz derin öğrenme modellerinin karmaşıklığını ve eğitim kararsızlığını azaltmak için etkili bir mühendislik deneyimidir.

3. PNN (2016) - özellik kesişimini zenginleştirmenin bir yolu

PNN'nin tam adı Ürün tabanlı Sinir Ağı'dır PNN'nin anahtarı, gömme katmanı ile tam bağlı katman arasına bir Ürün katmanı eklemektir. Geleneksel DNN, geçişi ve özelliklerin kombinasyonunu doğrudan çok katmanlı, tamamen bağlı katmanlar aracılığıyla tamamlar, ancak bu yöntemde belirli "uygunluk" yoktur. Her şeyden önce, tamamen bağlı katman, farklı özellik alanları arasında kesişmez; ikincisi, tamamen bağlı katmanın çalışması, doğrudan özellik geçişi için tasarlanmamıştır.

Bununla birlikte, pratik problemlerde, özellik kesişiminin önemi apaçık ortadadır.Örneğin, yaş ve cinsiyetin kesişimi, çok sayıda yüksek değerli bilgi içeren çok önemli bir gruplama özelliğidir. Hedeflenen yapıyı karakterize edebilmek için acilen derin öğrenme ağlarına ihtiyacımız var. bu mesajlar. Bu nedenle, PNN, Ürün katmanı ekleyerek hedeflenen özellik geçişini tamamlar ve ürün operasyonu farklı özellik alanları arasında özellik kombinasyonu gerçekleştirir. Ve farklı çapraz bilgileri yakalamak için iç ürünü, dış ürünü ve diğer ürün işlemlerini tanımlayın ve modelin farklı veri modellerini karakterize etme yeteneğini geliştirin.

4. Google WideDeep (2016) - hafıza yeteneği ve genelleme yeteneği arasında kapsamlı bir değiş tokuş

Google WideDeep modelinin ana fikri, adından da anlaşılacağı gibi, tek giriş katmanının Geniş kısmını ve çok katmanlı algılayıcının Derin kısmını birbirine bağlar ve son çıktı katmanını birlikte girer. Geniş bölümün ana işlevi, modeli akılda kalıcı kılmaktır. Tek bir katmanın Geniş bölümü, çok sayıda seyrek kimlik özelliğini kullanmada iyidir, böylece model, kullanıcının büyük miktarda geçmiş bilgilerini doğrudan "hatırlayabilir"; Derin bölümün ana işlevi, Modelin "Genelleme" (Genelleme) olmasına izin verin, özelliklerin arkasına gizlenmiş veri modellerini bulmak için DNN'nin güçlü ifade yeteneğini kullanın. Son olarak, LR çıktı katmanı, birleşik bir model oluşturmak için Geniş kısmı ve Derin kısmı birleştirmek için kullanılır.

WideDeep'in sonraki modeller üzerindeki etkisi, çok sayıda derin öğrenme modelinin iki parçalı veya hatta çok parçalı kombinasyonları benimsemesi, farklı bilgileri araştırmak için farklı ağ yapılarını kullanması ve ardından bunları birleştirerek farklı ağ yapılarının özelliklerini tam olarak kullanması ve birleştirmesidir.

5. Huawei DeepFM (2017) - Geniş bölümü FM ile değiştirin

WideDeep'ten sonra birçok model ikili ağ kombinasyonu yapısına devam ediyor ve DeepFM de bunlardan biri. DeepFM'nin WideDeep'e göre gelişimi, sığ ağın bazı özelliklerini birleştirme yeteneğini güçlendiren orijinal Wide bölümünü FM ile değiştirmesidir. Aslında, FM'in kendisi birinci dereceden bir parçadan ve ikinci dereceden bir parçadan oluştuğu için, DeepFM aynı anda orijinal Geniş parça + ikinci derece özellik çapraz parça + Derin bölümün bir kombinasyonuna eşdeğerdir, bu da şüphesiz modelin ifade yeteneğini daha da geliştirir.

6. Google DeepCross (2017) -Geniş parça yerine Çapraz ağ kullan

Google tarafından 2017'de yayınlanan DeepCross Ağı (DCN) da WideDeep'in daha da geliştirilmesidir. Asıl fikir, orijinal Wide parçanın yerini almak için Çapraz ağı kullanmaktır. Bunlar arasında, Çapraz ağı tasarlamak için temel motivasyon, giriş vektörlerini geçmek için çok katmanlı bir çapraz katman kullanarak özellikler arasındaki etkileşim gücünü artırmaktır. Tek katmanlı bir çapraz katmanın temel işlemi, çapraz katmanın xl giriş vektörünü orijinal giriş vektörü x0 ile çaprazlamak ve önyargı vektörünü ve orijinal xl giriş vektörünü eklemektir. Temelde DCN, DeepFM fikrine çok benzeyen WideDeep Wide kısmındaki yetersiz ifade yeteneği sorununu hala geliştirmektedir.

7. NFM (2017) -Derin bölümündeki iyileştirmeler

DeepFM ve DCN'nin WideDeep Wide'a yönelik geliştirmeleriyle karşılaştırıldığında NFM, Deep'e yönelik bir gelişme olarak görülebilir. NFM'nin tam adı Sinirsel Ayrıştırma Makineleri'dir.FM'ye derin öğrenme ağ mimarisi açısından bakarsak, FM aynı zamanda tek katmanlı LR ve ikinci dereceden özelliklerden oluşan bir WideDeep mimarisi olarak da görülebilir.Klasik WD'den farkı sadece Derin kısım, ikinci dereceden gizli vektör çarpımının bir biçimi haline gelir. Ayrıca, FM'nin ikinci dereceden kısmını değiştirme perspektifinden, NFM, FM'nin özellik kesişimini bir DNN ile Bi-etkileşimli Havuzlama katmanıyla değiştirerek benzersiz bir WideDeep mimarisi oluşturdu. Bunlar arasında, Bi-etkileşimli Havuzlama, farklı özelliklerin gömülmesine sahip, element bazlı bir ürün biçimi olarak kabul edilebilir. Bu aynı zamanda Google WideDeep'e kıyasla NFM'nin yeniliğidir.

8. Dikkat mekanizmasının tanıtılmasıyla AFM (2017) -FM

AFM'nin tam adı Dikkatli Faktorizasyon Makineleri'dir. Önceki girişten itibaren, FM'in aslında FM'in birinci dereceden bölümü, Deep bölümü FM'in ikinci derece bölümü ve AFM'nin, adından da anlaşılacağı gibi, Attention mekanizmasıyla FM olduğu klasik WideDeep yapısı olduğunu açıkça biliyoruz. Model yapısına özgü olarak, AFM aslında FM'nin ikinci dereceden kısmının her bir çapraz özelliğine bir ağırlık atar.Bu ağırlık, NLP alanındaki Dikkat Mekanizmasına çok benzeyen nihai sonuç üzerindeki çapraz özelliklerin etkisini kontrol eder. ). Dikkat ağırlıklarını eğitmek için AFM, Attention Net'i ekler.Dikkat ağırlıkları, Attention Net tarafından eğitildikten sonra, FM'nin ikinci dereceden geçiş özelliklerine ters olarak uygulanır, böylece FM, örnek özelliklerine göre özellik ağırlıklarını ayarlama becerisi kazanır.

9. Ali DIN (2018) -Ali, Dikkat mekanizmasının derin öğrenme ağına katıldı

AFM, Dikkat mekanizmasını FM'ye ekledi. 2018'de Alibaba resmen Dikkat mekanizması - Derin İlgi Ağı'nı içeren bir derin öğrenme modeli önerdi. AFM'deki Dikkat ve FM kombinasyonundan farklı olarak DIN, derin sinir ağları için Dikkat makinesini kullanır ve modelin gömme katmanı ile birleştirme katmanı arasına bir dikkat birimi ekler, böylece model farklı aday ürünlere göre farklı özelliklerin ağırlıklarını ayarlayabilir. .

X. Ali DIEN (2018) - DIN'in "evrimi"

DIEN'in tam adı Deep Interest Evolution Network'dür Bu sadece DIN'in daha ileri bir "evrimi" değil, daha da önemlisi DIEN, AUGRU dizi modelini tanıtarak kullanıcının ilgisini çeken evrim sürecini simüle eder. Spesifik olarak, modelin ana özelliği ilgi uyandırmak için İlgi Ayırıcı Katmanı ve ilgi gelişimini simüle etmek için İlgi Gelişen katmanının Gömme katmanı ile Birleştirme katmanı arasına eklenmesidir. Bunların arasında, İlgi Çıkarıcı Katmanı, her bir zaman diliminde kullanıcı ilgi alanlarını çıkarmak için DIN yapısını kullanır ve İlgi Geliştirme katmanı, bir ilgi evrimi zinciri oluşturmak için seri olarak farklı zamanlarda kullanıcı ilgi alanlarını bağlamak için sıra modeli AUGRU yapısını kullanır. Son olarak, mevcut anda "faiz vektörü" üst çok katmanlı tam bağlı ağa girilir ve son CTR tahmini diğer özelliklerle birlikte gerçekleştirilir.

Özet: TO Modelinin Derin Öğrenme Çağı

Yazının sonunda, bu derin öğrenme TO modeli evrim diyagramını bir kez daha vurguladım. Söylemesi abartı olmaz, Bu evrim haritası, son yıllardaki tüm temel derin öğrenme TO modellerinin yapısal özelliklerini ve bunlar arasındaki evrimsel ilişkiyi içerir. . Tavsiye, reklamcılık ve arama alanlarındaki algoritma mühendislerine, şirketin işini mevcut veri modeline en uygun modelle yönlendirmek için farklı modellerin etkilerini işletme özelliklerine göre kolayca uygulayabilen ve karşılaştırabilen eksiksiz bir bilgi sistemi oluşturmalarına yardımcı olmayı umuyorum.

Bu mevcut modellere aşina olduğumuzda, derin öğrenme CTR modelinin gelişimi hiçbir zaman hızını durdurmadı. Alinin çok modlu, çok amaçlı derin öğrenme modelinden, YouTubeun RNN gibi sıra modellerine dayalı öneri sistemine, Airbnb tarafından Gömme teknolojisi kullanılarak oluşturulan arama önerisi modeline kadar, derin öğrenme uygulaması yalnızca giderek daha yaygın değil, aynı zamanda Daha hızlı ve daha hızlı evrim. Gelecekteki sütunlarda, derin öğrenme CTR modelinin bilgilerini daha derinlemesine tanıtmakla kalmayacağız, aynı zamanda derin öğrenme TO modelinin uygulanmasına ve inişine daha fazla önem vereceğiz ve sizinle birlikte öğrenmeyi dört gözle bekliyoruz.

"Derin Öğrenme TO Tahmin Modeli Uygulaması" sütun içeriğinin gözden geçirilmesi:

  • Derin öğrenme CTR tahmin modeli neden İnternet büyümesinin anahtarı haline geliyor?
  • LR'den FFM'ye derin öğrenme öncesi dönemde TO tahmin modelinin evrimi
  • Derin öğrenme çağında Ali, Google ve Facebook'un CTR tahmin modellerinin envanteri
  • Yazar: Wang Zhe

    "Da Ji" oynadı ama şikayet edemeyecek kadar masumdu. Bugün, tıpkı yoldan geçen biri gibi hafif bir gazlı bez etek giyiyor.
    önceki
    34 yaşındaki Cristiano Ronaldo'nun kurtarıcısı! 24 yıllık hakimiyet rekorunu kurtardı, 40.000 kişi başka bir dönüm noktasına tanık oldu
    Sonraki
    Bir zamanlar "Doğuda Yenilmez" olarak oynanmış, şimdi kısa etekli bir kot ceket giyiyor, sırt çantası taşımak bir lise öğrencisi gibi
    Olimpiyat şampiyonlarında ölümlüler nasıl olabilir? 13 aylığına geri dönen Li Xuerui, sonunda en altın zaferi karşılıyor!
    Endüstriyel düzeyde bir öneri sistemi oluşturma (3): Öneri sisteminin mühendislik gerçekleştirmesi ve mimari optimizasyonu
    "Creation 101" tarafından elendi, ancak ünlendi. Bugün, beyaz tutu bir prenses kadar güzel, gerçekten göz kamaştırıcı
    İyi iş! Li Xuerui finale girmek için Akane Yamaguchi'yi 2-1 tersine çevirdi ve ilk 10 oyuncuyu ilk kez yendi!
    O "Önceki 3" ün kahramanı Lin Jia. Bir ceket giyip kıyafetlerin altında oynarken kayboluyor. Bacakları o kadar beyaz ki parlıyor
    Li Zixuan bunu nasıl yaptı? 24 yaşında puantiyeli gömlek ve tulum giymiş, bir öğrenci gibi görünüyor
    Sonuna kadar bir siyah! 17 yaşındaki genç 2-1 badminton tanrıçası düşmeden 10-1 yenildi, şampiyonluğu kazanmak için finale girdi
    Gümüş pullu bir gömlek ve kırmızı kolsuz bir takım giyen Zhao Yazhi'nin güzel bir fotoğrafı var ve parlak ve yüksek topuklularla hareket ediyor.
    "Creation 101" tarafından elendi, şimdi şortlu uzun bir süveter giyiyor, yuvarlak bacaklar süper ışığı çalıyor
    Dış Ticaret Sektörü Raporu: Çelik ihracatı ile ilgili tüm bunları aydınlatmak
    Rekabetçi Kafka, büyük veri analitiği çaylak Pulsar
    To Top