Bu makale, Wang Zhe tarafından yapay zekanın ön saflarında açılan orijinal teknoloji sütunu "Derin Öğrenme TO Tahmin Modeli Uygulaması" nın dördüncü makalesidir (bundan böyle "Derin Öğrenme TO Tahmin Modeli Uygulaması" "Derin TO Modeli" olarak anılacaktır). Bay Wang Zhe'nin geçmişte yazdığı harika makaleleri inceleyin: "Youtube Derin Öğrenme Öneri Sistemi Makalelerini Yeniden Okumak, Kelimeler ve Kelimeler İlahi Oluyor" ve "YouTube Derin Öğrenme Öneri Sisteminin On Mühendislik Problemi".
Microsoftun Deep Crossing'i ile Google'ın WideDeep'i ve çok sayıda mükemmel derin öğrenme TO tahmin modeli 2016'da önerildi, hesaplamalı reklamcılık ve öneri sistemleri alanı derin öğrenme çağına girdi. Bugün derin öğrenme TO modeli, reklamcılık ve öneri alanlarında şüphesiz ana akım haline geldi. Bir önceki sütun olan "Derin Öğrenme Öncesi Dönemde TO Tahmin Modelinin Gelişimi" bölümünde, geleneksel TO modelinin yapısal özelliklerini ve evrim ilişkisini birlikte tartıştık. Derin öğrenme çağına girdikten sonra, CTR modeli sadece ifade yeteneği ve model etkisinde nitel bir gelişme sağlamakla kalmaz, aynı zamanda görüntü, konuşma ve doğal dil işlemede derin öğrenmenin sonuçlarını ödünç alıp entegre eder ve model yapısında hızlı ilerleme kaydetmiştir. Evrim.
Bu makale, reklamcılık ve öneri alanlarındaki en popüler 10 derin öğrenme TO modelinin yapısal özelliklerini özetler ve aralarında evrimsel bir harita oluşturur. Bir model seçme kriterleri aşağıdaki üç ilkeyi izlemeye çalışır:
1. Sektörde daha büyük etkiye sahip modeller;
2. Google, Microsoft ve Ali gibi tanınmış İnternet şirketleri tarafından başarıyla uygulanmıştır;
3. Mühendislik odaklı, sadece deneysel veri doğrulama veya akademik yenilik için değil.
Aşağıda, ilk olarak bu derin öğrenme TO modelinin evrim haritasını listeledikten sonra tek tek tanıtıyoruz:
1. Microsoft Deep Crossing (2016) - derin öğrenme CTR modelinin temel modeli
Microsoft tarafından 2016 yılında önerilen Derin Geçişin, derin öğrenme CTR modelinin en tipik ve temel modeli olduğu söylenebilir. Şekil 2'deki model yapı diyagramında gösterildiği gibi, derin TO modelinin en tipik öğelerini kapsar; bu, seyrek özellikleri bir gömme katmanı ekleyerek düşük boyutlu yoğun özelliklere dönüştürmek ve özellik vektörünü bölümlere ayırmak için yığınlama katmanı veya concat katmanı kullanmaktır. Bunları bağlayın, ardından çok katmanlı bir sinir ağı aracılığıyla özelliklerin kombinasyonunu ve dönüşümünü tamamlayın ve son olarak TO hesaplamasını tamamlamak için puanlama katmanını kullanın.
Klasik DNN'den farklı olarak, Deep crossing tarafından kullanılan çok katmanlı algılayıcı, şüphesiz ünlü MSRA araştırmacısı He Yuming tarafından önerilen ünlü 152 katmanlı ResNet'ten yararlanan artık ağlardan oluşur.
2. FNN (2016) -FM'nin gizli vektörü ile tam gömme başlatma
Deep Crossing ile karşılaştırıldığında, FNN'nin yeniliği, kullanıcı ve öğenin yerleştirilmesi olarak FM'nin gizli katman vektörünü kullanmak ve böylece eğitimin tamamen rastgele bir durumdan yerleştirilmesinden kaçınmaktır. Kimlik özellikleri çok sayıda tek sıcak kodlama yöntemi kullandığından, son derece büyük boyutlar ve son derece seyrek vektörlerle sonuçlanır, Gömme katmanı ile giriş katmanı arasında birçok bağlantı vardır ve gradyan iniş verimliliği çok düşüktür, bu da eğitim süresini ve modeli büyük ölçüde artırır. Gömme katmanı eğitimini tamamlamak için eğitim öncesi yöntemini kullanmak, kuşkusuz derin öğrenme modellerinin karmaşıklığını ve eğitim kararsızlığını azaltmak için etkili bir mühendislik deneyimidir.
3. PNN (2016) - özellik kesişimini zenginleştirmenin bir yolu
PNN'nin tam adı Ürün tabanlı Sinir Ağı'dır PNN'nin anahtarı, gömme katmanı ile tam bağlı katman arasına bir Ürün katmanı eklemektir. Geleneksel DNN, geçişi ve özelliklerin kombinasyonunu doğrudan çok katmanlı, tamamen bağlı katmanlar aracılığıyla tamamlar, ancak bu yöntemde belirli "uygunluk" yoktur. Her şeyden önce, tamamen bağlı katman, farklı özellik alanları arasında kesişmez; ikincisi, tamamen bağlı katmanın çalışması, doğrudan özellik geçişi için tasarlanmamıştır.
Bununla birlikte, pratik problemlerde, özellik kesişiminin önemi apaçık ortadadır.Örneğin, yaş ve cinsiyetin kesişimi, çok sayıda yüksek değerli bilgi içeren çok önemli bir gruplama özelliğidir. Hedeflenen yapıyı karakterize edebilmek için acilen derin öğrenme ağlarına ihtiyacımız var. bu mesajlar. Bu nedenle, PNN, Ürün katmanı ekleyerek hedeflenen özellik geçişini tamamlar ve ürün operasyonu farklı özellik alanları arasında özellik kombinasyonu gerçekleştirir. Ve farklı çapraz bilgileri yakalamak için iç ürünü, dış ürünü ve diğer ürün işlemlerini tanımlayın ve modelin farklı veri modellerini karakterize etme yeteneğini geliştirin.
4. Google WideDeep (2016) - hafıza yeteneği ve genelleme yeteneği arasında kapsamlı bir değiş tokuş
Google WideDeep modelinin ana fikri, adından da anlaşılacağı gibi, tek giriş katmanının Geniş kısmını ve çok katmanlı algılayıcının Derin kısmını birbirine bağlar ve son çıktı katmanını birlikte girer. Geniş bölümün ana işlevi, modeli akılda kalıcı kılmaktır. Tek bir katmanın Geniş bölümü, çok sayıda seyrek kimlik özelliğini kullanmada iyidir, böylece model, kullanıcının büyük miktarda geçmiş bilgilerini doğrudan "hatırlayabilir"; Derin bölümün ana işlevi, Modelin "Genelleme" (Genelleme) olmasına izin verin, özelliklerin arkasına gizlenmiş veri modellerini bulmak için DNN'nin güçlü ifade yeteneğini kullanın. Son olarak, LR çıktı katmanı, birleşik bir model oluşturmak için Geniş kısmı ve Derin kısmı birleştirmek için kullanılır.
WideDeep'in sonraki modeller üzerindeki etkisi, çok sayıda derin öğrenme modelinin iki parçalı veya hatta çok parçalı kombinasyonları benimsemesi, farklı bilgileri araştırmak için farklı ağ yapılarını kullanması ve ardından bunları birleştirerek farklı ağ yapılarının özelliklerini tam olarak kullanması ve birleştirmesidir.
5. Huawei DeepFM (2017) - Geniş bölümü FM ile değiştirin
WideDeep'ten sonra birçok model ikili ağ kombinasyonu yapısına devam ediyor ve DeepFM de bunlardan biri. DeepFM'nin WideDeep'e göre gelişimi, sığ ağın bazı özelliklerini birleştirme yeteneğini güçlendiren orijinal Wide bölümünü FM ile değiştirmesidir. Aslında, FM'in kendisi birinci dereceden bir parçadan ve ikinci dereceden bir parçadan oluştuğu için, DeepFM aynı anda orijinal Geniş parça + ikinci derece özellik çapraz parça + Derin bölümün bir kombinasyonuna eşdeğerdir, bu da şüphesiz modelin ifade yeteneğini daha da geliştirir.
6. Google DeepCross (2017) -Geniş parça yerine Çapraz ağ kullan
Google tarafından 2017'de yayınlanan DeepCross Ağı (DCN) da WideDeep'in daha da geliştirilmesidir. Asıl fikir, orijinal Wide parçanın yerini almak için Çapraz ağı kullanmaktır. Bunlar arasında, Çapraz ağı tasarlamak için temel motivasyon, giriş vektörlerini geçmek için çok katmanlı bir çapraz katman kullanarak özellikler arasındaki etkileşim gücünü artırmaktır. Tek katmanlı bir çapraz katmanın temel işlemi, çapraz katmanın xl giriş vektörünü orijinal giriş vektörü x0 ile çaprazlamak ve önyargı vektörünü ve orijinal xl giriş vektörünü eklemektir. Temelde DCN, DeepFM fikrine çok benzeyen WideDeep Wide kısmındaki yetersiz ifade yeteneği sorununu hala geliştirmektedir.
7. NFM (2017) -Derin bölümündeki iyileştirmeler
DeepFM ve DCN'nin WideDeep Wide'a yönelik geliştirmeleriyle karşılaştırıldığında NFM, Deep'e yönelik bir gelişme olarak görülebilir. NFM'nin tam adı Sinirsel Ayrıştırma Makineleri'dir.FM'ye derin öğrenme ağ mimarisi açısından bakarsak, FM aynı zamanda tek katmanlı LR ve ikinci dereceden özelliklerden oluşan bir WideDeep mimarisi olarak da görülebilir.Klasik WD'den farkı sadece Derin kısım, ikinci dereceden gizli vektör çarpımının bir biçimi haline gelir. Ayrıca, FM'nin ikinci dereceden kısmını değiştirme perspektifinden, NFM, FM'nin özellik kesişimini bir DNN ile Bi-etkileşimli Havuzlama katmanıyla değiştirerek benzersiz bir WideDeep mimarisi oluşturdu. Bunlar arasında, Bi-etkileşimli Havuzlama, farklı özelliklerin gömülmesine sahip, element bazlı bir ürün biçimi olarak kabul edilebilir. Bu aynı zamanda Google WideDeep'e kıyasla NFM'nin yeniliğidir.
8. Dikkat mekanizmasının tanıtılmasıyla AFM (2017) -FM
AFM'nin tam adı Dikkatli Faktorizasyon Makineleri'dir. Önceki girişten itibaren, FM'in aslında FM'in birinci dereceden bölümü, Deep bölümü FM'in ikinci derece bölümü ve AFM'nin, adından da anlaşılacağı gibi, Attention mekanizmasıyla FM olduğu klasik WideDeep yapısı olduğunu açıkça biliyoruz. Model yapısına özgü olarak, AFM aslında FM'nin ikinci dereceden kısmının her bir çapraz özelliğine bir ağırlık atar.Bu ağırlık, NLP alanındaki Dikkat Mekanizmasına çok benzeyen nihai sonuç üzerindeki çapraz özelliklerin etkisini kontrol eder. ). Dikkat ağırlıklarını eğitmek için AFM, Attention Net'i ekler.Dikkat ağırlıkları, Attention Net tarafından eğitildikten sonra, FM'nin ikinci dereceden geçiş özelliklerine ters olarak uygulanır, böylece FM, örnek özelliklerine göre özellik ağırlıklarını ayarlama becerisi kazanır.
9. Ali DIN (2018) -Ali, Dikkat mekanizmasının derin öğrenme ağına katıldı
AFM, Dikkat mekanizmasını FM'ye ekledi. 2018'de Alibaba resmen Dikkat mekanizması - Derin İlgi Ağı'nı içeren bir derin öğrenme modeli önerdi. AFM'deki Dikkat ve FM kombinasyonundan farklı olarak DIN, derin sinir ağları için Dikkat makinesini kullanır ve modelin gömme katmanı ile birleştirme katmanı arasına bir dikkat birimi ekler, böylece model farklı aday ürünlere göre farklı özelliklerin ağırlıklarını ayarlayabilir. .
X. Ali DIEN (2018) - DIN'in "evrimi"
DIEN'in tam adı Deep Interest Evolution Network'dür Bu sadece DIN'in daha ileri bir "evrimi" değil, daha da önemlisi DIEN, AUGRU dizi modelini tanıtarak kullanıcının ilgisini çeken evrim sürecini simüle eder. Spesifik olarak, modelin ana özelliği ilgi uyandırmak için İlgi Ayırıcı Katmanı ve ilgi gelişimini simüle etmek için İlgi Gelişen katmanının Gömme katmanı ile Birleştirme katmanı arasına eklenmesidir. Bunların arasında, İlgi Çıkarıcı Katmanı, her bir zaman diliminde kullanıcı ilgi alanlarını çıkarmak için DIN yapısını kullanır ve İlgi Geliştirme katmanı, bir ilgi evrimi zinciri oluşturmak için seri olarak farklı zamanlarda kullanıcı ilgi alanlarını bağlamak için sıra modeli AUGRU yapısını kullanır. Son olarak, mevcut anda "faiz vektörü" üst çok katmanlı tam bağlı ağa girilir ve son CTR tahmini diğer özelliklerle birlikte gerçekleştirilir.
Özet: TO Modelinin Derin Öğrenme Çağı
Yazının sonunda, bu derin öğrenme TO modeli evrim diyagramını bir kez daha vurguladım. Söylemesi abartı olmaz, Bu evrim haritası, son yıllardaki tüm temel derin öğrenme TO modellerinin yapısal özelliklerini ve bunlar arasındaki evrimsel ilişkiyi içerir. . Tavsiye, reklamcılık ve arama alanlarındaki algoritma mühendislerine, şirketin işini mevcut veri modeline en uygun modelle yönlendirmek için farklı modellerin etkilerini işletme özelliklerine göre kolayca uygulayabilen ve karşılaştırabilen eksiksiz bir bilgi sistemi oluşturmalarına yardımcı olmayı umuyorum.
Bu mevcut modellere aşina olduğumuzda, derin öğrenme CTR modelinin gelişimi hiçbir zaman hızını durdurmadı. Alinin çok modlu, çok amaçlı derin öğrenme modelinden, YouTubeun RNN gibi sıra modellerine dayalı öneri sistemine, Airbnb tarafından Gömme teknolojisi kullanılarak oluşturulan arama önerisi modeline kadar, derin öğrenme uygulaması yalnızca giderek daha yaygın değil, aynı zamanda Daha hızlı ve daha hızlı evrim. Gelecekteki sütunlarda, derin öğrenme CTR modelinin bilgilerini daha derinlemesine tanıtmakla kalmayacağız, aynı zamanda derin öğrenme TO modelinin uygulanmasına ve inişine daha fazla önem vereceğiz ve sizinle birlikte öğrenmeyi dört gözle bekliyoruz.
"Derin Öğrenme TO Tahmin Modeli Uygulaması" sütun içeriğinin gözden geçirilmesi:
Yazar: Wang Zhe