g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Kırık bir bambu gibi! 169 makale sizi 2019'da NLP'de BERT'yi görmeye götürüyor

Yazar | Natasha Latysheva

Derleme | JocelynWang

Düzenle | Cong Mo

2019, NLP'nin geliştirilmesinde bir kilometre taşı yılıdır ve arkasındaki en büyük kahraman BERT!

Sadece 2018'in sonunda yayınlandı. BERT'nin 2019'un sadece bir yılında NLP alanında lider "kırmızı adam" olması sadece bir yıl sürdü. BERT ile ilgili makaleler de bir dalgalanma gibi yayınlandı.

2019, NLP geliştirme tarihinde hatırlanmaya değer bir yıl ve hak edilmiş bir "BERT yılı".

NLP ve ML araştırmacısı Natasha Latysheva, topladığı 169 BERT ile ilgili makaleye dayanarak 2019'da BERT'nin gelişimini gözden geçirdi.

Hadi görmek için onun ayak izlerini takip edelim:

2019, NLP'nin geliştirilmesinde bir kilometre taşı yılıdır. Okuduğunu anlamadan duygu analizine kadar, büyük görevler için çözümler yeni kayıtlara öncülük etti.

En belirgin araştırma eğilimi, NLP'de transfer öğrenmenin uygulanmasıdır, yani belirli dil işleme ile ilgili görevlerde ince ayar için çok sayıda önceden eğitilmiş model kullanılır. Transfer öğrenmede, önceden oluşturulmuş modeldeki bilgi, modelin performansını ve genelleme yeteneğini geliştirmek için yeniden kullanılabilir ve aynı zamanda etiketlerle eğitim örneklerini büyük ölçüde azaltır.

Aslında, bir modelin önceden eğitilmesi ve ardından geçiş öğrenimi gibi belirli bir görev için ince ayar yapılması alışılmadık bir durum değildir.Örneğin, bilgisayarla görme araştırmacıları genellikle büyük veri kümeleri (ImageNet gibi) üzerinde önceden eğitilmiş modeller kullanır. NLP alanında, kelime düğünlerinin uzun süre tekrar kullanılmasıyla "sığ" aktarım öğrenme gerçekleştirilmiştir.

Ancak 2019'da, BERT gibi modellerin ortaya çıkmasıyla, NLP alanında daha derin bilgi aktarımına, yani tüm modeli temelde önceden eğitilmiş büyük bir dil modelinin bir model olarak kullanılması olan yeni bir göreve aktarmak için önemli bir kayma gördük. Dil anlama özelliğini yeniden kullanma yöntemi çıkarıcı.

Bu aynı zamanda "NLP'nin ImageNet anı" olarak da biliniyordu.Aynı zamanda bu eğilime dayalı ilgili araştırma çalışmaları 2019 yılında da devam ediyor.

BERT, açıkça NLP görevlerinin transfer öğrenmeyi kolayca uygulamasına izin verebilir ve bu süreçte, şu anda 11 cümle düzeyinde ve kelime düzeyinde NLP görevlerinde uyarlamayı en aza indirecek şekilde en iyi sonuçları üretebilir.

Pratik bir bakış açısıyla, bu kesinlikle heyecan vericidir, ancak daha ilginç olanı, BERT ve ilgili modellerin, dili bilgisayarların anlayabileceği bir dil olarak nasıl temsil edeceğimizi ve hangi temsil yönteminin modeli daha fazla kıldığını anlamamızı geliştirebilmesidir. Bu zorlu dil problemlerini iyi çözme konusunda temel bir anlayışa sahip olun.

Ortaya çıkan paradigma şudur: BERT'in hâlihazırda sıkı bir şekilde ustalaştığı dil temeli yeniden kullanılabilir olduğundan, model neden her yeni NLP görevi için dilin gramerini ve anlambilimini sıfırdan öğrenmeye devam etsin?

Bu temel kavramın ortaya çıkması ve basit ince ayar adımları ve ilgili açık kaynak koduyla, BERT'nin hızla yayıldığı anlamına gelir: çevrilen cümleler "yakında yayılacak" anlamını yansıtmalıdır: 2018 sonunda piyasaya çıkan BERT, 2019 yılında oldukça popüler bir araştırma aracı haline geldi.

Aslında, geçen yıl yayınlanan BERT ile ilgili makalelerin bir listesini derlemeye çalışana kadar ne kadar popüler olduğunu fark etmedim. BERT ile ilgili 169 makale topladım ve bunları birkaç farklı araştırma kategorisine manuel olarak işaretledim (örneğin: belirli bir alanın BERT versiyonunu oluşturmak, BERT'nin iç mekanizmasını anlamak, çok dilli bir BERT oluşturmak vb.).

İşte tüm bu kağıtların dağılımı:

Resim, Kasım 2018 ile Aralık 2019 arasında yayınlanan BERT ile ilgili makalelerin bir koleksiyonunu göstermektedir. Y ekseni, alıntı sayısının logaritmik istatistiklerini (Google Akademik tarafından belirtilir) temsil eder ve alt sınırı 0'dır. Bu makalelerin çoğu arXiv makalesinin başlığında geçmiştir. aramak Anahtar kelime BERT bulundu.

Bu tür bilgiler genellikle daha iyi etkileşime sahiptir, bu yüzden burada GIF resmini veriyorum. İlginizi çekiyorsa Jupyter not defteri şeklinde kaydedilmiş orijinal kodu da açıp şekildeki parametreleri kendiniz ayarlayabilirsiniz.İlgili bağlantılar aşağıdaki gibidir:

https: // github .com /nslatysheva/BERT_papers/blob/master/Plotting_BERT_Papers.ipynb

Yukarıdaki deneyde kullanılan ham veriler aşağıdaki gibidir:

https: //raw.githubusercontent .com /nslatysheva/BERT_papers/master/BERT_Papers.csv

Resim, fareyi her BERT kağıdı üzerinde hareket ettirdiğinizde görünen verileri gösterir.

BERT hakkında birçok yayın yapılmıştır. Yukarıdaki resimden şu noktaları bulabiliriz:

İlginç bir olgu, orijinal BERT makalesinin Kasım 2018'de yayınlandığı zaman ile Ocak 2019'da büyük bir ilgili makale dalgasının ortaya çıkmaya başladığı zaman arasındaki sürenin oldukça kısa olmasıdır.
BERT (ilgili) makalelerinin ilk yayın dalgası, BERT'yi öneri sistemleri, duyarlılık analizi, metin özetleme için uygun hale getirmek gibi bazı temel BERT modellerinin (şekildeki kırmızı, mor ve turuncu kısımlar gibi) anında genişletilmesine ve uygulanmasına odaklanma eğilimindedir. Belge alma.
Daha sonra, Nisan ayından itibaren, BERT'nin modelleme yoluyla dil katmanlamayı nasıl gerçekleştirdiğini anlamak ve dikkat başlıkları arasındaki fazlalığı analiz etmek gibi BERT'nin iç mekanizmasını araştıran bir dizi makale (şekildeki yeşil kısım) yayınlandı. En etkileyici olanlardan biri "Klasik NLP'nin aktarımını yeniden keşfetmek için BERT kullanma" adlı bir makale (ilgili makalelere bağlantı: https://arxiv.org/abs/1905.05950). Makalenin yazarı, BERT'nin dahili hesaplamalarının geleneksel NLP'nin iş akışını, yani konuşma parçası etiketleme, bağımlılık analizi, varlık etiketleme, vb. Yansıtabileceğini buldu.
Ardından Eylül ayı civarında, DistilBERT, ALBERT ve TinyBERT gibi BERT modelinin boyutunu sıkıştırmaya ilişkin bir dizi makale yayınlandı (camgöbeği bölümünde gösterildiği gibi). Bunların arasında, HuggingFace'in DistilBERT modeli, BERT'nin sıkıştırılmış bir sürümüdür ve parametreleri, öncekinin yalnızca yarısıdır (110 milyondan 66 milyona), ancak önemli NLP görevlerinin uygulanmasında önceki performansın% 95'ine ulaşmıştır (ayrıntılar için lütfen bkz. TUTKAL kıyaslaması). Orijinal BERT modeli hafif değildir, bu da bilgi işlem kaynaklarının yetersiz olduğu yerlerde (cep telefonları gibi) bir sorundur.

Lütfen bu BERT kağıtları listesinin eksik olduğunu unutmayın. BERT ile ilgili makalelerin gerçek sayısı derlediğimden iki kat daha fazlaysa şaşırmam. Burada kabaca bir tahminde bulunmak için, şu anda alıntı yapılan orijinal BERT kağıtlarının sayısı 3100'ü aştı.

Bu modellerden bazılarının isimlerini merak ediyorsanız, bu isimler aslında NLP araştırmacılarının Susam Sokağı'ndaki karakterlere duyduğu hayranlığın bir yansıması. Tüm bunları ELMo ("Susam Sokağı" karakterinin adını taşıyan) gazetesine atfedebiliriz, makalenin ilgili bağlantıları aşağıdaki gibidir:

https: // www. Google .com /search?q=elmo+paperoq=elmo+paperaqs=chrome..69i57j0l5j69i61j69i60.1625j1j7sourceid=chromeie=UTF-8

Bu, BERT ve ERNIE gibi sonraki modellerin, kaçınılmaz hale gelen ilgili görevlerden sonra adlandırılmaya başlamasını sağlar. Bir BIGBIRD modelini çok hevesle bekliyorum, bu yüzden sıkıştırılmış versiyonunu SMALLBIRD olarak adlandırabiliriz.

1. BERT literatüründen bazı ilhamlar

Bu belgelere göz atarken, içlerinde görünen bazı genel kavramlar buldum:

Açık kaynak makine öğrenimi modellerinin değeri. Yazar, BERT modelini ve ilgili kodu ücretsiz olarak sağlar ve basit ve yeniden kullanılabilir bir ince ayar işlemi sağlar. Bu tür bir açıklık, araştırma ilerlemesini hızlandırmak için çok önemlidir ve yazar bu kadar basit değilse modelin eşit derecede popüler olup olmayacağından şüphe etmek için nedenlerim var.
Hiperparametre ayarı konusunu ciddiye alın ve önemini anlayın. RoBERTa'nın makalesinde, akademik dünyada bir sansasyon yaratan daha ilkeli bir optimizasyon tasarımı (eğitim görevini değiştirmek gibi) ve BERT'yi eğitmek için daha genelleştirilmiş bir hiperparametre ayarlama yöntemi önerildi. Bu sürekli güncellenen eğitim sistemi ve ardından Artı Modeli daha uzun süre eğitmek için yalnızca daha fazla veri kullanır ve bir kez daha çeşitli NLP kıyaslama performansının rekorunu yeni bir seviyeye yükseltir.
Model boyutu üzerine düşünceler. Başlangıçta, BERT'nin yazarı kendisini çeken bir fenomeni keşfetti: Çok küçük bir veri setinde bile, basitçe model boyutunu büyütmek modelin performansını büyük ölçüde artırabilir. Bu, bir anlamda, insan dilini temsil etmek için yüz milyonlarca parametreye "ihtiyacınız" olduğu anlamına gelebilir. 2019'daki diğer bazı makaleler, yalnızca NLP modelinin boyutunu genişleterek model iyileştirmeleri sağlayabileceğine işaret etti (ör. İyi bilinen OpenAI'de GPT-2 modeli). Tabii ki, gülünç derecede büyük NLP modellerini eğitmek için kullanılabilecek bazı yeni teknikler var (NVIDIA'nın 8 milyar parametreli megatronLM'si gibi). Bununla birlikte, modelin boyutu arttıkça modelin etkisinin azaldığına dair kanıtlar da vardır ki bu, bilgisayarla görme araştırmacılarının belirli sayıda evrişimli katman eklerken engellerle karşılaştığı duruma benzer. Model sıkıştırma ve parametre verimliliği ile ilgili makalelerin başarılı bir şekilde yayınlanması, belirli bir boyut modelinde daha fazla performans elde edilebileceğini göstermektedir.

Şekilde görüldüğü gibi, NLP modelimiz gittikçe büyüyor. DistilBERT kağıdından alınmıştır.

2. BERT tam olarak nedir?

Öne dönelim ve BERT'nin ne olduğunu tartışalım.

BERT (Transformer'dan iki yönlü bir kodlayıcı temsili), Google araştırmacıları tarafından oluşturulmuş önceden eğitilmiş bir dil modelidir (LM). Bu dil modeli, teşvik modeline dayalı olarak dilin derinlemesine anlaşılmasını öğrenme görevi üzerine eğitilmiştir; LM'nin ortak bir eğitim görevi bir sonraki sözcüğü tahmin etmektir (örneğin: "__ üzerinde oturan kedi").

BERT, kelimeler arasındaki ilişkiyi yakalamak için öz-dikkat adı verilen bir mekanizma kullanan nispeten yeni sinir ağı yapısı Transformer'a dayanmaktadır. Transformer'da evrişim (CNN gibi) veya özyinelemeli (RNN gibi) işlemler yoktur ve gereken tek şey dikkattir.

Yayınlanmış bazı mükemmel öğreticiler var ( http : // www. peterbloem.nl/blog/transformers) bunu tanıttı, bu yüzden burada ayrıntılı olarak tanıtmayacağım. Aşağıda ilgili kavramların kısa bir girişi bulunmaktadır:

Öz-dikkat mekanizması, her bir kelimenin içeriğini temsiliyle birleştirerek giriş etiketinin gömülmesini güncelleyen bir diziden diziye işlemdir. Bu, tüm giriş kelimeleri arasındaki ilişkiyi aynı anda modellemesine izin verir.Bu, giriş etiketlerinin sırayla okunduğu ve işlendiği RNN'den farklıdır. Öz dikkat, kelime vektörleri arasındaki benzerliği hesaplamak için iç çarpımı kullanır ve hesaplanan dikkat ağırlığı genellikle bir dikkat ağırlık matrisi olarak kabul edilir.
Dikkat ağırlıkları, kelimeler arasındaki ilişkinin gücünü yakalar ve modelin birden fazla dikkat başlığı kullanarak farklı ilişki türlerini öğrenmesine izin veririz. Her bir dikkat kafası genellikle kelimeler arasındaki özel bir ilişkiyi (biraz fazlalıkla) yakalar. Bu ilişkilerin bazıları sezgisel olarak açıklanabilir (konu-nesne ilişkileri veya bitişik kelimeleri izleme gibi), bazılarının anlaşılması oldukça zordur. Dikkat kafasını evrişimli bir ağdaki bir filtre olarak düşünebilirsiniz. Her filtre, verilerden belirli bir özellik türünü çıkarır. Bu çıkarılan özellikler, sinir ağının diğer bölümlerinin daha iyi değişiklikler yapmasına yardımcı olur. İyi tahmin.
Bu öz-dikkat mekanizması, Transformer'in temel işlemidir, ancak yalnızca bağlama yerleştirilmiştir: Transformatörler, orijinal olarak makine çevirisi için geliştirilmiştir ve bir kodlayıcı-kod çözücü yapısına sahiptirler. Transformer kodlayıcı ve kod çözücünün yapısı, genellikle bir öz-dikkat katmanından, belirli bir miktarda normalizasyondan ve standart bir ileri besleme katmanından oluşan Transformer modülü olarak kabul edilebilir. Her modül, giriş vektörü üzerinde bu işlem dizisini gerçekleştirir ve çıkışı bir sonraki modüle iletir. Transformer'da derinliği, Transformer'daki modül sayısını ifade eder.

BERT modeli, yukarıdaki Transformer ayarları kullanılarak iki denetimsiz dil modeli üzerinde eğitilmiştir. BERT eğitimi ile ilgili olarak, en önemli şey, etiketli verilere dayanmamasıdır, yani herhangi bir özel etiketli veri seti olmadan herhangi bir metin derlemesini kullanabilir. BERT makalesinin modeli, Wikipedia külliyatı ve bir kitap kullanılarak eğitilmiştir. Diğer "sıradan" dil modelleriyle karşılaştırıldığında, BERT tarafından kullanılan verilerin ucuz olması avantajlarından biridir.

3. BERT nasıl antrenman yapıyor?

Bununla birlikte, BERT, bu kadar iyi ve evrensel olarak etkili bir dil öğrenimi anlayışına sahip olması için onu motive edebilecek hangi görev üzerine eğitilmiştir? Öğrenme stratejisi gelecekteki çalışmalarda ayarlanabilir, ancak orijinal makale aşağıdaki iki görevi kullandı:

Maske Dil Modeli (MLM) görevi. Bu görev, modeli dilin hem kelime düzeyinde hem de cümle düzeyinde iyi bir temsilini öğrenmeye teşvik eder. Basitçe söylemek gerekirse, bir cümledeki kelimelerin% 15'i rastgele seçilir ve kullanılır < MASKE > İşaret gizlidir (veya "maskelenmiştir"). Bu model kullanılarak çalışır < MASKE > Önceki ve sonraki kelimeler bu gizli kısımları tahmin eder.Bu nedenle, bozuk girişten tüm metni yeniden oluşturmaya çalışırız.Hem sol hem de sağ içerik tahmin için kullanılır. Bu, tüm metni dikkate alan kelime temsilleri oluşturmamızı sağlar. ELMo'nun (bağlama duyarlı kelime yerleştirmeleri oluşturmak için kullanılan RNN'ye dayalı bir dil modeli) ve diğer yöntemlerin aksine, BERT çift yönlü gösterimini aynı anda öğrenirken, ELMo soldan bağımsız olarak iki farklı dil modelinden oluşur. Sağdan ve sağdan sola dil, öğrenmek ve sonra bağlanmak anlamına gelir. ELMo'nun "sığ iki yönlü" bir model olduğunu ve BERT'nin "derin iki yönlü" bir model olduğunu söyleyebiliriz.
Sonraki cümle tahmini (NSP) görevi. Modelimiz dil anlayışının temeli olarak kullanılıyorsa, cümleler arasındaki tutarlılığı anlamak onun hedeflerine ulaşmasına yardımcı olacaktır. Modeli cümleler arasındaki ilişkiyi öğrenmeye teşvik etmek için bir sonraki cümle tahmin görevini ekledik.Bu görevde model, bir çift cümlenin ilişkili olup olmadığını, yani bir cümlenin başka bir cümleyle bağlantılı olmaya devam edip edemeyeceğini tahmin etmelidir. Cümledeki pozitif eğitim çifti, korpustaki gerçek bitişik cümledir ve negatif eğitim çifti, korpustan rastgele seçilen iki cümledir. Bu mükemmel bir sistem değildir, çünkü rastgele örneklenmiş bir cümle çifti aslında birbiriyle ilişkili olabilir, ancak bu görevin ihtiyaçları için yeterince iyidir.

Yukarıdaki model aynı anda iki görevi öğrenmelidir, çünkü gerçek eğitim kaybı iki görevin kayıplarının toplamıdır (yani, MLM ve NSP'nin ortalama olasılığının toplamı).

Maskeleme yöntemiyle ilgili bir sorun olduğunu fark ederseniz: o zaman gerçekten haklısınız. Bir segmentteki kelimelerin% 15'i rastgele gizlendiğinden, birden fazla kelime < MASKE > . Aslında durum böyledir, ancak BERT bu maskeli sözcükleri birbirinden bağımsız olarak ele alır, bu da sınırlıdır çünkü bunlar birbirine bağımlı ilişkiler kurmaları aslında kolaydır. Bu aynı zamanda XLNet makalesinde (https://arxiv.org/abs/1906.08237) bahsedilen bir noktadır, bazı insanlar bunun BERT'in mirası olduğunu düşünüyor.

Dördüncü, ince ayar BERT

Temel BERT modeli eğitildikten sonra, genellikle sonraki iki adımda ince ayar yapılması gerekir: önce etiketlenmemiş veriler üzerinde denetimsiz eğitime devam edin ve ardından yeni hedefe ek bir katman ve eğitim ekleyerek öğrenin Asıl görev (burada çok fazla etiket verisi kullanmaya gerek yok).

https://arxiv.org/pdf/1511.01432.pdf

BERT ince ayarı, yalnızca yeni görevdeki belirli bir katmanın parametrelerini değil, modeldeki tüm parametreleri güncelleyecektir, bu nedenle bu yöntem, iletim katmanı parametrelerini tamamen dondurma teknolojisinden farklıdır.

Uygulamada, aktarım öğrenmesi için BERT kullanılırken, genellikle yalnızca eğitimli kodlayıcı yığını yeniden kullanılır - önce model kod çözücüyü ikiye bölün ve ardından enkoder Transformer modülünü özellik çıkarıcı olarak kullanın. Bu nedenle, Transformer'in kod çözücüsünün başlangıçta eğitildiği dil göreviyle ilgili yaptığı tahminler umurumuzda değil.Sadece giriş metninin model içinde temsil edilme şekli ile ilgileniyoruz.

BERT ince ayarı, göreve, veri boyutuna ve TPU / GPU kaynaklarına bağlı olarak birkaç dakika ila birkaç saat sürebilir. BERT ince ayarını denemekle ilgileniyorsanız, bu hazır kodu TPU'ya ücretsiz erişim sağlayan Google Colab'da kullanabilirsiniz. İlgili kod aşağıdaki gibidir:

https://colab.research.google .com /github/tensorflow/tpu/blob/master/tools/colab/bert_finetuning_with_cloud_tpus.ipynb

5. BERT ortaya çıkmadan önce bazı yöntemler?

BERTin orijinal makalesi iyi yazılmış, ben Önermek Sevgili okuyucular, orijinal makaleye bağlantı: https://arxiv.org/abs/1810.04805. Makalede kullanılan ön eğitim ve ince ayar dil modellerinde yaygın olarak kullanılan bazı ana yöntemleri şu şekilde özetledim:

Giriş özellikleri olarak önceden eğitilmiş gösterimleri kullanan, ancak göreve özgü mimarileri kullanan (örneğin, her yeni görev için model yapısını değiştiren) denetimsiz özellik tabanlı yöntemler (ELMo gibi). Aslında, tüm araştırmacıların favori kelime yerleştirme yöntemleri (word2vec, GLoVe'den FastText'e), cümle yerleştirme ve paragraf yerleştirme bu kategoriye aittir. ELMo aynı zamanda bağlam içinde kelime yerleştirme sağlar hassas Bu arada, işaretin gömülmesi veya temsili, dil modelinin gizli durum vektörünün soldan sağa ve sağdan sola bağlantısıdır.
Denetlenen aşağı akış görevlerinin tüm eğitim öncesi parametrelerinde ince ayar yapan ve model yapısını en aza indirmek için yalnızca bazı göreve özgü parametreleri tanıtan denetimsiz ince ayar yöntemleri (OpenAI'nin GPT modeli gibi). Ön eğitim, etiketlenmemiş metin üzerinde gerçekleştirilir.Öğrenme görevi genellikle soldan sağa bir dil modeli veya metin sıkıştırmadır (otomatik kodlama gibi, metni bir vektör formuna sıkıştırır ve ardından metni vektörden yeniden oluşturur). Bununla birlikte, bu yöntemler bağlamı modelleme yeteneğini sınırlar, çünkü belirli bir sözcüğün modeli genellikle tek yönlüdür, soldan sağa ve sonraki tüm sözcükleri temsiline dahil etme yeteneği yoktur.
Denetlenen verilerden öğrenmeyi aktarın. Buna ek olarak, farklı dil problemlerinin ağırlıklarını başlatmak için makine çeviri modeli parametrelerinin kullanılması gibi büyük miktarda eğitim verisi içeren denetimli görevlerden öğrenilen bilgilerin aktarılması için bazı çalışmalar yapılmıştır.

Altı, biraz düşünme

He Kaiming, bilgisayarla görme alanında, ön eğitimin ve ince ayarın esas olarak modelin yakınsamasını hızlandırmaya yardımcı olduğunu gösteren "ImageNet Ön Eğitimini Yeniden Düşünmek" adlı bir çalışmasına sahiptir. Bu düşünce ve bakış açısı NLP alanında çalışmak için de geçerli mi?

He Kaiming'in kağıt bağlantı adresi: https://arxiv.org/abs/1811.08883

7. Karar

Umarım bu makale, BERT'nin neden olduğu araştırma patlaması hakkında makul bir inceleme perspektifi sağlar ve bu modelin NLP araştırması alanında nasıl bu kadar popüler ve güçlü hale geldiğini gösterir.

Bu alandaki mevcut ilerleme hızlı ve en gelişmiş modellerden gördüğümüz sonuçlar sadece beş yıl önce bile inanılmaz.Örneğin, soru cevap görevlerinde insanları geride bırakan performans.

NLP alanındaki en son gelişmelerdeki iki ana eğilim, transfer öğrenmenin yükselişi ve Transformatör. 2020'de bu iki araştırma yönünün gelişimini görmeyi dört gözle bekliyorum.

Https: // directiondatascience aracılığıyla .com / 2019-bert-354e8106f7ba-yılı

Stanford Üniversitesi Ma Tengyu: Mevcut derin öğrenme algoritmalarını anlayamıyor musunuz? Sonra anlaşılır bir

AAAI 2020 | Çin Bilimler Akademisi Bulut Teknolojisi: Sınıflandırma performansını iyileştirmek için birden çok zayıf etiket kullanan çift görünümlü sınıflandırma