AI'nın AI'yı eğitmesine izin verin: Ali ve Zhejiang Üniversitesi'nin AI eğitmen asistanlarını ortaya çıkarın

Kısa bir süre önce, İnsan Kaynakları ve Sosyal Güvenlik Bakanlığı sıcak yeni bir iş çıkardı: AI eğitmeni. Beklenmedik bir şekilde, Zhejiang Üniversitesi ve Alibaba Security'den yapay zeka eğitmenleri, büyük uygulama senaryolarındaki artışla başa çıkmak için verimli bir şekilde bir yapay zeka derin modeli oluşturmak için bir "yapay zeka eğitmen asistanı" oluşturdu, böylece yapay zeka eğitim modeli yeni senaryolarla karşılaşıldığında sıfırdan öğrenmek zorunda kalmaz. Doğrudan mevcut modelden geçiş yapın, diğerlerinin bilgi ve becerilerini hızla edinin ve yepyeni bir yapay zeka modeli haline gelin ve model döngüsünü bir aydan bir güne kısaltın. Daha sonra, bu tür yapay zekanın yapay zekayı eğitmesine ve model üretim verimliliğini artırmasına izin veren makale, bilgisayarla görme konferansı CVPR 2020 (Oral) tarafından kabul edildi.

Günümüzde video ve canlı yayın, İnternet içeriği tüketiminin önemli taşıyıcıları haline geldi.İçerik oluşturma patlaması ve yüksek derecede yaratma özgürlüğü birçok potansiyel güvenlik tehdidini beraberinde getirdi. İyi haber şu ki, AI derinlik modeli, kötü içeriğin yayılmasını engellemek için multimedya içeriğinin tanımlanması, tespiti ve anlaşılması için büyük ölçekte kullanılıyor. Algılamanın doğruluğunu artırmak için, farklı senaryolar için farklı AI modellerinin kullanılması gerekir. Ancak, birçok medya sahnesi ve alt bölümü nedeniyle, farklı AI derinlik modellerini verimli bir şekilde nasıl üretebiliriz?

Bu hedefe ulaşmanın en popüler yolu transfer öğrenmesidir. Zhejiang Üniversitesi ve Ali Security bunu buldu Önceden eğitilmiş iki derinlik modeli tarafından çıkarılan özellikler arasındaki aktarım yeteneği, karşılık gelen derinlik özellik haritaları arasındaki benzerlikle ölçülebilir. Benzerlik derecesi ne kadar yüksekse, önceden eğitilmiş farklı derinlik modellerinden elde edilen özelliklerin korelasyonu o kadar büyük olur ve özelliklerin karşılıklı göç yeteneği o kadar güçlüdür. Dahası, "AI eğitmen asistanı", hangi modelden bilgi aktarılacağını ve modelin hangi bölümünün görevi en iyi şekilde tamamlayabileceğini de bilir. Başka bir deyişle, Xiaobai'nin modelinin yapay zeka derin modellerinden öğrenmesi için verimli bir öğrenme yöntemi keşfettiler.

Soru: En iyi geçiş etkisine nasıl ulaşılır?

Büyük miktarda yüksek kaliteli açıklama verisi, yüksek kapasiteli model mimarisi, yüksek verimli optimizasyon algoritmaları ve yüksek performanslı bilgi işlem donanımının geliştirilmesi sayesinde derin öğrenme, bilgisayarla görme, doğal dil işleme ve biyoinformatik alanlarında son on yılda dünya çapında başarı elde etti. Kayda değer ilerleme. Derin öğrenmenin benzeri görülmemiş başarısıyla, gittikçe daha fazla sayıda araştırmacı ve endüstri çalışanı, sektörde daha fazla araştırmayı teşvik etmek için eğitimli modellerini açık kaynak yapmaya isteklidir. Şu anda, önceden eğitilmiş derin öğrenme modellerinin her yerde olduğu söylenebilir.

Alibaba Security Turing Lab'ın kıdemli algoritma uzmanları, sadece büyük veri çağında olmadığımıza, aynı zamanda "büyük modeller" çağına girdiğimize inanıyor.

Büyük veriye benzer şekilde, büyük modellerden oluşan model deposu da büyük potansiyel değer içerir. Bu önceden eğitilmiş derin modeller, büyük ölçekli yüksek kaliteli açıklama verileri gibi çok fazla eğitim süresi ve pahalı hesaplama kaynakları tüketmiştir. Bu önceden eğitilmiş modeller makul bir şekilde yeniden kullanılabilirse, yeni görevleri çözerken eğitim süresine ve eğitim verilerine olan bağımlılık önemli ölçüde azalacaktır. Bu hedefe ulaşmanın en popüler yolu transfer öğrenmesidir. Derin modellere dayalı görevler arası aktarım öğrenmede, model ince ayarı en yaygın kullanılan ve etkili yöntemdir.

Bu yöntem, başlangıç noktası olarak önceden eğitilmiş bir modeli alır, model optimizasyon alanını azaltmak için modelin bazı parametrelerini düzeltir ve modelin yeni görevde başarılı olabilmesi için kalan parametreleri eğitmek için yeni görevin sınırlı verilerini kullanır.

Bu yöntem bazı belirli problemlerde belirli sonuçlar elde etmiş olsa da, bu mevcut transfer öğrenme yöntemleri iki önemli sorunu göz ardı etmektedir: Çok sayıda önceden eğitilmiş derin modelle karşı karşıya kaldığında, mevcut görevi çözmek için hangi modelin en iyi sonucu vereceğini seçin Etkisi; önceden eğitilmiş bir model verildiğinde, en iyi migrasyon etkisini elde etmek için hangi parametre katmanlarının sabitlenmesi ve hangi katmanların optimize edilmesi gerektiğidir.

Mevcut model seçimi genellikle ImageNet'in eğitim öncesi modelini körü körüne benimsemek içindir. Ancak, ImageNet'in önceden eğitilmiş modelleri, özellikle görev ImageNet verilerinde tanımlanan görevden önemli ölçüde farklı olduğunda, her zaman tüm görevler için tatmin edici performans üretmez. Model ince ayarı sırasında parametre optimizasyonu için kritik noktaların seçimi genellikle deneyime bağlıdır. Bununla birlikte, optimizasyon için en uygun kritik nokta, görev alaka düzeyi ve hedef veri hacmi gibi çeşitli faktörlere bağlı olduğundan, deneyime dayalı olarak en uygun seçimi sağlamak genellikle zordur.

Derin sinir ağları tarafından çıkarılan özelliklerin farklı görevler altında aktarılabilirliği

Yukarıdaki sorunları çözmek için, Zhejiang Üniversitesi ve Ali Security bu araştırmayı başlattı: farklı görevler altında eğitilmiş derin sinir ağları tarafından çıkarılan özellikler arasında aktarılabilirlik. Zamir ve arkadaşları, farklı görevler arasındaki göç ilişkisi üzerine bir ön çalışma yaptı. Görevlerin taşınabilirliğini ölçmek için görevbilim adı verilen tam bir hesaplama yöntemi önerdiler. Bununla birlikte, görevbilimde göz ardı edilemeyecek ve gerçek problemlerde uygulanmasını büyük ölçüde engelleyen üç sınırlama vardır.

Birincisi, hesaplama maliyeti çok yüksek. Belirli bir görev kümesindeki iki görev arasındaki geçiş ilişkisini hesaplarken, kümedeki görev sayısı arttıkça hesaplama maliyeti ikinci dereceden artacaktır Görev sayısı büyük olduğunda, hesaplama maliyeti çok pahalı hale gelecektir.

İkinci sınırlama, transfer modelini eğitmek için hala çok sayıda etiketli veri gerektiren görevler arasındaki transfer ilişkisini kurmak için transfer öğrenmeyi kullanmasıdır. Bununla birlikte, çoğu durumda, yalnızca eğitilmiş modeli elde edebiliriz, ancak ilgili eğitim verilerini elde edemeyiz. Son olarak, görevbilim yalnızca farklı modeller veya görevler arasında aktarılabilirliği dikkate alır ve farklı katmanlar arasındaki aktarılabilirliği göz ardı eder.Modelin ince ayarını yaparken kritik noktaların seçilmesi sorununu çözmek için kullanılamaz.

Önceden eğitilmiş farklı derinlik modellerinden çıkarılan özellikler arasındaki aktarılabilirliği ölçmek için ana engel, derinlik modelinin kendisinin kara kutu doğasıdır. Önceden eğitilmiş farklı derinlik modellerinden öğrenilen özellikler yorumlanamadığından ve farklı gömme boşluklarında bulunduğundan, özellikler arasındaki aktarılabilirliği doğrudan hesaplamak çok zordur.

Önceden eğitilmiş derin modelden çıkarılan özellikler arasındaki aktarılabilirliği elde etmek için, araştırmacılar ilk olarak aktarılabilirliğin kesin bir tanımını verdiler.

Bu tanıma göre, ön eğitim modelinin seçimi ve model ince ayarı sırasında kritik nokta seçimi, bu hareketlilik tanımına göre aslında iki özel durumdur. Daha sonra bu makale, önceden eğitilmiş derin modelde öğrenilen bilgileri temsil etmek için derin bir ilişkilendirme grafiği (DEeP Attribution gRAph, DEPARA) önerir. Derin ilişkilendirme grafiğinde, düğümler girdiye karşılık gelir ve giriş verilerinde model atıfla oluşturulan ilişkilendirme grafiğiyle ifade edilir. Şekil 1'de gösterildiği gibi, kenarlar, önceden eğitilmiş derinlik modelinin özellik uzayındaki benzerlikleriyle ölçülen giriş verileri arasındaki ilişkiyi temsil eder.

Önceden eğitilmiş farklı derinlik modellerindeki derinlik öznitelik haritaları aynı girdi kümesinde tanımlandığından, bunlar aslında aynı boşluktadır, bu nedenle önceden eğitilmiş iki derinlik modeli tarafından çıkarılan özellikler arasındaki aktarım yeteneği doğrudan belirlenebilir. Karşılık gelen derinlik özellik haritaları arasındaki benzerlikle ölçülürler. Benzerlik derecesi ne kadar yüksekse, önceden eğitilmiş farklı derinlik modellerinden elde edilen özelliklerin korelasyonu o kadar büyük olur ve özelliklerin karşılıklı göç yeteneği o kadar güçlüdür. Bu çalışma, görevler arasındaki göç ilişkisini ve kritik nokta seçimini ölçmek için uygulanan yöntemin, çok sayıda deney yoluyla model ince ayarlamadaki etkinliğini kanıtladı.

Göçün tanımı

Yukarıdaki formülle tanımlanan hareketliliğin doğrudan hesaplanması büyük miktarda açıklama verisi gerektirir ve çok zaman alır. Bu makale, göçü etkileyen iki önemli faktörü hesaplayarak yaklaşık bir tahmin yapmayı önermektedir.

1. Dahil etme : Özellik aktarımının hedef görevde ideal sonuçlara ulaşmasını sağlamak için, kaynak görevin eğitim modeli tarafından oluşturulan özellik alanı, hedef görevi çözmek için yeterli bilgi içermelidir. Kapsayıcılık, transfer öğrenmenin başarısı için nispeten temel bir koşuldur.

2. Kullanım kolaylığı : Özellik alanı tamamen öğrenilmiş ve nispeten yüksek bir seviyeye soyutlanmış olmalıdır, böylece hedef görev sınırlı açıklama verileri altında iyi bir şekilde çözülebilir. Özelliklerin kullanım kolaylığı gerekmiyorsa, orijinal girdi her zaman derin ağ işleminden geçmiş özelliklerden daha fazla bilgi içerir. Ancak orijinal veriler herhangi bir bilgi çıkarma ve soyutlamaya tabi tutulmadığı için yeni görevlere iyi bir şekilde aktarılamaz.

Derin ilişkilendirme haritası

İki geçiş sorununu çözmek için derin ilişkilendirme grafikleri nasıl kullanılır?

1. Görevler arası geçiş

2. Katman hareketliliği

Deney

1. DEPARA'nın görselleştirilmesi

Yukarıdaki şekil, farklı görme görevleri için oluşturulan derinlik atıf grafiğinin görselleştirme sonucudur. Şekilden, bazı görevlerin örnekler arasında çok benzer ilişkilendirme grafikleri ve ilişkiler ürettiği, ancak bazılarının çok farklı sonuçlar ürettiği görülebilir. Örneğin, Rgb2depth ve Rgb2mist çok benzer ilişkilendirme grafikleri ve ilişki grafikleri oluşturur, ancak bunların sonuçları otomatik kodlayıcıdan çok farklıdır.

Aslında, görev sınıflandırma yönteminde, Rgb2depth ve Rgb2mist birbirleri arasında yüksek hareketliliğe sahiptir, ancak otomatik kodlayıcıya hareket kabiliyetleri nispeten düşüktür. Ek olarak, görev sınıflandırma yöntemi, görevleri dört gruba ayırmak için hiyerarşik kümeleme kullanır: 2B görevler (mavi), 3B görevler (yeşil), geometrik görevler (kırmızı) ve anlamsal görevler (macenta). Şekilde görselleştirme için 23B görev, 32B görev, 2 geometrik görev ve 2 anlamsal görev seçilmiştir. Bu görevlerde görev sınıflandırma yöntemi tarafından oluşturulan görev benzerlik ağacı, görev adının üzerine çizilir. Şekilden, her bir görev grubu içinde, derinlik özelliği grafiğinin nispeten benzer düğümler ve kenarlar oluşturduğu görülebilir.

2. Model göç ölçümü

Makalede PR eğrisi, yöntemin etkisini değerlendirmek için kullanılmıştır.Deneysel sonuçlar yukarıdaki şekilde gösterildiği gibidir.Yazıda önerilen derin atıf haritası yöntemi (DEPARA) ile görevbilim (Oracle) deneyinin yüksek bir benzerliğe sahip olduğu ve ablasyon deneyi ile bilinebileceği görülmektedir. , Yalnızca grafikteki düğüm benzerliği (DEPARA-V) ve yalnızca grafikteki kenar benzerliği (DEPARA-E) kullanılarak hesaplanan geçiş doğruluğu, grafik benzerliğinden (DEPARA) çok daha az doğrudur, yani düğümler ve kenarlar Her ikisi de sonuçta önemli bir rol oynar ve bölünemez. Ek olarak, makaledeki yöntem (DEPARA) SOTA'dan (RSA) daha iyidir, bu da bunun bilgi işlem mobilitesi için daha etkili bir çözüm olduğunu kanıtlamaktadır.

3. Katman geçiş ölçümü

Katman geçişi deneyi, Syn2Real-C veri setinde (sentetik görüntünün veri alanı ve gerçek görüntünün veri alanı dahil), iki kaynak modeli (model sentetik veri alanında eğitilmiş ve ImageNet üzerinde önceden eğitilmiş) dikkate alınarak gerçekleştirilir. Model) gerçek veri alanına geçmek için. Geçiş sırasında, göç etkisi ile derinlik ilişkilendirme grafiğinin benzerliği arasındaki ilişkiyi gözlemlemek için eğitim için yalnızca% 1 (0.01-T) ve% 10 (0.1-T) etiketli veriler kullanıldı. Yukarıdaki şekildeki renk derinliğine göre, iki farklı kaynak modeli için, daha iyi migrasyon etkisine sahip katman, hesaplanan derinlik özellik haritasının benzerliği ne kadar yüksek ve migrasyon etkisi o kadar düşük, hesaplanan derinlik atıf haritası Benzerlik ne kadar düşükse, kağıttaki yöntemin doğruluğu doğrulanır.

İlginç bir şekilde, ImageNet üzerinde önceden eğitilmiş ve sentetik veri alanında önceden eğitilmiş kaynak modeller için, en iyi geçiş etkisine sahip katmanlar aynı olmasa da, makaledeki yöntemler iyi bir şekilde belirtilebilir. Ayrıca,% 1 ve% 10'luk iki farklı mod için, bu yöntem yine de farklı hiperparametreleri ayarlayarak en iyi migrasyon etkisine sahip katmanları seçebilir.

Etki açısından bakıldığında, düğüm V veya kenar E'nin benzerliğinin karşılaştırılmasından bağımsız olarak, DNN-ImageNet, DNN-Source'tan daha iyi aktarılabilirliğe sahiptir. Bunun nedeni, DNN-Source ve hedef görevin aynı nesneyi öğrenmesidir. Bununla birlikte, veri alanları çok farklıdır ve bu, hedef görevin özellik alanını yeniden oluşturmak için daha fazla maliyete yol açar. Bazı katmanların geçiş için kullanıldığını ve hatta negatif geçişe sahip olduğunu belirtmek gerekir. Negatif geçiş genellikle, geçiş için kullanılan kaynak veri alanı ve hedef veri alanı çok farklı olduğunda meydana gelir. Bu, deneyde birini seçin Göç için doğru katman çok önemlidir.

Yukarıdaki şekil katman göç deneyindeki eğitim eğrisidir DEPARA tarafından seçilen katmanın diğer katmanlardan daha iyi bir migrasyon etkisine sahip olduğu görülebilir. Dahası, DNN-Source ile karşılaştırıldığında, DNN-ImageNet'teki eğitim eğrisi önemli ölçüde daha pürüzsüzdür, bu da modelin geçişi ne kadar iyi olursa, geçiş sırasında yeniden eğitim maliyetinin o kadar düşük ve daha kolay olduğunu kanıtlar. Hedef göreve geçiş yapın.

"'AI Eğitmen Asistanı'nın rehberliğinde, tek bir AI modelinin üretim döngüsü bir aydan bir güne indirilir ve farklı içerik risklerini daha hızlı bulabiliriz. "Analiz politikası umutları, zorbalık, pornografi, şiddet, Yanıltıcı gibi kötü içerik, insanların çok fazla görüntü ve video içeriği tüketmek için ödediği bedel olmayacaktır.Az teknolojisi, ön saftaki kötü içeriği daha hızlı engelleyebilir.

Kağıt adresi:

https://arxiv.org/abs/2003.07496

Kod adresi:

https://github.com/zju-vipa/DEPARA

Muhabir: MySQL olaylarına aşina olduğunuzu söylemiştiniz? Sonra sana 10 soru soruyorum
önceki
BTC bir "serbest düşüş" düşüşü yeniden üretti. Başlangıçta bu faktörlerden mi etkilendi?
Sonraki
1,54 milyon yapay zeka geliştiricisi, Çin'in yapay zekası köşelerde nasıl geçebilir? | Çin AI Uygulama Geliştirici Raporu
Bilmeden bahar uykusu, Kubernetes ne kadar biliyor
Herhangi bir performans göstergesi sınırların dışında veya APP çökmelerine neden olur, youku genel performans bir numara testi
İsteğe bağlı iyi bir şey, kullanır mısın? | Güç Projesi
Tsinghua ekibinin kendi geliştirdiği AI çerçevesi PK Pytorch, kim daha iyi? | Makalenin sonu avantajları
Programcılar kayboluyor
Python'un göz kamaştırıcı operasyonu: koşullu ifadeler yazmanın yedi yolu
Görüşme tamamlandı! 2020 sürüngen mülakat soruları koleksiyonu
Doğal dil modeli algoritması çok mu dağınık? Yerel birleşik AI açık kaynak çerçevesi burada
5 günde 12 araca el konuldu! Rizhao Kamu Güvenliği Trafik Polisi "Sokak Sokağı" Yasadışı Eylemlerini Sıkı Bir Şekilde Araştırıyor |
Tai'an: Paidaiyue Bölgesindeki ikinci grup CPPCC organları "dört ilerlemeyi" ilerletiyor
İl Kırsal Canlandırma Hizmet Ekibi: En güzel ayak izini Rushan'da bırakın
To Top