Transfer öğrenimi artık derin öğrenmeyi zorlaştırmıyor ...

Tam metin 2968 Kelimeler, tahmini öğrenme süresi 9 dakika

Kaynak: Pexels

Çok uzak olmayan geçmişte, veri bilimi ekiplerinin derin öğrenmeyi etkili bir şekilde kullanmak için bir şeye ihtiyacı vardı:

· Muhtemelen şirket içinde tasarlanmış yeni model mimarisi

· Büyük ve muhtemelen tescilli veri kümelerine erişim

· Büyük ölçekli model eğitimi için gerekli donanım veya fonlar

Bu, derin öğrenmeyi engeller ve bu koşulları karşılayan birkaç projeyle sınırlar.

Ancak son birkaç yılda durum değişti.

Cortex'te, kullanıcılar derin öğrenmeye dayalı yeni nesil ürünler piyasaya sürdüler Aradaki fark, bu ürünlerin tümünün benzersiz bir model mimarisi kullanılarak inşa edilmemiş olmasıdır.

Bu ilerlemenin arkasındaki itici güç aktarım öğrenmesidir.

Transfer öğrenimi nedir?

Genel olarak, transfer öğrenimi, belirli bir görev için eğitilmiş bir modeldeki bilgi birikimini ifade eder. Örneğin, bir fotoğraftaki çiçeklerin tanınması, farklı ilgili görevlere (örneğin bir kişinin cildini tanımlama) yardımcı olmak için başka bir modele aktarılabilir. Melanom) tahmin etmek.

Not: Transfer öğrenmeye dalmak istiyorsanız, Sebastian Ruder harika bir başlangıç yazmıştır.

Transfer öğrenimi için birçok yöntem vardır, ancak bir yöntem yaygın olarak kullanılmaktadır ve bu da ince ayardır.

Bu yöntemde, ekip önceden eğitilmiş bir model alır ve yeni, ilgili bir göreve odaklanmak için modelin son katmanını kaldırır / yeniden eğitir. Örneğin, AI Dungeon, yapay zeka tarafından oluşturulan ikna edici hikayeleri nedeniyle hızla popüler hale gelen bir açık dünya metin macera oyunudur:

Kaynak: AI Dungeon

AI Dungeon'ın bir Google araştırma laboratuvarında geliştirilmediğini, bir mühendis tarafından yapılmış bir proje olduğunu belirtmekte fayda var.

AI Dungeon'ın yaratıcısı Nick Walton, sıfırdan bir model tasarlamadı, ancak en gelişmiş NLP modeli OpenAI'nin GPT-2'sini benimsedi ve ardından kendi seçtiği macera metnine göre ince ayar yaptı.

Bu çalışma etkilidir çünkü sinir ağında ilk katman basit, genel özelliklere odaklanırken, son katman daha göreve özgü sınıflandırma / regresyona odaklanır. Wu Enda, bir görüntü tanıma modeli hayal ederek bu katmanları ve bunların göreceli özgüllük seviyelerini görselleştirir:

Kaynak: Stanford Üniversitesi

Temel katmanın genel bilgisinin genellikle başka görevlere dönüştürülebileceği ortaya çıktı. AI zindanı durumunda, GPT-2 en gelişmiş sıradan İngilizce anlayışına sahiptir ve seçtiğiniz macera türünde iyi performans göstermesi için yalnızca son seviyesinde biraz yeniden eğitime ihtiyaç duyar.

Bu süreç sayesinde, bir mühendis bir modeli birkaç gün içinde yeni bir alana dağıtabilir ve en son sonuçları elde edebilir.

Aktarım öğrenimi, yeni nesil makine öğrenimi odaklı yazılımların anahtarıdır

Daha önce yazar, makine öğrenimi ve derin öğrenme için gerekli uygun koşullardan, özellikle de bu koşulların etkili kullanımından bahsetmişti. Geniş, temiz bir veri kümesine erişmeniz, etkili bir model tasarlamanız ve eğitim için yöntemlere ihtiyacınız var.

Bu, varsayılan olarak, belirli alanlardaki veya belirli kaynaklar olmadan projelerin uygulanabilir olmadığı anlamına gelir.

Şimdi, transfer öğrenimi yoluyla, bu darboğazlar ortadan kaldırılıyor:

1. Küçük veri kümeleri artık belirleyici faktör değildir

Derin öğrenme genellikle büyük miktarda etiketlenmiş veri gerektirir ve birçok alanda bu veriler basitçe mevcut değildir. Transfer öğrenimi bu sorunu çözebilir.

Örneğin, Harvard Tıp Fakültesi bünyesindeki bir araştırma ekibi, kısa süre önce "kanser dışı ölümler de dahil olmak üzere göğüs radyografilerine dayalı uzun vadeli ölüm oranlarını tahmin eden" bir model uygulamaya koydu.

Kaynak: JAMA Network

Araştırmacılar, yaklaşık 50.000 etiketli görüntüden oluşan bir veri setiyle, sıfırdan bir CNN'yi (Evrişimsel Sinir Ağı) eğitmek için gereken verilere sahip değildi. Bunun yerine, önceden eğitilmiş bir Inception-v4 modeli (14 milyondan fazla görüntü ile ImageNet veri kümesinde eğitilmiş) kullandılar, aktarım öğrenmeyi kullandılar ve modeli kendi veri kümelerine uyarlamak için mimariyi biraz değiştirdiler.

Son olarak, CNN'leri, her hasta için hastanın gerçek mortalitesiyle ilgili bir risk puanı oluşturmak için yalnızca bir göğüs görüntüsünü başarıyla kullandı.

2. Model günler yerine dakikalar içinde eğitilebilir

Bir modeli büyük veri üzerinde eğitmek yalnızca büyük veri kümeleri elde etme sorunu değil, aynı zamanda bir kaynak ve zaman sorunudur.

Örneğin, Google en gelişmiş görüntü sınıflandırma modeli istisnasını geliştirdiğinde, iki sürümü eğittiler: biri ImageNet veri kümesi (14 milyon görüntü) ve diğeri JFT veri kümesi (350 milyon görüntü).

60 NVIDIAK80GPU üzerinde çeşitli optimize edilmiş eğitim için, bir ImageNet denemesi çalıştırmak 3 gün sürer. JFT deneyi bir aydan fazla sürdü.

Ancak artık önceden eğitilmiş Xception modeli piyasaya sürüldüğüne göre, ekip sürümlerinde daha hızlı ince ayar yapabilir.

Örneğin, Illinois Üniversitesi ve Argonne Ulusal Laboratuvarı'ndaki bir ekip yakın zamanda galaksi görüntülerini spiral veya elips olarak sınıflandırmak için bir model eğitti:

Kaynak: Argonne Leadership Computing Facility

Yalnızca 35.000 etiketli görüntüden oluşan bir veri kümesi olmasına rağmen, NVIDIA GPU'ları kullanarak 8 dakikada Xception'da ince ayar yapabilirler.

GPU üzerinde çalışırken, model galaksileri% 99,8 doğrulukla dakikada 20.000 galaksinin üzerinde insanüstü bir hızda sınıflandırabilir.

3. Modeli eğitmek için artık risk sermayesine ihtiyacınız yok

Bir Xception modelini 60 GPU üzerinde eğitmek aylar sürdüğünde, Google maliyeti önemsemeyebilir. Ancak, Google ölçeğinde bir bütçesi olmayan herhangi bir ekip için model eğitiminin fiyatı gerçek bir endişe kaynağıdır.

Örneğin, OpenAI GPT-2'nin sonuçlarını ilk duyurduğunda model mimarisini yayınladılar, ancak kötüye kullanım endişeleri nedeniyle önceden eğitilmiş tam bir model yayınlamadılar.

Yanıt olarak, bir Brown ekibi GPT-2'yi bu makalede açıklanan mimari ve eğitim sürecine göre kopyaladı ve OpenGPT-2 modelini adlandırdı. Eğitmek için yaklaşık 50.000 dolar harcadılar, ancak performansları GPT-2 kadar iyi değildi.

Bir modelin performansı en ileri seviyenin altındaysa, 50.000 $ herhangi bir ekip için büyük bir risktir çünkü çok fazla para olmadan gerçek bir yazılım geliştirirler.

Nick Walton, AI Dungeon'ı inşa ederken GPT-2'ye ince ayar yaparak projeyi tamamladı. OpenAI, bu modeli eğitmek için yaklaşık 27.118.520 sayfa metin ve binlerce dolar yatırım yaptı ve Walton'un herhangi birini yeniden yaratmasına gerek yok.

Bunun yerine, chooseyourstory.com'dan alınan çok daha küçük bir metin seti kullandı ve tamamen ücretsiz olan Google Colab'da modele ince ayar yaptı.

Makine öğrenimi mühendisliği gerçek bir ekosistem haline geliyor

Kaynak: Pexels

Oldukça standart bir modelden yola çıkarak yazılım mühendisliği ile karşılaştırıldığında, insanlar genellikle ekosistemin "olgun" olduğunu düşünürler.

Son derece güçlü bir performansı kapsayan yeni bir programlama dili görünmek üzere ve insanlar bunu özel durumlar, araştırma projeleri ve oyuncaklar için kullanacak. Bu aşamada, onu kullanan herkesin tüm temel yardımcı programları sıfırdan oluşturması gerekir.

Daha sonra, bu topluluktaki insanlar kütüphaneler ve projeler geliştirir ve araçlar üretimde istikrarlı bir şekilde kullanılıncaya kadar kamu hizmetlerinden çıkar.

Bu aşamada, onu yazılım oluşturmak için kullanan mühendisler, HTTP istekleri göndermek veya bir veritabanına bağlanmakla ilgilenmezler, bunların tümü çıkarılır ve mühendisler yalnızca ürünlerini oluşturmaya odaklanır.

Başka bir deyişle, Facebook React'i, Google Angular'ı oluşturuyor ve mühendisler ürünleri geliştirmek için bunları kullanıyor. Transfer öğrenmenin gelişmesiyle birlikte makine öğrenimi mühendisliği bu yönde ilerliyor.

OpenAI, Google, Facebook ve diğer teknoloji devlerinin güçlü açık kaynak modellerinin piyasaya sürülmesiyle, makine öğrenimi mühendislerinin "araçları" daha güçlü ve kararlı hale geldi.

Makine öğrenimi mühendisleri artık PyTorch veya TensorFlow ile sıfırdan model oluşturmak için zaman harcamıyorlar, ancak açık kaynak modelleri ve aktarım öğrenimini kullanarak ürün geliştiriyorlar, bu da yeni nesil makine öğrenimi odaklı yazılımın yakında kullanıma sunulacağı anlamına geliyor.

Artık makine öğrenimi mühendislerinin yalnızca bu modelleri üretime nasıl sokacakları konusunda endişelenmesi gerekiyor.

Derin öğrenme artık zor değil.

Yorum Beğen Takip Et

Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım

Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun

Küresel Salgın Taraması Güney Kore dört bin büyümeyi kırdı, Serie A erteledi, Louvre kapandı
önceki
Chenzhou Madencilik: "Dört Ağ" İnşa Et ve Kırmızı "Anti-salgın Duvar" Yap
Sonraki
Zhejiang Daining Uluslararası Kampüsünde "çevrimiçi" 61 kurs, 863 öğrenci kursları çevrimiçi olarak alıyor
Yeni başlayanların bilmesi gereken Python'un 4 gizli işlevi?
Programcılar nasıl ekstra para kazanır?
Pakistan yeni taç pnömoni salgını önleme ve kontrol tatbikatını başlattı
"En Son" Dünyanın en hızlı seri üretilen robot köpeği | AlphaDog
Bahar güzel olsa da, daha az maske olmamalıdır
Bugün Core Sound | Sektörü titretin! Japon gizemli adam, kodları otomatik olarak kaldırabilen yapay zeka geliştirdi
Nokta fotoğrafı20200301
Hunan Gençlik Federasyonu'nun "Sanat Hayranı", "salgın" ile mücadelede çok kararlı.
Chrome, Edge, Firefox, Opera ve Safari: en iyi tarayıcı hangisi?
Büyük veri çağında Microsoft Excel, bir göz atın
Yeni başlayanlar için en iyi 3 Python uygulaması, sahip olmaya değer
To Top