Bu makale, orijinal başlığı olan AI Araştırma Enstitüsü tarafından derlenen teknik bir blogdur:
Google Open Sources BERT, Bankayı Bozmadan Doğal Dil Modelleri Eğitecek
Yazar | Jesus Rodriguez
Çeviri | micah One Road to the North Proofreading | Sauce Fan Armut
Bitirme | ananas kız
Orijinal bağlantı:
https://towardsdatascience.com/google-open-sources-bert-to-train-natural-language-models-without-breaking-the-bank-813ef38018fc
Google açık kaynak BERT, doğal dil modellerini kolayca eğitin
KK
Şu anda, doğal dil işleme modelleri, yapay zekanın en son teknolojisidir ve birçok yapay zeka sistemi ve kullanıcı arasındaki arayüzdür. NLP'nin geliştirilmesinin önündeki ana engel, modelin yüksek kaliteli etiketli verilere bağımlılığından kaynaklanmaktadır. Dil, herhangi bir şeye uygulanabilen evrensel bir iletişim mekanizması olduğu için, modeli eğitmek için belirli bir alanda açıklama verilerini bulmanın zor olduğu anlamına da gelir. Bu zorluğa yanıt olarak, NLP modeli dil ilkesini eğitmek için büyük miktarda etiketlenmemiş veri kullanmaya karar verdi. İyi bilinen önceden eğitilmiş modeller arasında Word2Vec, Glove veya FasText bulunur. Bununla birlikte, eğitim öncesi modellerin kendi zorlukları vardır ve çoğu zaman büyük miktarda veri bağlamını ifade etmekte başarısız olurlar. Son zamanlarda, GOOGLE AI dil ekibinden araştırmacılar, eğitim öncesi dil ifadesi için bir kütüphane olan BERT projesinin kaynak kodunu açtı ve eğitim sonuçları çok iyi sonuçlar elde etti.
Transformatörlerden (BERT) İki Yönlü Kodlayıcı Temsilleri, dahili bir Google çalışmasından kaynaklandı ve çok sayıda içeriğe duyarlı dilde önceden eğitilmiş modellerde farklı bir veri elde etme yöntemi önerdi. Bu ifadeler, soru-cevap cümlelerine ve duygu analizine benzer şekilde belirli alanlarda NLP görevleri için kullanılabilir. Açık kaynak projesinin piyasaya sürülmesi, yalnızca belgede önerilen TensorFlow teknolojisinin uygulanması değil, aynı zamanda bir dizi ön eğitim modelidir.
Şimdi, BERT'nin diğer önceden eğitilmiş modellerden ne kadar farklı olduğunu merak edebilirsiniz. Teorik olarak, NLP ön eğitim teknolojisi bağlamdan bağımsız olabilir veya bağlamsal olarak aranabilir. Word2vec veya GloVegenerate gibi bağlamdan bağımsız modeller, tek bir kelimenin kelime haznesine gömülü olduğu ifadelerdir. Örneğin, "futbol" kelimesi şu cümle ile aynı anlamlara sahiptir: "Bir futbol maçına gittim", "Real Madrid'den bazı futbolcularla tanıştım".
Bağlam geri alma modeli tek bir kelime dağarcığından ifade cümleleri üretmez, ancak cümlenin farklı yönlerindeki diğer kelimelere dayalı ifade cümleleri üretir. Örneğimizde, bağlamsal arama modelinde "futbol" kelimesinin anlamı, "maç" "Real Madrid oyuncusu" yerine "Gidiyorum ..." veya "Tanıştım ..." ifadesine göre oluşturulmuştur. Temelde, ön eğitim modeli bağlamdan bağımsız veya bağlamdan geri alınabilir ve daha derinlemesine, tek yönlü veya iki yönlü olabilir.
BERT, önceki eğitim öncesi model yöntemini genişletir ve önceki ve sonraki kelimelerin anlamlarına dayalı bağlam geri alma ifade anlambilimini oluşturarak dil modelini zenginleştirir. NLP modelinde iki yönlü bir elde etmek için, bağlam geri getirmenin anlamsal ifadesi göründüğü kadar kolay değildir. Çift yönlülükle ilgili en büyük zorluk, eğitim modelinde, kelimenin önceki ve sonraki kelimelerinin bağlam olarak basitçe kullanılamaması ve kelimenin dolaylı olarak çok katmanlı modelde "kendini" arayabilmesidir. Google BERT, bu zorluğun üstesinden gelmek için çok akıllı bir mimari kullanır.
BERT'nin model mimarisi, tensor2tensor kitaplığındaki ilkeye çok benzeyen çok katmanlı çift yönlü dönüşüm kod çözme üzerine kuruludur. BERT, diğer önceden eğitilmiş modeller OpenAI GPT veya ELMo'ya çok benzer bir ağ mimarisine sahiptir. Ancak, aşağıdaki şekilde gösterildiği gibi dönüştürücüler arasında iki yönlü bir bağlantı vardır.
BERT'nin en büyük katkısı, yukarıda belirtilen zorlukları çözmek için iki tekil denetimsiz tahmin görevinin kullanılmasıdır. Makale bağlamında kelimelerin "kendilerini tanımasını" mümkün kılar. BERT bu zorluğu çeşitli eğitim öncesi görevleri kullanarak çözer: tarama ve sonraki cümle tahmini. İlk ön işleme modeli, giriş kelimelerinin yaklaşık% 15'ini kapatır, tüm cümleyi derin iki yönlü dönüşüm kod çözme işleminde çalıştırır ve yalnızca kapatılan kelimeleri tahmin eder, örneğin:
İkinci ön işleme görevi, bütünlükte rastgele oluşturulan basit cümleler aracılığıyla cümleler arasındaki bağlantıları öğrenir. A ve B olmak üzere iki cümle verildiğinde, B, A'dan sonraki cümle mi? Yoksa B, külliyattan rastgele seçilen bir cümle mi?
Bu iki ön işleme görevinin kombinasyonu, BERT'nin neredeyse tüm NLP görevlerinde daha zengin, çift yönlü anlamsal ifadeler elde etmesini sağlar.
BERT'i kullanmanın iki aşaması vardır: ön eğitim ve ince ayar
Ön eğitim: oldukça pahalıdır (4 gün boyunca 4 ~ 16 bulut TPU üzerinde çalışır), ancak her dil için yalnızca bir kez çalıştırılması gerekir. Görevin zorluğunu hafifletmek için Google, NLP senaryolarında kullanılabilecek önceden eğitilmiş birkaç model yayınladı.
İnce ayar: Çok ucuzdur, kağıt üzerinde yapılabilecek tüm işler bir bulut TPU ile bir saat içinde tamamlanabilir veya GPU'yu kullanmak birkaç saat sürer. Önceden eğitilmiş aynı modelle başlayın.
Google, diğer mükemmel NLP sistemleri için karşılaştırma ölçütü olarak BERT'yi kullanır ve dikkate değer sonuçlar elde etmiştir. En önemlisi, BERT ile elde edilen tüm sonuçların, göreve göre sinir ağının yapısını değiştirmesine gerek olmamasıdır. SQuAD v1.1'de BERT, önceki modelin% 91,6'sını ve manuel çevirinin% 91,2'sini aşarak% 93,2'lik bir F1 skoru (doğruluk hesaplama puanı) elde etti.
BERT ayrıca, dokuz tür doğal dil anlama (NLU) set görevi olan GLUE kıyaslamasının% 7.6'sını geliştirdi.
Dil modellerinin göç öğrenimi, son zamanlarda çok sayıda deneysel gelişme getirmiştir ve bu da çok sayıda denetimsiz ön eğitim modelinin birçok dil anlama sisteminin önemli bir parçası olduğunu göstermektedir. BERT, NLP ön işleme modelinde iki yönlü, bağlamsal dil ifadesi elde etmenin mümkün olduğunu göstermektedir. BERT'nin TensorFlow'daki mevcut uygulaması, geliştiricilerin yönetilebilir hesaplama maliyetlerini korurken bu en son teknolojiyi NLP senaryolarına uygulamalarına olanak tanır. Lei Feng Ağı Lei Feng Ağı Lei Feng Ağı
Bu makalenin ilgili bağlantılarını ve referanslarını görüntülemeye devam etmek ister misiniz?
Bağlantıya uzun basın ve açmak için tıklayın:
AI Araştırma Enstitüsü heyecan verici içerikleri günlük olarak günceller, daha heyecan verici içerikler izleyin:
Çevirmenizi bekliyorum: