g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Uçtan uca diyalog modelinde yeni bir atılım! Facebook büyük ölçekli kişiselleştirilmiş konuşma veritabanı yayınladı

Yazarlar Pierre-Emmanuel Mazare vb.

Çevirmen Hao Yi

Düzenle Debra

Kaynak AI Frontline

AI Ön Cephe Kılavuzu: Chatbot, oldukça popüler bir yapay zeka sistemidir. Şu anda, çoğu sohbet robotu, özellikle aktif yeniden ayarlama stratejileri olmadan eğitilmiş uçtan uca sistemlerde iyi bir şekilde bağlanmamıştır. Bazı araştırma sonuçları, uçtan uca diyalog modellerini eğitme sürecinde, modele "kişileştirmek" için bazı kişiselleştirilmiş arka plan hikayeleri eklemenin, modelin diyalog uyumunu etkili bir şekilde geliştirebileceğini göstermektedir. Ancak, bu kişiselleştirilmiş veritabanı yapay olarak sentezlenir ve yalnızca farklı kişiliklere sahip 1k karakter içerir. Bu eksikliğe yanıt olarak Facebook, farklı kişiliklere sahip beş milyondan fazla karakter ve yedi milyon karakter temelli diyalog içeren yeni bir diyalog veritabanı yayınladı. Çevirmen bu veri tabanına kısa bir giriş yaptı ve kişiselleştirilmiş diyalog sistemlerinin gelişimi üzerindeki etkisini tartıştı.

Arka fon

Sinir ağlarına dayalı uçtan uca bir diyalog sistemi, diyalog veritabanı üzerinde doğrudan eğitim için iki yönlü bir LSTM veya bir bellek ağı kullanan bir model gibi birçok durumda olağanüstü sonuçlar elde etti. Bu yöntemin temel avantajlarından biri, çok sayıda veri kaynağına dayalı olarak, modelin başka mesleki bilgi gerektirmeden çeşitli alanları kapsayan konuşmaları öğrenebilmesidir. Bununla birlikte, kısa vadeli diyalog bağlamında, bu modelin diyalog uyumu bariz kusurlara sahip olacaktır. Bu, tutarlı karakter özelliklerinin olmamasından ve aktif ayar stratejilerinin olmamasından kaynaklanmaktadır.

Bu sorunu çözmek için, Facebook AI Research'teki araştırmacılar, eğitim için PERSONA-CHAT adlı bir veritabanı kullandılar. Makale (https://arxiv.org/abs/1801.07243) NIPS2018'de yayınlandı. PERSON-CHAT veritabanı 160.000'den fazla diyalog içerir.Geleneksel diyalog veritabanlarından farklı olarak, değiştirilmiş veritabanı her bir nesneye, diyalog sürecindeki modelin tutarlılığını artırmaya yardımcı olacak somutlaştırılmış bir kişilik verir. Makalede, uçtan uca bir sistemi belirli bir kişilik ortamıyla sınırlamanın, sohbet botlarının diyalog tutarlılığını etkili bir şekilde iyileştirebileceğinden bahsediliyor. Bu, uçtan uca kişiselleştirilmiş sohbet robotlarını eğitmek için bir basamak haline geldi. Ancak, PERSONA-CHAT veritabanı, Mekanik Türk tabanlı bir sistem tarafından oluşturulan yapay bir veri setidir. Bu nedenle, ne diyalog içeriği ne de kişi sayısı gerçek kullanıcı-robot etkileşimi sahnesini kapsayamaz .. Veri seti sadece 1000'den fazla farklı kişiyi içerir.

Fackbook araştırmacıları, PERSONA-CHAT'ın eksikliklerine yanıt olarak, karakter konuşmalarına dayalı geniş ölçekli bir veritabanı oluşturdu. Basit bir ön işlemden sonra, araştırmacılar 5 milyondan fazla kişiliğe sahip 700 milyondan fazla konuşmayı çözmek için REDDIT'ten (büyük bir sosyal haber sitesi) toplanan konuşmaları kullandılar. Araştırmacılar bu veri seti üzerinde eğitim aldılar ve PERSONA-CHAT üzerine eğitilen aynı yapı modelinden daha iyi sonuçlar elde ettiler. Ayrıca veri tabanı üzerinde önceden eğitilmiş olan PERSONA-CHAT modeli de güncel lider sonuçlara ulaşmıştır.

Milyon ölçekli kişiselleştirilmiş bir diyalog veritabanı oluşturun

Amacımız, çeşitli karakter rollerinde karakter temelli bir yanıt öğrenmektir. Bu noktadan sonra, aşağıdaki veritabanı biçimini oluşturmak için REDDIT'ten gelen verileri kullandık:

Roller:
Bağlam: "Koşmayı seviyorum."
Cevap: "Ben de! Ama sadece hafta sonları."

"Karakter", sohbet robotunun rolünün özelliklerini ifade edebilen bir dizi cümledir, "bağlam" yanıtlanması gereken cümleyi ve "yanıt" verilecek yanıttır. Bu, veritabanının temel biçimidir. Böyle bir veritabanı oluşturmak genellikle aşağıdaki adımları gerektirir:

Veri ön işleme: Bu adımın ana görevi orijinal cümleyi belirtmektir.İşlemden sonra, araştırmacılar 250.000'den fazla yaygın olarak kullanılan simge elde etmişlerdir.

Rol çıkarma: Aynı kullanıcıdan yorum toplayarak ve belirlenmiş kurallarla filtreleyerek, farklı kişiliklerin ve geçmişlerin "rolünü" ve "role" karşılık gelen "bağlam" ve "yanıt" ı elde edebilirsiniz. Spesifik kurallar, makalenin 3.2 bölümünde ayrıntılı olarak açıklanmıştır ve ilgilenen okuyucular bunları kendi başlarına okuyabilirler. Yukarıdaki örnekteki karakter, bu bölümün beklenen sonucudur, ancak bazen "yanıt" ın "rol" ile bariz bir uyuşması olmayabilir, çünkü aynı kullanıcı çelişkili açıklamalar yapabilir.

Veri kümesi oluşturma: Bir dizi örnek elde etmek için "bağlam" ve "yanıtı" birleştirin. "Cevap" a karşılık gelen karakter, ikinci adımdaki yöntemle çıkarılabilir. Daha sonra veritabanı rastgele eğitim seti, doğrulama seti ve test setine bölünür. Doğrulama seti ve test seti 50.000'den fazla numune seti içerir. Kişiyi çıkarmak için yalnızca eğitim seti için geçerlidir: Test setinin "yanıtı", belirli bir "role" açıkça dahil edilemez.

Uçtan uca diyalog modeli

Bu makale, bir diyalog sistemi kurmak için bir sonraki söylence geri çağırma yöntemini kullanır.Dil erişim yöntemi, oluşturulan bir yöntem aracılığıyla bir yanıt almaktan ziyade, diyaloğa yanıt olarak bir dizi aday cümleden en iyi cümleyi seçmeyi ifade eder.

1. Ağ yapısı

Şekil 1: Persona tabanlı ağ mimarisi

Modelin çerçevesi Şekil 1'de gösterilmektedir. Makale, karakterleri ve bağlamı kodlamak için iki ayrı modül kullanır ve daha sonra ortak bir temsil elde etmek için kodlama sonuçlarını birleştirmek için 1 sekmeli bellek ağı ve artık öğrenme yöntemlerini kullanır. PERSONA-CHAT makalesine referansla, bu makalenin yazarı, aday yanıtları kodlamak için benzer bir yöntem kullandı ve yukarıdaki ortak gösterimle nokta çarpımını hesapladı. Beklenen yanıt, iç çarpımı maksimize eden aday cümle olmalıdır.

Eğitim süreci, iç çarpımın etkisini sınırlandırmak ve doğru yanıtın log-olabilirlik oranını maksimize etmek için softmax sınıflandırıcısını kullanır. Eğitim sürecinde, bir örneklem için, diğer örneklemlerin yanıtları da modelin genelleme yeteneğini geliştirmek için eğitim için negatif örnekler olarak kullanılır.

2. Bağlam ve yanıt kodlayıcı

Bağlam ve yanıt kodlayıcıları aynı ağ yapısını ve kelime yerleştirmeyi kullanır, ancak farklı ağırlıklar kullanır. Bu makalenin yazarı, bağlam ve yanıt kodlayıcısının yapısı olarak aşağıdaki üç farklı kodlayıcı yapısını kullanır:

Kelime torbası: Giriş cümlesini yerleştirmek için iki doğrusal eşleme kullanın ve ardından tüm kodlanmış gösterimleri bir cümlede toplayın ve sqrt (n) 'ye bölün; burada n cümlenin uzunluğudur (Çevirmenin Notu: Normalleştirme süreci olarak anlaşılabilir).
LSTM: İki katmanlı çift yönlü bir LSTM ağı kullanın ve son gizli katmanın çıktısını kodlanmış bir cümle olarak değerlendirin.
Transformatör: Bu yapı, Vaswani ve arkadaşları tarafından 2017'de önerilen uçtan uca bir bellek ağıdır. Öz dikkat mekanizmasına dayalı olarak, dil erişim görevinde (bir sonraki ifadenin alınması) önde gelen sonuçlar elde etmiştir. Bu makale, ağın yalnızca kodlayıcı kısmını kullanır ve ardından sabit boyutlu bir temsil elde etmek için onu normalleştirir.

3. Karakter kodlayıcı

Her karakter için, karakter kodlayıcı ayrı ayrı kodlayacaktır. Bağlam kodlayıcı ile aynı kelime gömme yöntemini kullanır. Sonra bu cümledeki tüm kodları özetleyin. Her karakter için eğitim için farklı bir kodlayıcı gerektiğinden, bu makalenin yazarı özellikle karakter kodlayıcı olarak daha basit bir kodlayıcı yapısı seçmiştir. Bunun nedeni, bir mini partide, karakter kodlayıcıların sayısının, diğer kodlayıcıların sayısından daha büyük bir büyüklük sırası olmasıdır. Dahası, persona verilerinin çoğu kısa cümlelerdir, bu nedenle yazar kelime torbası temsilini doğrudan kodlama temsili olarak kullanır.

Deneysel bölüm

Yukarıdaki kodlayıcı için, bu makalenin yazarı, öğrenme oranının 8e-4 ve mini grup boyutunun 512 olduğu ağı optimize etmek için Adamax'ı kullanıyor. Aynı zamanda bu makale, eğitim sürecinde onu başlatmak ve optimize etmek için FastText kelime vektörünü kullanır. Diğer özel eğitim parametreleri için orijinal İngilizce metni okuyabilirsiniz.

1. Persona bilgisinin etkisi

Reddit görevindeki sonuçlar, bu makale deneyler yapmak için farklı yapılar kullanır, sonuçlar aşağıdaki tabloda gösterilmektedir:

Üç farklı kodlayıcı yapısı için persona bilgilerinin eklenmesinin, erişim doğruluğunu etkili bir şekilde artırabileceği görülebilir. Şekil 2, eğitilmiş modelin sonuçlarının bir kısmının bir örneğidir Chatbot sisteminin verdiği cevapların temelde kişiselleştirilmiş karakter özelliklerine uygun olduğu görülmektedir.

Şekil 2: En iyi modelin tahmin sonuçları.

Tüm senaryolardaki karakter tek bir cümleden oluşur ve yanıt, eğitim setinden rastgele seçilen 1 milyon aday cümleden alınan 10 jeton içeren kısa bir cümle ile sınırlıdır.

2. Öğrenimi aktarın

Bu makale, geçiş öğrenimi için PERSONA-CHAT ve REDDIT kullanmanın etkilerini karşılaştırmaktadır. Deneysel sonuçlar aşağıdaki tabloda gösterilmektedir:

POERSONA-CHAT veri tabanında eğitilen modelin REDDIT veri tabanında doğrudan zayıf bir doğrulama etkisine sahip olduğu, REDDIT veri tabanında eğitilen modelin ise PERSONA-CHAT veri setinde iyi sonuçlar gösterebileceği görülmektedir. Tablodaki FT-PC şu anlama gelir: REDDIT veritabanı üzerinde eğitim ve PERSONA-CHAT'te ince ayar. REDDIT tarafından önceden eğitilmiş modeli PERSONA-CHAT veri tabanına taşımanın etkisinin, doğrudan eğitimin PERSONA-CHAT üzerindeki etkisinden çok daha iyi olduğu görülebilir.

Orijinal İngilizce kağıt:

https://arxiv.org/pdf/1809.01984.pdf

Rap çemberindeki kutsal yumurta kalesi nerede?

O en saf müzik Çinli kadın rap şarkıcısı, sosisli sandviç rap dünyasında ona Teresa Teng diyor