Doğal dil üretiminin evrimini anlamak için bir makale!

Doğal Dil Üretimi (NLG), bilgi tabanları veya mantıksal formlar gibi makine temsil sistemlerinden doğal dil üreten doğal dil işlemenin bir parçasıdır. Aslında doğal dil üretimi uzun zamandır var ve 71 yıl oldu. 1948 gibi erken bir tarihte, Shannon, dilleri tanımlayan otomatik verilere ayrı Markov süreçlerinin olasılık modelini uyguladı. Ancak ticari doğal dil üretme teknolojisi, ancak son zamanlarda popüler hale geldi. Ama doğal dil oluşumunun evrimini anlıyor musunuz?

Bilim kurgu filmlerinin doğuşundan bu yana, toplum yapay zeka tarafından büyülendi. "Yapay zeka" kelimesini duyduğumuzda, aklımıza gelen şey genellikle bilim kurgu filmlerindekiler gibi "Terminatör" ("Terminatör"), "Matrix" ("Matrix") gibi fütüristik robotlardır. ) Ve "Ben, Robot" ("Ben, Robot") vb.

Bağımsız düşünebilen robotlardan hala birkaç yıl uzakta olsak da, son birkaç yılda makine öğrenimi ve doğal dil anlama alanında önemli ilerlemeler kaydedildi. Kişisel asistanlar (Siri / Alexa), sohbet botları ve Soru-Cevap botları gibi uygulamalar, makinelerle etkileşim şeklimizde gerçekten devrim yaratıyor ve günlük hayatımıza girmeye başlıyor.

Doğal Dil Anlama (NLU) ve Doğal Dil Üretimi (NLG), yapay zekanın en hızlı büyüyen uygulamalarından biridir, çünkü insanlar giderek daha fazla anlamaya ve dilden anlam çıkarmaya ihtiyaç duymaktadır. Karakteristik, birçok belirsizlik ve çeşitli yapıların olmasıdır. Gartner'a göre, "2019'a kadar doğal dil üretimi, modern iş zekası ve analitik platformlarının% 90'ının standart bir özelliği olacak." Bu yazıda, kurulduğu andaki doğal dil oluşumunun kısa bir tarihini ve önümüzdeki birkaç yıl içindeki gelişim yönünü tartışacağız.

Doğal dil üretimi nedir?

Dil oluşturmanın amacı, bir cümledeki sonraki kelimeyi tahmin ederek bilgiyi iletmektir. Hangi kelimenin tahmin edilebileceği problemi (milyonlarca olasılık arasında) bir dil modeli kullanılarak çözülebilir Dil modeli, bir kelime dizisinin olasılık dağılımıdır. Dil modelleri karakter düzeyinde, n-gram düzeyinde, cümle düzeyinde ve hatta paragraf düzeyinde oluşturulabilir. Örneğin, tahmin etmek Nasıl yapılacağını öğrenmem gerekiyor __ Bir sonraki kelimeden sonra, model bir sonraki olası kelime kümesine bir olasılık atar ve yazmak , sürücü ve daha fazlası. Sinir ağlarının en son gelişimi (tekrarlayan sinir ağları ve uzun süreli kısa süreli bellek ağları gibi), uzun cümleleri işlemeyi mümkün kılar ve bu da dil modellerinin doğruluğunu önemli ölçüde artırır.

Markov zinciri

Markov zinciri, dil üretimi için en eski algoritmalardan biridir. Sadece cümledeki bir sonraki kelimeyi tahmin etmek için mevcut kelimeyi kullanırlar. Örneğin, model eğitim için yalnızca aşağıdaki cümleleri uygularsa: Sabah kahve içerim ile Sanwiches'i çay ile yerim , Sonra tahmin eder Kahve Takip edecek İçmek Olasılık% 100 ve ben Takip et İçmek Olasılık% 50, takip edin yemek Olasılık da% 50'dir. Markov zinciri, bir sonraki kelimenin olasılığını hesaplamak için her benzersiz kelime arasındaki ilişkiyi dikkate alır. Akıllı telefon giriş yöntemlerinin önceki sürümlerinde, bir cümledeki sonraki sözcük için öneriler üretmek için Markov zincirleri kullanıldı.

Bununla birlikte, Markov modeli yalnızca mevcut kelimeye odaklandığından, cümledeki önceki kelimelerin tüm bağlamını ve yapısını kaybedecek, bu da yanlış tahminlere yol açarak birçok nesil senaryosunda uygulanabilirliklerini sınırlandırabilir. .

Tekrarlayan Sinir Ağı (RNN)

Sinir ağları, insan beyninin işleyişinden ilham alan modellerdir.Girdi ve çıktı arasındaki doğrusal olmayan ilişkiyi modelleyerek başka bir hesaplama yöntemi sağlarlar.Dil modellemedeki uygulamalarına sinir dili denir. Modelleme.

Tekrarlayan bir sinir ağı, girdinin sıralı doğasından yararlanabilen bir sinir ağıdır. Sıranın her bir öğesini ileri besleme ağından geçirir ve dizideki sonraki öğenin girdisi olarak modelin çıktısını kullanır, böylece önceki adımlardan gelen bilgilerin depolanmasına izin verir. Tekrarlayan sinir ağlarının tüm "hafıza" yetenekleri, onları dil üretimi için çok uygun kılar çünkü zaman içinde bir konuşmanın içeriğini hatırlayabilirler. Tekrarlayan sinir ağları ile Markov zincirleri arasındaki fark, tahmin yapmak için daha önce görülen kelimeleri de gözlemlemeleri (Markov zincirleri sadece önceki kelimeleri gözlemlerken).

Dil üretimi için tekrarlayan sinir ağı

Tekrarlayan sinir ağının her yinelemesinde, model önceden karşılaşılan kelimeleri hafızada saklar ve bir sonraki kelimenin olasılığını hesaplar. Örneğin, model metin oluşturuyorsa Bir __ kiralamalıyız , O halde şimdi cümledeki bir sonraki kelimeyi hesaplaması gerekir. Sözlükteki her bir kelime için model, gördüğü önceki kelimeye göre bir olasılık atar. Örneğimizde, ev Veya araba Bu iki kelimenin olasılığı daha iyidir nehir veya akşam yemegi Bu tür sözler çok daha yüksektir. Ardından en yüksek olasılığa sahip kelimeyi seçin ve hafızaya kaydedin ve ardından model bir sonraki yinelemeye geçer.

Tekrarlayan sinir ağlarının büyük bir sınırlaması vardır: yok olan gradyanlar sorunu. Sıranın uzunluğu arttıkça, tekrarlayan sinir ağı, cümlenin çok gerisinde karşılaşılan kelimeleri saklayamaz ve yalnızca en yakın kelimelere göre tahminlerde bulunabilir. Bu, tutarlı görünen uzun cümleler oluşturmada tekrarlayan sinir ağlarının uygulanmasını sınırlar.

Uzun kısa süreli bellek ağı (LSTM)

Uzun ve kısa süreli bellek ağına dayanan sinir ağı, tekrarlayan sinir ağının bir çeşididir ve girdi dizisindeki uzun menzilli bağımlılıkları sıradan tekrarlayan sinir ağından daha doğru şekilde halledebilir. Çeşitli problemlerde kullanılırlar. Uzun ve kısa süreli bellek ağları, yinelenen sinir ağlarına benzer bir zincir yapısına sahiptir; ancak, yinelenen sinir ağları gibi tek katmanlı ağlar yerine dört katmanlı sinir ağlarından oluşurlar. Uzun kısa süreli bellek ağı dört bölümden oluşur: birim, giriş kapısı, çıkış geçidi ve unutma kapısı. Bu şekilde, tekrarlayan sinir ağı, birimin içindeki ve dışındaki bilgi akışını ayarlayarak herhangi bir zaman aralığında kelimeleri hatırlayabilir veya unutabilir.

Dil üretimi için uzun kısa süreli bellek ağı

Modele girdi olarak aşağıdaki cümleyi kullanın: Ben İspanya'lıyım. __ konusunda akıcıyım. Sonraki kelimeyi doğru tahmin etmek için İspanyol Model, ispanya Bir kelime ve "hatırlamak" için ünite hafızasını kullanın. Bu bilgi, sıra işlenirken birim tarafından saklanır ve daha sonra bir sonraki sözcüğü tahmin etmek için kullanılır. Bir dönemle karşılaşıldığında, unutma kapısı cümlenin bağlamının değişmiş olabileceğini ve mevcut birim durum bilgisinin göz ardı edilebileceğini anlayacaktır. Bu şekilde, ağ, gradyanların kaybolması sorununu en aza indirirken yalnızca ilgili bilgileri seçici olarak izleyebilir ve model bilgileri daha uzun bir süre hatırlayabilir.

Uzun-kısa süreli bellek ağı ve varyantları, tutarlı cümleler üretmek için gradyanı ortadan kaldırma probleminin cevabı gibi görünüyor. Bununla birlikte, önceki birimden mevcut birime hala karmaşık bir sıralı yol olduğundan, ne kadar bilginin kaydedilebileceği konusunda hala bir sınır vardır. Sonuç olarak, uzun ve kısa süreli bellek ağının hatırlayabildiği dizinin uzunluğu birkaç yüz kelimeyle sınırlıdır. Diğer bir eksiklik, yüksek hesaplama gereksinimleri nedeniyle, uzun ve kısa vadeli ağların eğitilmesinin zor olmasıdır. Sıralı yapıları nedeniyle paralelleştirilmeleri zordur, bu da modern bilgi işlem cihazlarını (GPU'lar, TPU'lar vb.) Kullanma yeteneklerini sınırlar.

Transformatör

Transformer ilk olarak, yeni bir "öz-dikkat mekanizması" yöntemi öneren "Tek İhtiyacınız Olan Dikkat" başlıklı Google makalesinde tanıtıldı. Transformer şu anda dil modelleme, makine çevirisi ve metin oluşturma gibi çeşitli doğal dil işleme görevlerinde yaygın olarak kullanılmaktadır. Transformatör, bir dizi kodlayıcı ve bir dizi kod çözücüden oluşur. İlki, herhangi bir uzunluktaki girişi işler ve ikincisi, oluşturulan cümleleri çıkarır.

Yukarıdaki örnekte, kodlayıcı giriş cümlesini işler ve onun için bir temsil oluşturur. Kod çözücü, kelime kelime çıktı cümleleri oluşturmak için bu gösterimi kullanır. Her kelimenin olay temsili / gömülmesi, doldurulmamış bir daire ile temsil edilir. Daha sonra model, her bir kelimenin yeni bir temsilini oluşturmak için diğer tüm kelimelerden gelen bilgileri toplamak için öz dikkati kullanır, dolu bir daire ile temsil edilir ve tüm bağlam tarafından bildirilir. Daha sonra bu adımı tüm kelimeler için paralel olarak birkaç kez tekrarlayın ve birbiri ardına yeni temsiller oluşturun. Benzer şekilde, kod çözücü soldan sağa her seferinde bir kelime üretir. Yalnızca daha önce oluşturulmuş diğer kelimelere değil, aynı zamanda kodlayıcı tarafından geliştirilen son gösterime de odaklanır.

Uzun-kısa süreli bellek ağlarının aksine, Transformer, öz-dikkat mekanizmalarını uygularken yalnızca küçük, sabit sayıda adım gerçekleştirir. Bu mekanizma, konumlarına bakılmaksızın, bir cümledeki tüm kelimeler arasındaki ilişkiyi doğrudan simüle eder. Model, giriş sırasındaki her kelimeyi işlediğinde, öz-dikkat mekanizması, modelin, kelimeleri daha iyi kodlamak için giriş sırasının diğer ilgili kısımlarını görüntülemesine izin verir. Sekanstaki mesafelerini dikkate almadan modelin farklı konumlara odaklanma yeteneğini genişletmek için birden fazla dikkat başlığı kullanır.

Son yıllarda, hızlarını ve doğruluğunu önemli ölçüde artıran ortak Transformer mimarisinde bazı iyileştirmeler yapıldı. 2018'de Google, çeşitli doğal dil işleme için en gelişmiş sonuçları üreten Transformer (BERT) çift yönlü kodlayıcı gösterimi üzerine bir makale yayınladı. Benzer şekilde, 2019'da OpenAI, yaklaşık 1,5 milyar parametreye sahip Transformer tabanlı bir dil modeli yayınladı ve yalnızca birkaç satırlık giriş metni uzun ve tutarlı bir makale oluşturabilir.

Dil üretimi için transformatör

Son zamanlarda Transformer, dil üretimi için de kullanıldı. En ünlü örneklerden biri OpenAI'nin GPT-2 dil modelidir. Model, bir sonraki kelimenin tahminiyle ilgili kelimelere odaklanarak bir cümledeki sonraki kelimeyi tahmin etmeyi öğrenir.

Transformer, makine çevirisine benzer bir yapıya dayalı olarak metin üretir. Bir örnek verirsek: Pembe, beyaz ve __ noktalı elbisesi. Model, bir sonraki kelimenin mavi olduğunu tahmin edecek Çünkü listedeki bir önceki kelimeyi öz-dikkat mekanizması ile renk olarak analiz eder ( beyaz ve pembe ) ve tahmin edilen kelimenin de bir renk olması gerektiğini anlayın. Öz dikkat, modelin, sadece yinelenen bloğun bazı özelliklerini hatırlamak yerine (tekrarlayan sinir ağlarında ve uzun-kısa süreli bellek ağlarında), her bir kelime için cümlenin farklı kısımlarına seçici olarak odaklanmasına izin verir. Birkaç blokta kullanılacaktır. Bu, modelin önceki cümlelerin daha fazla özelliğini hatırlamasına ve daha doğru ve tutarlı tahminler elde etmesine yardımcı olur. Önceki modelden farklı olarak, Transformer bağlamdaki tüm kelimelerin kimliğini, tüm bilgileri sabit uzunluklu bir temsile sıkıştırmadan kullanabilir. Bu mimari, Transformer'in hesaplama gereksinimlerini önemli ölçüde artırmadan bilgileri daha uzun cümlelerde tutmasını sağlar. Belirli alan değişiklikleri yapmalarına gerek yoktur, alanlar arası performans önceki modelden daha iyidir.

Dil üretiminin geleceği

Bu makalede, basit Markov zincirlerinin cümle oluşturmak için kullanımından, daha uzun tutarlı metinler oluşturmak için öz-dikkat mekanizmalarının kullanımına kadar dil üretiminin evrimini gördük. Bununla birlikte, üretken dil modellemesinin ilk günlerindeyiz ve Transformer, gerçekten özerk metin oluşturma yönünde yalnızca bir adımdır. Ek olarak, üretken modeller aynı zamanda görüntüler, video ve ses gibi başka içerik türleri de geliştirmektedir. Bu, ses / video arayüzlerine sahip gelişmiş kişisel asistanlar geliştirmek için bu modelleri üretken metin modelleriyle entegre etme olasılığını açar.

Bununla birlikte, bir toplum olarak, üretken modelleri dikkatli bir şekilde uygulamalıyız çünkü bunlar sahte haberler, sahte incelemeler oluşturmak ve çevrimiçi olarak başkalarının kimliğine bürünmek için birçok olasılık açarlar. OpenAI, kötüye kullanım korkusu nedeniyle GPT-2 modelini serbest bırakmamaya karar verdi. Bu, artık dil modellerinin dikkat çekecek kadar güçlü olduğu bir çağa girdiğimiz gerçeğini yansıtıyor.

Üretken modellerin hayatlarımızı değiştirmesi bekleniyor; ancak aynı zamanda iki ucu keskin kılıçtır. Araştırma kurumları veya hükümet denetimi aracılığıyla bu modelleri uygun şekilde gözden geçirmeliyiz. Önümüzdeki birkaç yıl içinde, bu alanda kesinlikle daha fazla ilerleme kaydedilecektir. Sonuç ne olursa olsun, geleceğe bakarken heyecan verici bir an olmalı!

Orijinal bağlantı:

https://medium.com/sfu-big-data/evolution-of-natural-language-generation-c5d7295d6517

2009 yılında "Mutlu Kızlar" sıralamasında 5. oldu. Payetli etek giyerken ve kıyafetleriyle oynarken kayıptı.
önceki
envanter! Boyu 170'in altında olan ve şiddetle hücum eden 4 ünlü badminton oyuncusundan biri hayatını kaybetti!
Sonraki
Zhang Xueying'in kısa saçları gerçekten çok güzel, bordo takım şortlar giyiyor, bere takmak daha sevimli ve sevimli.
Kuru ürünler! 1 makale size badmintonun İngilizce imzasını anlamayı öğretir, gerçek bir hayran olun!
Yang Yuying, beyaz bir takım elbise içinde profesyonel bir tarz giyiyor ve benekli hafif tül gömlek, yaşını anında 10 yıl azaltıyor
60 yıllık demir adam ruhunun mirası, vatan için savaşıyorum
11. tacı vur! Çin takımı, Su Kupası'nı 24 yıl önce ilk kez kazandı. Bu insanlar bunlar!
37 yaşındaki Wang Xinling çok hassas, puantiyeli fırfırlı bir elbise giyiyor ve Li Qin'den 8 yaş küçük.
Vipshop Kamuoyu İzleme Sistemi
34 yaşındaki karartılmış "saf cariye" bir hit oldu ve bugünün eteği 10 kilo daha şişman, gerçekten güçlü
12 yaşındaki badminton güzelliği popüler oldu! Güzel görünümlü ve güçlü 6 Taylandlı oyuncu, kaç kişiyi tanıyorsunuz?
Shanghai Jiuye, HBase'e dayalı gerçek zamanlı veri ambarını araştırıyor ve uyguluyor
Mayıs ayından itibaren, kamu transferi, sosyal güvenlik, katma değer vergisi, vergi onayı ve kurumlar vergisi ile ilgili yeni düzenlemeleri sıkı bir şekilde araştıracağız!
220.000 hissedar "gök gürültüsüne bastı" ve bazı insanlar tüm net değerlerine bahse giriyor! Kangmei'nin patronu özür diledi ve 30 milyar "bir gecede buharlaşmaya" karşılık verdi
To Top