Wen Xiaoyuan: "Dokuz Şarkı" - Derin Öğrenmeye Dayalı Çin Klasik Şiirinin Otomatik Nesil Sistemi

AI Technology Base Camp tarafından yetkilendirildi (ID: rgznai100)

Bu makale var 2714 Kelimeler, önerilen okuma 6 dakika.

Bu makale size Tsinghua Doğal Dil İşleme ve Sosyal Beşeri Bilimler Hesaplama Laboratuvarı - "Dokuz Şarkı" ve bununla ilgili teknik yöntem ve makalelerin otomatik şiir kompozisyon sistemini tanıtır.

Son yıllarda, yapay zeka ile edebiyat ve sanatın entegrasyonu giderek daha yakın hale geldi.Alektrikli otomatik boyama ve otomatik kompozisyon, araştırma noktaları haline geldi. Otomatik şiir üretimi ilginç ve zorlu bir görevdir. Bu açık sınıfta konuşmacı, Tsinghua Doğal Dil İşleme ve Sosyal Beşeri Bilimler Hesaplama Laboratuvarı'nın otomatik şiir oluşturma sistemini, "Dokuz Şarkı" ve ilgili teknik yöntemleri ve makaleleri tanıtacak.

Konuk paylaşma:

Yani Xiaoyuan, Tsinghua Üniversitesi Bilgisayar Bilimleri Bölümü, yüksek lisans eğitimi alıyor ve danışmanı, Profesör Maosong Sun. Esas olarak doğal dil işleme ve metin oluşturma araştırmalarıyla meşgul. Araştırma çalışmaları IJCAI, CoNLL, EMNLP gibi konferanslarda yayınlandı.

Açık sınıf oynatma adresi:

Tema paylaşımı: "Dokuz Şarkı" - Çin klasik şiirinin derin öğrenmeye dayalı otomatik oluşturma sistemi

Ana hatları paylaşın:

  • Görev geçmişi ve "Jiu Ge" şiir sistemine giriş
  • Belirginlik bağlam mekanizmasına dayalı şiir üretimi
  • Çalışma Belleği Modeline Dayalı Şiir Üretimi
  • Karşılıklı Bilgiye Dayalı Denetimsiz Şiir Üretimi

Paylaşım içeriğini şu şekilde düzenliyoruz:

Yapay zeka kavramı öne sürüldükten kısa bir süre sonra birçok bilim insanı yapay zekayı günlük yaşamla bütünleştirmeye çalıştı. NLP alanında, makine çevirisi, uzman sistemler ve diyalog sistemlerine aşinayız. Şiir, insan dilinin oldukça yoğunlaştırılmış ve son derece sanatsal bir düzenlemesidir. Birkaç on yıl önce, bilim adamları AI'ya şiir yaratma yeteneği vermeye çalıştılar.

Otomatik şiir üretimi ile ilgili olarak, uygulamalarımız esas olarak aşağıdakilere yansır:

  • Eğlence sahnesi İnsanlar duygularını şiirsel bir şekilde kolaylıkla ifade edebilirler;
  • Şiir Eğitimi Şiirdeki anahtar kelimelerin, imgelerin, kafiye ve diğer öğelerin şiirde nasıl işlediğini anlayın.
  • Edebiyat çalışmaları Deneyde kelime frekansı ve imge arasındaki ilişkinin keşfi edebi araştırmalara ilham verebilir.
  • Diğer metin türlerinin oluşturulmasına ilham verin (Sözler, romanlar ...).

Şiir, son derece özlü biçim, özlülük, güçlü ritim duygusu ve zengin anlambilim ile karakterize edilir.Bu nedenle, otomatik analiz, anlayış ve metin oluşturma için ideal bir giriş noktası olduğuna inanıyoruz.

Otomatik şiirlerin üretilmesiyle ilgili olarak, sektördeki araştırmalar üç aşamadan geçti:

Laboratuvarımız bunu 2016'nın başlarında yapmaya başladı. Jiuge sistemimiz en son derin öğrenme teknolojisini kullanıyor, şiir üretimi için özel olarak tasarlanmış çok sayıda farklı modeli birleştiriyor ve 300.000'den fazla şiire dayalı olarak eğitiyor ve öğreniyor. Antoloji şiirleri, dörtlükler, Tibet baş şiirleri ve Song Ci gibi farklı türlerde şiirler üretebilir.

Aşağıda size Jiuge sisteminin arkasındaki birkaç önemli modeli tanıtacağım:

Belirginlik bağlam mekanizmasına dayalı şiir üretimi

İlk model "belirginlik bağlam mekanizmasına dayalı şiir üretimi" olarak adlandırılır. Bundan önce, Çin klasik şiirinin otomatik üretimi üzerine yapılan bazı çalışmalar, önemli ölçüde yenilik, ritim ve anahtar kelime eklemeyi geliştirdi, ancak bağlam içinde Hala eksiklikler var. İlk deneylerde, bunun aynı zamanda otomatik şiir üretme sisteminin kusurlu parçası olduğunu gördük.

Bu şiiri örnek alırsak anahtar kelime olarak ağırlıklı olarak "bahar esintisi" kullanır. 2016'da belli bir model üzerinden ürettikten sonra, bağlamsal tutarlılığın çok zayıf olduğunu gördük. Açıkçası, ilk iki cümle daha barışçıl bir manzarayı anlatıyor, ancak son iki cümle birdenbire daha acıklı bir sınır stiline dönüşüyor. Başka bir deyişle, ilk yarının ve ikinci yarının teması, stili ve içeriği tamamen tutarsızdır ve ortada gerekli bir geçiş yoktur ve alaka zayıftır.

Modelin neden bu tür sorunları var? Bunun, önceki modelin iki mantıksız varsayımı olmasından kaynaklandığını düşünüyoruz.

Birincisi, bir şiir üretme sürecinde, tarihsel bilginin tek bir tarihsel vektör tarafından saklanıp kullanılabileceğidir.

Basitçe ifade etmek gerekirse, bir şiir her oluşturulduğunda, bu şiirin cümle vektörü tarih vektörüne sıkıştırılır ve bu şekilde tarih vektörü sürekli olarak güncellenir ve şiir üretilir.

Bu varsayım birçok sorunu beraberinde getirir:

  • Tek bir vektörün kapasitesi yüksek değildir ve çok sayıda cümle ve anlambilim korunamaz.
  • Daha iyi anlambilimli sözcükler ve açık anlambilim içermeyen sözcükler (durdurma sözcükleri vb.) Birbirine karıştırılır.

İkinci mantıksız varsayım, seq2seq mekanizmasının sonsuz uzunluktaki bir tarihsel diziden tarihsel bilgileri keşfedip kullanabileceğidir.

Bu varsayımın avantajı, tarihsel bilgilerin ayırt edici olarak seçilebilmesi ve işlev kelimelerinin göz ardı edilebilmesidir. Bununla birlikte, takip eden sorun, bir şiirde çok fazla cümle olduğunda, örneğin bir Şarkı Ci'nin on beşinci cümlesinde olduğu gibi, o zaman önceki on dört cümlenin girdi olarak uzun bir diziye hecelenmesi gerektiğidir. Performansta önemli bir düşüşe neden olur.

Yukarıda bahsedilen iki konuya yanıt olarak, daha iyi bağlam yakalama elde etmek için göze çarpan ipucu mekanizmasını önerdik. İç tasarım mantığımız, cümledeki işlev sözcükleri, durdurma sözcükleri vb. Gibi anlamsal performansı zayıf olan bölümleri görmezden gelmek ve aşağıdakilerin oluşturulmasına rehberlik edecek tarihsel vektörü oluşturmak için net anlamsal parçalar seçmektir.

Dikkat çekici ipucu mekanizmasının çalışma prensibi hakkında daha fazla bilgi için lütfen videoyu 00:13:25:

İster otomatik değerlendirmede ister manuel değerlendirmede olsun, sonuçlarımız önceki modele kıyasla önemli ölçüde iyileştirildi.

El ile değerlendirme bölümünde, stil eklenmiş şiir "şiirsel" bağlantıda zayıf performans gösteriyor çünkü üslubu kontrol etmeye zorlandıktan sonra son kelime çeşitliliği de daha kötü hale gelecektir.

Solda, stillerin manuel olarak değerlendirilmesi için tanıma matrisi var. Köşegen üzerindeki sayı ne kadar büyükse stil kontrolümüzün doğruluğu o kadar yüksek. Sonuçlarımızın% 70 ile% 90 arasında olduğunu görebiliriz. Sağda başka bir manuel değerlendirme sonucu var.Amaç model tarafından seçilen karakterlerin güvenilir olup olmadığını kontrol etmektir.Bazı uzmanları karakterleri manuel olarak seçmeye ve modelle karşılaştırmaya davet ettik.Sonuçlar çakışma oranının% 50 civarında olduğunu gösteriyor ki bu önemli bir gelişme. .

Model nispeten basit olduğu için pek çok sorun var:

  • Sözcük seçimi kördür;
  • Şiirin akıcılığı ve şiirsel karakteri etkilenir.
Çalışma Belleği Modeline Dayalı Şiir Üretimi

Bu model, bilişsel psikoloji ilkesine dayanmaktadır - "çalışma belleği".

İnsanlar ne tür makalelerin tutarlı olduğunu düşünüyor? Okuyucu yeni bir cümle okuduğunda, cümle okuyucunun çalışma belleğinde depolanan içerikle veya makalenin konusu ve genel fikirle ilgili olabilirse, okuyucu yeni okunan cümlenin yukarıdakiyle tutarlı olduğunu düşünür. .

Bunun ışığında, üç farklı Bellek türünden oluşan "çalışan bellek modeli" ni önerdik:

1. Konu Belleği

Birden fazla anahtar kelimenin girişini destekler ve kullanıcı tarafından girilen kelimeler modelde ayrı ayrı saklanabilir.Buradaki ana rol şiirin genel temasını sınırlamaktır. Bağımsız olarak kaydedildiği için, çok kullanıcı dostu bir davranış olan anahtar kelimelerin giriş sırasına gerek yoktur.

2. Geçmiş Belleği

Daha önce bahsedilen göze çarpan ipucu mekanizmasına benzer.

Üç, Yerel Hafıza

Esasen şiirin önceki cümlesini saklayın, çünkü Çin klasik şiirlerinin bitişik cümleleri genellikle çok güçlü bir alaka sahiptir.

Çalışan bellek modelinin çalışma mekanizması hakkında daha fazla bilgi için lütfen 00:27:25 adresindeki videoyu inceleyin:

Deneylerimiz kafiye şiirler, şarkı sözleri ve sözler üretti.Farklı modellerle karşılaştırıldığında, deneysel sonuçlar büyük ölçüde gelişti.

Bu bir şaşkınlık grafiğidir, dikey eksen şaşkınlıktır, yatay eksen şiirdeki cümle sayısıdır ve farklı renkteki çizgiler Tarih Belleği yuvalarının sayısını gösterir.

Bir şiirdeki cümle sayısı ne kadar fazla olursa, genel şaşkınlık o kadar büyük olur, çünkü cümle sayısı ne kadar fazlaysa, bağlamsal alaka düzeyini doğrulamak o kadar zor olur ve bu da daha fazla belirsizlikle sonuçlanır. Aynı zamanda, Geçmiş Belleğindeki yuvaların sayısı arttıkça, kafa karışıklığının ve belirsizliğin de azaldığını gördük.

Modelin başarısı, kelimelerin okunabilirliğini ve ifade esnekliğini geliştirmede yatmaktadır.

Karşılıklı Bilgiye Dayalı Denetimsiz Şiir Üretimi

İlk makalenin çalışmasındaki stil kontrolü sorununa cevaben, başka bir "karşılıklı bilgiye dayalı denetimsiz stil" çalışması yaptık. Hepimizin bildiği gibi, Çin kadim şiirlerinin farklı üslup ifadeleri vardır ve en çok temsil eden üç şiir: sınır kalesi, yatak odası ve manzara ve pastoraldir.

Modelimizin aşağıdaki gereksinimleri karşılayabileceğini umuyoruz:

  • Bir anahtar kelime verildiğinde, farklı şiir stilleri oluşturulabilir.
  • Bu işlev, denetimsiz bir şekilde elde edilir.
  • Üretilen şiir, diğer göstergelerde (akıcılık, tutarlılık ...) en aza indirir veya hiç kaybı olmaz.
Denetimsiz stil oluşturma modelinin çalışma mekanizması hakkında daha fazla bilgi için lütfen 00:36:17 adresindeki videoya tekrar bakın:

Deneyde 10 farklı stil belirledik, her stil bir dizi şiir üretiyor ve son olarak şiirlerin kelime sıklığını sayıyoruz.

Sağda, insan değerlendirmesinin sonucudur. Köşegen ne kadar belirgin olursa, stilin tanınma oranı o kadar yüksek olur. Yüksek tanınma oranı, deney sonuçlarının çok iyi olduğunu gösteren on şiir stili üreterek elde edilebilir.

Yukarıdakiler, üretilen şiirlerin bazı örnekleridir.

Son olarak, herkes sistemimizi deneyebilir ve bize değerli yorumlar verebilir.Gelecekte sizin geri bildirimlerinize göre sistemimizi geliştirmeye devam edeceğiz.

Sistem adresi: https://jiuge.thunlp.cn//
Daha önce görmediğiniz dünyadaki East Lake fotoğraflarını çekin ve "East Lake" şehir tanıtım videosu "Wuhan Moments"
önceki
Başka bir aile mi yönetiyorsunuz? Chengdu Jiuding Risheng Dekorasyon milyonlarca proje ödemesine sahip ve patron iletişimi kaybediyor!
Sonraki
Özel Size bir veri bilimi projesini nasıl organize edeceğinizi öğretin! (Kod ile)
La Liga-Deulofeu 2 gol attı, Barcelona 2-0, Bale suları geçti ve Real Madrid'i 3-0 boyadı
MIT Technology Review'un 2017 dünyadaki en iyi on çığır açan teknoloji listesi
Gizemli sanat tarzı oyun "Grace" çıkış tarihini tamamladı, yeni fragman son derece güzel
Rapor-Alonso 2 gol Chelsea 2-1 Tottenham Neymar 2 şut 2 pas Paris 6-2
Sinir sistemini atlayan beyin doğrudan vücuda komut verir
Yarı çıplak çocuğu olan bir İngiliz adam bir süpermarkette çalındı ve gözetim altında yakalandı.
Özel Görsel nöronları modellemek için evrişimli sinir ağlarını kullanmayı öğretin (kaynaklarla)
Süper Lig'den ayrıldıktan sonra, Hengda Kore dış yardımı, 34 yaşından önce emekli olduğunu açıkladı!
Serie A-Milan'ın ikisi de 3-0 açılış, Icardi çift atış, Coutrone şut kazandı
59 yılda buzda hayatını kaybeden üç dağcı nihayet eve döndü. 81 yaşındaki takım arkadaşı: bu bir rahatlama
Kuru ürünler Python programcılarının röportaj yapması gereken 59 genel sorunun yanıtları ve analizi!
To Top