NAACL19 | Denetimsiz Tekrarlayan Sinir Ağı Dilbilgisi (URNNG)

AI Technology Review Press, Bu makalenin yazarı Wei Yang, bu makale ilk olarak Zhihu Doğal Dil İşleme ve Derin Öğrenme sütununda yayınlandı ve AI Technology Review yeniden basılması için yetkilendirildi.

Wei Yang ana sayfayı biliyor:

https://www.zhihu.com/people/godweiyang/posts

Sütun adresini bilin:

https://zhuanlan.zhihu.com/godweiyang

Makale: Unsupervised Recurrent Neural Network Grammars

Kağıt adresi:

github kod adresi:

https://github.com/harvardnlp/urnng

Giriş

Bu, denetimsiz yinelenen sinir ağı grameri (URNNG) üzerine yeni bir NAACL19 makalesidir. Dil modeli ve denetimsiz bileşen sözdizimi analizinde, esas olarak varyasyonel muhakeme ve RNNG kullanarak çok iyi sonuçlar elde etmiştir. Bu makalede çok sayıda formül var, bu yüzden uzun süredir bastırıyorum ve birçok algoritma var. Öncelikle, türetdiğim formüle bir not alalım:

Blogum yazıların sırasına uymayacak, sadece anladığımı açıklamak için yukarıdaki notumu takip edin, birçok ayrıntı göz ardı edilebilir, lütfen orijinal metne bakın.

Her şeyden önce, denetimsiz bileşen sözdizimsel analizi için normal yol üretken bir model öğrenmektir.

Örneğin, RNNG üretici bir modeldir, ancak sözdizimi ağacının z denetim sinyallerinin eksikliği ne olacak? Şimdi sizin için girdi sadece x cümlesidir, o zaman sadece dil modelini kullanabilirsiniz

Denetlemeye gelin. Geleneksel olarak, logaritma almayı severiz, yani:

Burada birkaç problem var: Örneğin, z'nin durum uzayı hepsini listelemek için çok büyük, bu yüzden sonraki adım bunların nasıl çözüleceğini açıklamaktır.

URNNG modeli

Herkese genel model hakkında genel bir fikir vermek için modelin bir resmini çekelim:

Solda, x girdisine dayalı olarak sözdizimi ağacı z olan gizli değişkenin olasılık dağılımını çıkarmak için kullanılan bir Çıkarım Ağı vardır.

. Sağda, çıkarım ağından örneklenen sözdizimsel ağacın z ortak olasılığını hesaplamak ve son olarak yukarıdaki dil modeline göre cümlenin olasılığını hesaplamak ve bu olasılığı maksimize etmek için kullanılan bir Üretken Model vardır.

Sonra, bu iki bölümü ve belirli optimizasyon yöntemlerini ayrı ayrı açıklayın.

Kelime vektör

Ve pozisyon vektörü

Çıkarım ağı LSTM'nin girişi olarak ekleme:

Sonra hesapla

Puan, öncekiyle aynı şekilde hesaplanır, farkı yaratmak için BiLSTM ileri ve geri çıktı kullanılır ve ardından puanı ileri beslemeli bir sinir ağı aracılığıyla alınır:

Sonra, sözdizimi ağacının olasılık dağılımını hesaplamamız gerekiyor.Burada sözdizimi ağacını doğrudan hesaplamıyoruz, ancak bitişik matrisi B'nin olasılık dağılımını hesaplıyoruz. Bu bitişik matris, eğer varsa, o zaman

değilse

. Ardından, bitişik matris B'ye karşılık gelen olasılığı hesaplamak için CRF'yi kullanabilirsiniz:

onların arasında

Olasılığı 0 ile 1 arasına düşürmek için kullanılan bölümleme işlevi:

Buraya dikkat et

Tüm 01 matrisleri ayarlanmamıştır, ancak yasal bir sözdizimsel ağaç üretebilecek matrisi karşılamalıdır. Pek çok durum vardır ve ayrıntılı olarak çözülemez. Burada, bölümleme işlevini çözmek için klasik iç algoritma kullanılır:

Ama bunun yanlış olduğunu düşünüyorum! Burada iki yer var

Olarak değiştirilmelidir

. Ancak, spesifik kod uygulandığında bunu yapmadı. Başlangıç değerleri aynı

, Ancak özyinelemede aşağıdaki formül kullanılır:

Aslında kullan

Bunun yerine, basitleştirmeden sonra kod, sayısal taşmayı önlemek için olması gereken bu formülü uygular.

Sonra örneklemedir Çıkarım ağının amacı, sözdizimi ağacının olasılık dağılımını hesaplamak ve sonra bu dağılıma dayalı olarak birkaç sözdizimi ağacını örneklemektir.Şimdi, bir sözdizimi ağacı verildiğinde, olasılık yukarıdaki algoritmaya göre hesaplanabilir. Nasıl numune alınır? Aslında, az önce hesaplanan diziden yine de örnekleyebilirsiniz. Örnekleme algoritması aşağıdaki gibidir:

Aslında, yukarıdan aşağıya olasılık dağılımına dayalı olarak her bir aralığın bölünmesini örneklemek, henüz örneklenmemiş tüm aralıkları depolamak için bir sıra kullanmak ve ardından bitişik matris içindeki tüm örneklenen aralıkların karşılık gelen değerini 1 olarak işaretlemektir.

Son olarak, çıkarım ağı birkaç z sözdizimi ağacını örnekler ve ardından her sözdizimi ağacının olasılığını CRF'ye göre hesaplar

Gerisi üretim ağına bırakılıyor.

Yukarıdaki akıl yürütme ağı, birkaç sözdizimsel ağacı örneklemektedir ve ağı oluşturmanın amacı, onun ortak olasılığını hesaplamaktır.

. Bu aslında zor değil Önceki RNNG kağıt notlarında, bundan daha önce kabaca bahsetmiştim, gözden geçirebilirsiniz: Tekrarlayan Sinir Ağı Gramerler İşte bazı iyileştirmeler.

İlk olarak, transferin tarihsel durumunu saklamak için bir yığın tanımlamamız gerekiyor Burada yığındaki öğeleri iki tuple (h, g) olarak tanımlıyoruz, biri yığın-LSTM kodlamasının çıktısı, diğeri ise alt ağacın yapı temsilidir. Öncelikle, bir sonraki eylemin ne olacağını tahmin etmeniz gerekir, bu nedenle yığının en üstteki öğesini çıkarın

, Eylemi tahmin ederken yalnızca gizli katman çıktısı kullanılır:

Ardından bu olasılığa bağlı olarak eylemin SHIFT veya REDUCE olup olmadığını tahmin edin Aşağıdaki iki durum tartışılır.

SHIFT ise, o zaman üretken bir model olduğu için, sonraki kelimenin ne olacağını tahmin etmesi gerekir:

Sonra bir sonraki anda gizli katman çıktısını almak için x kelimesinin kelime vektörünü stack-LSTM'ye girin:

En sonunda

Yığının içine itin.

REDUCE ise, önce yığının en üstündeki iki öğenin kaldırılması gerekir.

ile

, Ve sonra iki alt düğüm birleştirildikten sonra alt ağacın temsilini hesaplamak için TreeLSTM'yi kullanın:

Ardından, sonraki anda stack-LSTM'nin gizli katman çıktısını hesaplayın:

En sonunda

Yığının içine itin.

Sayısal taşmayı önlemek için, geleneksel olarak ortak olasılığın logaritmasını hesaplarız:

Bu formülden, ortak olasılığın, belirli bir kelime ve eylem segmentinin bir sonraki kelimeyi ve belirli bir kelime ve eylem segmentinin bir sonraki eylemi öngörmesi olasılıklarının ürünü olarak tanımlandığı görülebilir.

RNNG gibi denetlenen bir görev ise, o zaman eklem olasılığını en üst düzeye çıkarmak yeterlidir, ancak şimdi denetimsiz olması gerekir, z olmadan, karıştırmamaya dikkat edin, çıkarım ağı tarafından örneklenen z denetim için kullanılamaz, çünkü bu Doğru değil, bu nedenle dil modeli nihai amaç işlevi olarak kullanılacaktır.

Varyasyonel Çıkarım

X cümlesinin günlük olasılığı şu şekilde tanımlanır:

onların arasında

Bu, tüm yasal sözdizimi ağaçlarının bir koleksiyonudur, ancak burada tüm sözdizimi ağaçlarını numaralandırmak imkansızdır, bu nedenle varyasyonel muhakeme kullanılmalıdır. Spesifik teorik bilgi dikkatli bir şekilde tanıtılmamıştır.

Son satır a priori olarak adlandırılır

Kanıtın alt sınırı (ELBO). Öncekini maksimize etmek istiyorsak, bu ELBO'yu maksimize edebiliriz. Bu ELBO'nun biçimini değiştirirsek, şunu elde edebiliriz:

Bu nedenle, ELBO ve önceki arasında bir KL sapması nedeniyle bir fark vardır ELBO'yu maksimize etmek, KL sapmasını en aza indirmeye eşdeğerdir, bu da çıkarım ağı ve üretici model tarafından oluşturulan sözdizimsel ağacın olasılık dağılımının mümkün olduğunca yakın olduğu anlamına gelir.

Ancak bu ELBO'nun hesaplanması hala kolay değil

Beklenti olan toplam sembolüne taşındı, bu yüzden formu değiştirin:

Modelin iki parametre seti olduğundan, biri çıkarım ağının parametresidir

, Biri oluşturulan ağın parametreleridir, bu nedenle iki parametre aşağıda türetilmiştir.

İlk önce kısmi türevi bulun. Bu parametreye yalnızca ilk terim sahip olduğundan, kısmi türev:

Bu kısmi türev olasılığa dayalı olabilir

Örneklendi:

Sonra kısmi türevi bulun, çünkü bu parametreyi içeren iki öğe vardır, kısmi türevi ayrı ayrı bulun. İkinci öğe entropidir. Değeri aslında önceki dizi kullanılarak hesaplanabilir. Algoritma aşağıdaki gibidir:

Daha sonra kısmi türev, derin öğrenme kütüphanesinin otomatik farklılaşmasına devredilebilir, böylece onu kendiniz bulmanız gerekmez.

İlk terimin kısmi türevine gelince, politika gradyanına benzer bir yöntemle çözülebilir:

Strateji gradyanı yaklaşımına benzer şekilde, örneklemeye son dönüşüm burada, performansı iyileştirmek için temel alınmıştır:

onların arasında

Diğer tüm günlük ortak olasılıkların ortalaması olarak tanımlanır:

Şimdiye kadar tüm kısmi türevler hesaplandı. İkisi örnekleme ile elde edildi ve biri iç algoritma sonucunun otomatik farklılaşması ile elde edildi, bu nedenle türev işaretini kaldırın ve nihai kayıp fonksiyonunu elde etmek için ekleyin:

Dikkat etmelisin, burada

Kod uygulandığında gradyan aktarılamaz, aksi takdirde çiftin kısmi türevi bu öğenin kısmi türevinden daha fazla olacaktır!

Deney

Burada deneyin sonuçları hakkında fazla bir şey söylemeyeceğim. Ayrıntılar için makaleye bakın. Sadece iki sonuç gönderin, biri dil modelidir:

Standart PTB veri setinde, URNNG etkisinin denetimli öğrenen RNNG'den ve URNNG kaybı işlevi ile ince ayarlı RNNG'den sadece biraz daha kötü olduğu görülebilir, ancak büyük veri setinde URNNG'nin avantajları yansıtılır.

Diğeri ise denetimsiz bileşen sözdizimsel analizidir, işte tam uzunlukta test seti:

URNNG bu görevde en iyi sonucu verir.

sonuç olarak

Denetimsiz bileşen sözdizimsel analizi için önceki iki dil modeline benzer şekilde, bu makale sözdizimsel ağacın olasılık dağılımını öğrenmek ve sözdizimsel ağacı örneklemek için çıkarım ağını kullanır ve daha sonra bu sözdizimsel ağaçların ve cümlelerin ortak olasılığını hesaplamak için üretici ağı kullanır ve son olarak varyasyonel çıkarım kullanır. Bir cümlenin olasılığını en üst düzeye çıkarmak, iyi bir dil modeli öğrenmek anlamına gelir.

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Orijinal metni okumak, NLP kağıt tartışma grubuna katılmak ve meslektaşlarla fikir alışverişinde bulunmak için tıklayın

12345, Şangay şehrinin sıcak detayı olan işaret dili hizmetleri sunuyor.
önceki
Tianchi-Xin Lei Yayınevi Efsanesi, 1987, Jiang Qicai tarafından boyanmış
Sonraki
Çin Mühendislik Akademisi'nden akademisyen Lu Xicheng, akıllı hesaplama hakkında konuşuyor: geleneksel bilgi işlem endüstrisinin hatalarını tekrar etmekten kaçınmak için teknik temel sağlamlaştırılma
Feilai Peak-Xin Lei Yayınevi Efsanesi 1987 Duan Jifu Tarafından Boyanmış
Meizu Flyme 7.3 kararlı sürümü yayınlandı: 6 yeni özellik, 4 modeli erken benimseyenler
Hangzhou-Xinlei Yayınevindeki West Lake Efsanesi, 1987 Li Zhiguo Tarafından Boyanmış
Sarı Vinç Kulesi Efsanesi-Xinlei Yayınevi 1987 Wang Junyou Tarafından Boyanmış
KDD 2019 | Tencent'in reklam algoritması ekibinin envanter tahmini hakkındaki makalesi KDD 2019 tarafından kabul edildi
Büyülü Şifa Sistemi Fantezi Temalı Sergisi Bedeni ve Zihni Rahatlatıyor
"Çocuklar Günü" bize bu çocukların bize öğrettikleri şeyleri hatırlatıyor
Huangguoshu Şelalesi Efsanesi-Xinlei Yayınevi, 1987 Cao Liufu Tarafından Boyanmış
Üç kuşaktan oluşan bir ailenin Çocuk Bayramı anıları: Her yaşın kendine özgü bir çocukluk tadı vardır
Yuquan-Zhejiang Halk Güzel Sanatlar Yayınevi 1979 Luo Xixian Tarafından Boyanmış
Shanghai Zhizhi! Klinik araştırmalar için onaylanan dünyanın ilk norovirüs tetravalan aşısı
To Top