Wikipedia, zaten büyük bir ansiklopedisiniz, orijinal metnin kaynağını belirlemek için makine öğrenimi kullanmayı öğrenmelisiniz.

Yöntemimiz ve referans eklenip eklenmemesinin son nedeni proje web sayfasında görülebilir:

Alıntı ekleme nedeni

Referans eklememe nedenleri

Makine öğrenimi referanslarını öğretmek

Daha sonra, alıntılanması gereken cümleleri bulmak ve karşılık gelen nedenleri sağlamak için makine öğrenimi modelini eğitiyoruz.

İlk olarak, tüm editör topluluğundan alıntılanması gereken cümleleri nasıl tanıyacağımızı öğrenmek için bir model eğitiyoruz. Her biri birçok makaleye atıfta bulunan yüksek kaliteli bir makale koleksiyonu olan İngilizce Wikipedia'nın "Seçilmiş Makaleler" veri kümesini oluşturduk. Seçilen makalelerdeki satır içi alıntılar içeren cümleler olumlu örnekler olarak, satır içi alıntılar içermeyen cümleler ise olumsuz örnekler olarak işaretlenir. Bu verileri kullanarak, bir cümlenin olumlu bir örnek mi (alıntı gerektiren) yoksa olumsuz bir örnek mi (alıntı gerektirmeden) olduğunu tahmin edebilen, cümledeki kelime dizisine dayalı bir RNN sınıflandırma modeli eğittik. Son modelin olumlu örneklerin sınıflandırma doğruluğu% 90'a kadar çıkmaktadır.

Yorumlama algoritması tahmini

Öyleyse model neden% 90'a varan bir doğruluk oranına sahip? Bir cümlenin alıntılanıp alıntılanmayacağına karar verirken algoritma neye benzer?

Bu sonuçları yorumlayabilmek için alıntılanması gereken cümleleri örnekledik ve modelin en çok düşündüğü kelimelerin altını çizdik. Örneğin, "görüş" örneğinde, model en yüksek ağırlığı "iddia edilen" kelimesine atar. "İstatistikte", model için en önemli kelimeler, değerleri analiz ederken en sık kullanılan fiillerdir. "Bilimsel, bilim" örneğinde, model "kuantum" gibi alana özgü kelimelere daha fazla dikkat ediyor.

Modelin alıntılanması gerektiğini düşündüğü cümle örneklerinde anahtar kelimeler vurgulanmıştır.

Cümlenin neden alıntı yapıldığını tahmin edin

Ayrıca, modelin atıf nedeninin tam bir açıklamasını sağladığını umuyoruz. Alıntıların nedenlerini toplamak ve bunları açıklama olarak kullanmak için ilk olarak Amazon Mechanical Turk'ü kullanarak bir kitle kaynak deneyi tasarladık. Seçilmiş makalelerden rastgele 4000 cümle seçtik ve kitle kaynaklı çalışanlardan önceki araştırmada belirlediğimiz sekiz nedeni kullanarak bunları etiketlemelerini istedik. Cümle bilimsel veya tarihsel gerçeklerle ilgili olduğunda veya doğrudan veya dolaylı bir alıntı olduğunda, alıntılar sunmamız gerektiğini gördük.

Pasif cümleleri sekiz alıntı nedeni kategorisinden birine sınıflandırabilmek için önceki çalışmada kullanılan sinir ağını değiştirdik. Bu ağı kitle kaynaklı etiketli veri kümeleri kullanarak yeniden eğittik ve özellikle büyük miktarda eğitim verisi olan kategoriler için alıntıların nedenini tahmin ederken makul bir doğruluğa (doğruluk 0,62) ulaştığını gördük.

Sonraki adımlar: Diller ve konular genelinde "alıntı ihtiyaçlarını" öngörün

Bu projenin bir sonraki aşaması, modellerimizi Wikipedia'da bulunan herhangi bir dilde eğitilebilecek şekilde değiştirmeyi içerecek. Wikipedia'nın farklı sürümlerindeki doğrulanmamış içeriğin oranını ölçmek için bu çapraz dil modellerini kullanacağız ve editörlerin yüksek kaliteli alıntıların gerekli olduğu yerleri belirlemelerine yardımcı olmak için farklı makale konularına yapılan alıntıların kapsamını eşleştireceğiz. .

Bu yeni modellerin kaynak kodunu en kısa sürede sağlamayı planlıyoruz. Aynı zamanda, "Atıf Gerekli: Wikipedia'nın Doğrulanabilirliğinin Taksonomi ve Algoritmik Değerlendirmesi" araştırma makalemize de göz atabilirsiniz. Bu makale yakın zamanda Web Konferansı 2019 tarafından kabul edilmiştir. Ek materyali, alıntı politikasını ve model eğitimi için ne kullandığımızı ayrıntılı olarak analiz etmektedir. Bütün bilgiler.

Megvii ve Zhiyuan, dünyanın en büyük nesne algılama veri seti Objects365'i yayınladı ve CVPR DIW2019 meydan okumasını gerçekleştirdi
önceki
İyi para kazanın RMB'nin değerlenmesinden sonra 1 Mayıs'ta bu yerlere seyahat etmek daha uygun maliyetli
Sonraki
CVPR 2019 PointConv: Evrişim işlemlerini nokta bulutlarında verimli bir şekilde uygulayın
Arkadaş çevrenizde derin ve çağrışımlı, arkadaşlarınıza iletilmeye değer olumlu cümleler
[AET orijinal] 3D algılama, AI, endüstri 4.0, IoT 2019 yarı iletken endüstrisi etkin nokta teknolojisi görünümü
NBA | Harden'in güçlü "üçlü-çift" roketi "uçan" Jazz "Zhuangshen" Bucks'ı ödüllendirmek zor "pistondan" geçti "
Mercedes-Benz'in kadın otomobil sahibini savunan haklar, hayatta barış için can atıyor, ancak birisi kaputun üzerine oturuyor
Güvenlik Sınıfı Bu her an olabilecek bir tehlikedir, sürüş sırasında mutlaka görülmesi gereken!
Mercedes-Benz olayının takibi hakkında beş soru: Diğer araç sahiplerinin mali hizmet ücretleri iade edilebilir mi?
Bu "sahte" iş çok ateşli! Kullanmış olabilirsiniz ...
Tanıtım! Fujian'daki bu kolejler ve üniversiteler, bu örnek inşaat projesinin anahtar listesinde listelenmiştir.
Çin'deki güzel "toucan" a yaklaşabilecek ilk özel sergi alanı açılıyor
Teknoloji Paylaşımı Elektrikli araçlar için yüksek voltajlı kilitleme devrelerinin ilkeleri ve tasarım şemaları
Baoshan Köyü'nün başında Monet'nin "Gün Doğumu" nu selamlayın ve köylüler defalarca "Galling" dedi
To Top