Yöntemimiz ve referans eklenip eklenmemesinin son nedeni proje web sayfasında görülebilir:
Alıntı ekleme nedeni
Referans eklememe nedenleri
Makine öğrenimi referanslarını öğretmek
Daha sonra, alıntılanması gereken cümleleri bulmak ve karşılık gelen nedenleri sağlamak için makine öğrenimi modelini eğitiyoruz.
İlk olarak, tüm editör topluluğundan alıntılanması gereken cümleleri nasıl tanıyacağımızı öğrenmek için bir model eğitiyoruz. Her biri birçok makaleye atıfta bulunan yüksek kaliteli bir makale koleksiyonu olan İngilizce Wikipedia'nın "Seçilmiş Makaleler" veri kümesini oluşturduk. Seçilen makalelerdeki satır içi alıntılar içeren cümleler olumlu örnekler olarak, satır içi alıntılar içermeyen cümleler ise olumsuz örnekler olarak işaretlenir. Bu verileri kullanarak, bir cümlenin olumlu bir örnek mi (alıntı gerektiren) yoksa olumsuz bir örnek mi (alıntı gerektirmeden) olduğunu tahmin edebilen, cümledeki kelime dizisine dayalı bir RNN sınıflandırma modeli eğittik. Son modelin olumlu örneklerin sınıflandırma doğruluğu% 90'a kadar çıkmaktadır.
Yorumlama algoritması tahmini
Öyleyse model neden% 90'a varan bir doğruluk oranına sahip? Bir cümlenin alıntılanıp alıntılanmayacağına karar verirken algoritma neye benzer?
Bu sonuçları yorumlayabilmek için alıntılanması gereken cümleleri örnekledik ve modelin en çok düşündüğü kelimelerin altını çizdik. Örneğin, "görüş" örneğinde, model en yüksek ağırlığı "iddia edilen" kelimesine atar. "İstatistikte", model için en önemli kelimeler, değerleri analiz ederken en sık kullanılan fiillerdir. "Bilimsel, bilim" örneğinde, model "kuantum" gibi alana özgü kelimelere daha fazla dikkat ediyor.
Modelin alıntılanması gerektiğini düşündüğü cümle örneklerinde anahtar kelimeler vurgulanmıştır.
Cümlenin neden alıntı yapıldığını tahmin edin
Ayrıca, modelin atıf nedeninin tam bir açıklamasını sağladığını umuyoruz. Alıntıların nedenlerini toplamak ve bunları açıklama olarak kullanmak için ilk olarak Amazon Mechanical Turk'ü kullanarak bir kitle kaynak deneyi tasarladık. Seçilmiş makalelerden rastgele 4000 cümle seçtik ve kitle kaynaklı çalışanlardan önceki araştırmada belirlediğimiz sekiz nedeni kullanarak bunları etiketlemelerini istedik. Cümle bilimsel veya tarihsel gerçeklerle ilgili olduğunda veya doğrudan veya dolaylı bir alıntı olduğunda, alıntılar sunmamız gerektiğini gördük.
Pasif cümleleri sekiz alıntı nedeni kategorisinden birine sınıflandırabilmek için önceki çalışmada kullanılan sinir ağını değiştirdik. Bu ağı kitle kaynaklı etiketli veri kümeleri kullanarak yeniden eğittik ve özellikle büyük miktarda eğitim verisi olan kategoriler için alıntıların nedenini tahmin ederken makul bir doğruluğa (doğruluk 0,62) ulaştığını gördük.
Sonraki adımlar: Diller ve konular genelinde "alıntı ihtiyaçlarını" öngörün
Bu projenin bir sonraki aşaması, modellerimizi Wikipedia'da bulunan herhangi bir dilde eğitilebilecek şekilde değiştirmeyi içerecek. Wikipedia'nın farklı sürümlerindeki doğrulanmamış içeriğin oranını ölçmek için bu çapraz dil modellerini kullanacağız ve editörlerin yüksek kaliteli alıntıların gerekli olduğu yerleri belirlemelerine yardımcı olmak için farklı makale konularına yapılan alıntıların kapsamını eşleştireceğiz. .
Bu yeni modellerin kaynak kodunu en kısa sürede sağlamayı planlıyoruz. Aynı zamanda, "Atıf Gerekli: Wikipedia'nın Doğrulanabilirliğinin Taksonomi ve Algoritmik Değerlendirmesi" araştırma makalemize de göz atabilirsiniz. Bu makale yakın zamanda Web Konferansı 2019 tarafından kabul edilmiştir. Ek materyali, alıntı politikasını ve model eğitimi için ne kullandığımızı ayrıntılı olarak analiz etmektedir. Bütün bilgiler.