Bugün giderek yaygınlaşan bir sorunu inceleyeceğiz: sosyal ağlarda yayılan sahte haberler nasıl tespit edilir? Bilgisayar bilimi perspektifinden bakılmaksızın, bazı önemli tespit faktörleri aşağıdaki gibi olabilir:
· Söylenenler (haberin içeriği) veya nasıl söylendiği (sahte haberler, gerçek haberleri taklit ederek kullanıcıları kasıtlı olarak yanıltabilir).
· Yayınlandığı yer (kaynak yayının güvenilirliği ve yetkisi). Örneğin, Financial Times'daki bazı içerikler, The Onion'daki içerikten daha güvenilir olacaktır.
· Haberleri kim yayıyor (örneğin, onu yeniden yayınlayan kullanıcı hesabının güvenilirliği - bot mu?).
Mevcut algılama algoritmalarının çoğu haber içeriğinden ipuçları bulmaya odaklanır, ancak bu ipuçları genellikle etkisizdir çünkü sahte haberler genellikle gerçek haberleri taklit eder ve kullanıcıları kasıtlı olarak yanlış yönlendirir.Bu nedenle, yalnızca içeriğe bakmamalıyız, aynı zamanda sosyal arka plana da dikkat etmeliyiz: örneğin yayıncılar ve bilgileri yayan kullanıcılar gibi. TriFN tarafımızca geliştirilmiş bir sahte haber tespit sistemidir.Haber, yayıncılar ve sosyal ağ kullanıcıları arasındaki üçlü ilişkiye dikkat eder.
En iyi yaptığımız şey, sahte haberleri sınıflandırmak için yayıncı, haber içeriği ve sosyal katılım arasındaki üçlü ilişki yoluyla etkili haber özelliklerini öğrenmektir.Veriler, yayıncıların ve kullanıcıların tespit aralığına dahil edilmesinin sahte haberlerin tespit edilmesine yardımcı olduğunu gösteriyor.
girişGirdi faktörleri şunları içerir: yayıncı l, sosyal ağ kullanıcısı m ve haber makalesi n. T kelimeden oluşan bir kelime dağarcığı kullanarak,
Kelime torbası özelliği matris.
M kullanıcı için m × m bitişik matrisi vardır
, Eğer ben ve j arkadaşsak, o zaman
1, aksi halde 0.
Matrisin hangi kullanıcıların hangi haberi paylaştığını da biliyoruz.
Bu bilgiler kodlanmıştır.
matris
"Kimin hangi haberi gönderdiği" bilgisi de kodlanmıştır.
Bazı yayıncılar için parti eğilimlerini bilebiliriz. Bu makalede, mediabiasfactcheck.com'dan gelen eğilim derecelendirmesi kullanılmıştır. Yalnızca "sol sapma", "minimum sapma" (nötr) ve "sağ sapma" değerlerini (orta alanın sol merkez ve sağ merkez değerlerini göz ardı ederek) kullanıyoruz ve Yayıncı partizan etiket vektör
Sırasıyla -1,0 ve 1 olarak kodlanırlar. Her yayıncının bir tercih değerlendirmesi olmayacaktır. Vektör vermek istiyoruz
Bu tür yayıncıların girişlerine "-" eklenir, ancak bunu yapamayacağımız için ayrı bir vektör
Yayıncı için bir tercih derecelendirmesi sağlayıp sağlamadığımızı kodlayacaktır s.
Ancak en azından kesin olarak adlandırabileceğimiz bir şey var: etiketli bir haber veri seti, haberlerin doğru olup olmadığını bize bildirecek. (Burada sosyal geçmişe bakılmaksızın sadece haberlerin içeriğine atıfta bulunuyoruz).
Çerçeveye gömülü üçlü ilişkiTriFN tüm bu girdileri alacak ve bunları sahte haber ikili sınıflandırıcısı ile birleştirecektir. Çok sayıda kullanıcı ve haber göz önüne alındığında, orijinal girdilerin bir kısmının oldukça büyük olmasını bekleyebiliriz. Bu nedenle, yazar, potansiyel uzamsal yerleştirmeyi öğrenmek için boyutluluğu azaltmak için çok sayıda negatif olmayan matris çarpanlara ayırma yöntemi kullanacaktır. Ayrıntılar).
TriFN şunları entegre eder:
· Haber içeriği yerleştirme
· Kullanıcı yerleştirme
· Kullanıcı ve haber etkileşimli yerleştirme
· Yayıncı ve haber etkileşimli yerleştirme
· Etiketli bir sahte haber veri kümesi üzerinde eğitilmiş doğrusal bir sınıflandırıcı tarafından yapılan tahminler
Resimden şuna benziyor:
Haber içeriği yerleştirme
Negatif olmayan matris çarpanlara ayırma (NMF) yönteminin boyutluluğu nasıl azalttığını ayrıntılı olarak inceleyelim.
Haber makaleleri için eskiz kelime çantasını hatırlıyor musunuz? Bu bir n x t matrisidir, burada n haber makalelerinin sayısıdır ve t kelime haznesindeki kelime sayısıdır. NMF, matristeki bilgileri daha küçük bir alanda yakalayan potansiyel yerleştirmeleri öğrenmeye çalışır.
Genel olarak NMF, (negatif olmayan) bir matris M'yi iki (negatif olmayan) matris W ve H'nin (veya bu makalede kullanıldığı gibi D ve V) çarpımına ayırmaya çalışır. Bu bize nasıl yardımcı olur? Gizli alanın boyutunu kontrol etmek için d boyutunu ve matrisi seçebiliriz
Haber makalelerinin d boyutlu ifadelerine ayrıştırıldı
Ve kelime haznesindeki kelimelerin d-boyutlu ifadesi
. Bunun anlamı
Sahip olmak
Bu nedenle şekil
Gerekli olan
Şeklin sonu. Bir haber D'yi nasıl temsil edeceğimizi öğrendikten sonra, bunları TriFN'in haber içeriği yerleştirmeye uygulayabiliriz.
Elimizden gelenin en iyisini yapmak istiyoruz
Yakın
Sürdürürken
ile
Aşırı uyumdan kaçınmak için hassasiyet. Düzenli bir şekilde uygulayabiliriz. Bu nedenle, genel optimizasyon aşağıdaki gibidir:
Kullanıcı yerleştirme
Kullanıcı yerleştirme için benzer NMF uygulamaları mevcuttur, ancak bu durumda bitişik matrisini kullanacağız
Bir kullanıcı potansiyel matrisine bölün
Ve bir kullanıcı korelasyon matrisi
. Dolayısıyla şu anda, mxd'nin şeklini öğrenmek için NMF'yi kullanmalıyız. Dxd. Dxm
, Ve son olarak gerekli mxm şekli oluşturulacak.
Kullanıcılar arasında bir ilişki matrisi de vardır
, Kontrol eder
Katkı. Temel kavram, herhangi bir kullanıcının haberlerin yalnızca küçük bir bölümünü paylaşacağıdır, bu nedenle iyimser bir durum (bir makaleyi paylaşmak), olumsuz bir durumdan (paylaşmamak) daha önemli olmalıdır.
Kullanıcı ve haber etkileşimli yerleştirme
Kullanıcıların ve haberlerin etkileşimli yerleştirilmesi için, kullanıcı özellikleri ile haber etiketleri arasındaki ilişkiyi elde etmeyi umuyoruz. Sezgimiz, kredisi düşük olan kullanıcıların sahte haberler yayma olasılığının daha yüksek olmasıdır. Peki kullanıcı itibarını nasıl biliyoruz? Yazar, "Sosyal Medyada Kullanıcı Güvenilirliği Ölçümü" başlıklı makaleye dayanarak, bunu diğer kullanıcılarla olan benzerliğine dayandırıyor.
İlk olarak, kullanıcılar gruplandırılır ve aynı gruptaki kullanıcılar aynı haberleri paylaşma eğilimindedir. Ardından, her grubun göreceli büyüklüğüne göre bir güvenilirlik puanı verilir. Grup tarafından alınan güvenilirlik puanı, gruptaki kullanıcılar için geçerlidir. Bu süreçte bir robot hesabının oluşturulup oluşturulmayacağını merak ediyor olabilirsiniz ve daha sonra sahte haberleri yaymak için işbirliği yapabilirsiniz. Ancak, güvenilir bir güvenilirlik puanına sahip olduğumuzu varsayarsak, yüksek güvenilirliğe sahip kullanıcıların potansiyel özelliklerinin gerçek haberlere yakın olması ve düşük güvenilirlikli kullanıcıların potansiyel özelliklerinin sahte haberlere yakın olması için bazı parametreler belirlemeyi umuyoruz.
Yayıncı ve haber etkileşimli yerleştirme
Yukarıda matrisi kullandık
"Kimin hangi haberi gönderdiği" bilgisi kodlanmıştır. Sonra izin ver
Bu bilgilerin standartlaştırılmış bir versiyonu olun. Bir ağırlık matrisi bulmak istiyoruz
, Haber yayıncısının potansiyel özelliklerini ilgili taraf etiket vektörüyle eşleştirin
üzerinde.
Şöyle görünüyor:
Yarı denetimli doğrusal sınıflandırıcı
Etiketli verileri kullanarak bir ağırlık matrisi de öğrendik
, Haberlerin potansiyel özelliklerini sahte haber etiketleriyle eşleştirmek.
Yukarıdaki gömülü formülü entegre edin
Genel amaç, matrisi bulmak için yukarıdaki gömme formüllerinin her birinin ağırlıklı bir kombinasyonunu kullanmaktır.
Ve tüm öğrenilen matrisleri entegre eden düzenlileştirme terimleri.
Şöyle görünüyor:
Bu şekilde eğitin:
DeğerlendirmeTriFN, birkaç son teknoloji sahte haber tespit yöntemini değerlendirmek için FakeNewsNet BuzzFeed ve PolitiFact veri kümelerini kullanır.
Her ikisinde de iyi performans gösterir: