Sahte haberleri gizlemek ister misiniz? Test etmek için bu üçlü ilişkiyi kullanın

Bugün giderek yaygınlaşan bir sorunu inceleyeceğiz: sosyal ağlarda yayılan sahte haberler nasıl tespit edilir? Bilgisayar bilimi perspektifinden bakılmaksızın, bazı önemli tespit faktörleri aşağıdaki gibi olabilir:

· Söylenenler (haberin içeriği) veya nasıl söylendiği (sahte haberler, gerçek haberleri taklit ederek kullanıcıları kasıtlı olarak yanıltabilir).

· Yayınlandığı yer (kaynak yayının güvenilirliği ve yetkisi). Örneğin, Financial Times'daki bazı içerikler, The Onion'daki içerikten daha güvenilir olacaktır.

· Haberleri kim yayıyor (örneğin, onu yeniden yayınlayan kullanıcı hesabının güvenilirliği - bot mu?).

Mevcut algılama algoritmalarının çoğu haber içeriğinden ipuçları bulmaya odaklanır, ancak bu ipuçları genellikle etkisizdir çünkü sahte haberler genellikle gerçek haberleri taklit eder ve kullanıcıları kasıtlı olarak yanlış yönlendirir.

Bu nedenle, yalnızca içeriğe bakmamalıyız, aynı zamanda sosyal arka plana da dikkat etmeliyiz: örneğin yayıncılar ve bilgileri yayan kullanıcılar gibi. TriFN tarafımızca geliştirilmiş bir sahte haber tespit sistemidir.Haber, yayıncılar ve sosyal ağ kullanıcıları arasındaki üçlü ilişkiye dikkat eder.

En iyi yaptığımız şey, sahte haberleri sınıflandırmak için yayıncı, haber içeriği ve sosyal katılım arasındaki üçlü ilişki yoluyla etkili haber özelliklerini öğrenmektir.

Veriler, yayıncıların ve kullanıcıların tespit aralığına dahil edilmesinin sahte haberlerin tespit edilmesine yardımcı olduğunu gösteriyor.

giriş

Girdi faktörleri şunları içerir: yayıncı l, sosyal ağ kullanıcısı m ve haber makalesi n. T kelimeden oluşan bir kelime dağarcığı kullanarak,

Kelime torbası özelliği matris.

M kullanıcı için m × m bitişik matrisi vardır

, Eğer ben ve j arkadaşsak, o zaman

1, aksi halde 0.

Matrisin hangi kullanıcıların hangi haberi paylaştığını da biliyoruz.

Bu bilgiler kodlanmıştır.

matris

"Kimin hangi haberi gönderdiği" bilgisi de kodlanmıştır.

Bazı yayıncılar için parti eğilimlerini bilebiliriz. Bu makalede, mediabiasfactcheck.com'dan gelen eğilim derecelendirmesi kullanılmıştır. Yalnızca "sol sapma", "minimum sapma" (nötr) ve "sağ sapma" değerlerini (orta alanın sol merkez ve sağ merkez değerlerini göz ardı ederek) kullanıyoruz ve Yayıncı partizan etiket vektör

Sırasıyla -1,0 ve 1 olarak kodlanırlar. Her yayıncının bir tercih değerlendirmesi olmayacaktır. Vektör vermek istiyoruz

Bu tür yayıncıların girişlerine "-" eklenir, ancak bunu yapamayacağımız için ayrı bir vektör

Yayıncı için bir tercih derecelendirmesi sağlayıp sağlamadığımızı kodlayacaktır s.

Ancak en azından kesin olarak adlandırabileceğimiz bir şey var: etiketli bir haber veri seti, haberlerin doğru olup olmadığını bize bildirecek. (Burada sosyal geçmişe bakılmaksızın sadece haberlerin içeriğine atıfta bulunuyoruz).

Çerçeveye gömülü üçlü ilişki

TriFN tüm bu girdileri alacak ve bunları sahte haber ikili sınıflandırıcısı ile birleştirecektir. Çok sayıda kullanıcı ve haber göz önüne alındığında, orijinal girdilerin bir kısmının oldukça büyük olmasını bekleyebiliriz. Bu nedenle, yazar, potansiyel uzamsal yerleştirmeyi öğrenmek için boyutluluğu azaltmak için çok sayıda negatif olmayan matris çarpanlara ayırma yöntemi kullanacaktır. Ayrıntılar).

TriFN şunları entegre eder:

· Haber içeriği yerleştirme

· Kullanıcı yerleştirme

· Kullanıcı ve haber etkileşimli yerleştirme

· Yayıncı ve haber etkileşimli yerleştirme

· Etiketli bir sahte haber veri kümesi üzerinde eğitilmiş doğrusal bir sınıflandırıcı tarafından yapılan tahminler

Resimden şuna benziyor:

Haber içeriği yerleştirme

Negatif olmayan matris çarpanlara ayırma (NMF) yönteminin boyutluluğu nasıl azalttığını ayrıntılı olarak inceleyelim.

Haber makaleleri için eskiz kelime çantasını hatırlıyor musunuz? Bu bir n x t matrisidir, burada n haber makalelerinin sayısıdır ve t kelime haznesindeki kelime sayısıdır. NMF, matristeki bilgileri daha küçük bir alanda yakalayan potansiyel yerleştirmeleri öğrenmeye çalışır.

Genel olarak NMF, (negatif olmayan) bir matris M'yi iki (negatif olmayan) matris W ve H'nin (veya bu makalede kullanıldığı gibi D ve V) çarpımına ayırmaya çalışır. Bu bize nasıl yardımcı olur? Gizli alanın boyutunu kontrol etmek için d boyutunu ve matrisi seçebiliriz

Haber makalelerinin d boyutlu ifadelerine ayrıştırıldı

Ve kelime haznesindeki kelimelerin d-boyutlu ifadesi

. Bunun anlamı

Sahip olmak

Bu nedenle şekil

Gerekli olan

Şeklin sonu. Bir haber D'yi nasıl temsil edeceğimizi öğrendikten sonra, bunları TriFN'in haber içeriği yerleştirmeye uygulayabiliriz.

Elimizden gelenin en iyisini yapmak istiyoruz

Yakın

Sürdürürken

ile

Aşırı uyumdan kaçınmak için hassasiyet. Düzenli bir şekilde uygulayabiliriz. Bu nedenle, genel optimizasyon aşağıdaki gibidir:

Kullanıcı yerleştirme

Kullanıcı yerleştirme için benzer NMF uygulamaları mevcuttur, ancak bu durumda bitişik matrisini kullanacağız

Bir kullanıcı potansiyel matrisine bölün

Ve bir kullanıcı korelasyon matrisi

. Dolayısıyla şu anda, mxd'nin şeklini öğrenmek için NMF'yi kullanmalıyız. Dxd. Dxm

, Ve son olarak gerekli mxm şekli oluşturulacak.

Kullanıcılar arasında bir ilişki matrisi de vardır

, Kontrol eder

Katkı. Temel kavram, herhangi bir kullanıcının haberlerin yalnızca küçük bir bölümünü paylaşacağıdır, bu nedenle iyimser bir durum (bir makaleyi paylaşmak), olumsuz bir durumdan (paylaşmamak) daha önemli olmalıdır.

Kullanıcı ve haber etkileşimli yerleştirme

Kullanıcıların ve haberlerin etkileşimli yerleştirilmesi için, kullanıcı özellikleri ile haber etiketleri arasındaki ilişkiyi elde etmeyi umuyoruz. Sezgimiz, kredisi düşük olan kullanıcıların sahte haberler yayma olasılığının daha yüksek olmasıdır. Peki kullanıcı itibarını nasıl biliyoruz? Yazar, "Sosyal Medyada Kullanıcı Güvenilirliği Ölçümü" başlıklı makaleye dayanarak, bunu diğer kullanıcılarla olan benzerliğine dayandırıyor.

İlk olarak, kullanıcılar gruplandırılır ve aynı gruptaki kullanıcılar aynı haberleri paylaşma eğilimindedir. Ardından, her grubun göreceli büyüklüğüne göre bir güvenilirlik puanı verilir. Grup tarafından alınan güvenilirlik puanı, gruptaki kullanıcılar için geçerlidir. Bu süreçte bir robot hesabının oluşturulup oluşturulmayacağını merak ediyor olabilirsiniz ve daha sonra sahte haberleri yaymak için işbirliği yapabilirsiniz. Ancak, güvenilir bir güvenilirlik puanına sahip olduğumuzu varsayarsak, yüksek güvenilirliğe sahip kullanıcıların potansiyel özelliklerinin gerçek haberlere yakın olması ve düşük güvenilirlikli kullanıcıların potansiyel özelliklerinin sahte haberlere yakın olması için bazı parametreler belirlemeyi umuyoruz.

Yayıncı ve haber etkileşimli yerleştirme

Yukarıda matrisi kullandık

"Kimin hangi haberi gönderdiği" bilgisi kodlanmıştır. Sonra izin ver

Bu bilgilerin standartlaştırılmış bir versiyonu olun. Bir ağırlık matrisi bulmak istiyoruz

, Haber yayıncısının potansiyel özelliklerini ilgili taraf etiket vektörüyle eşleştirin

üzerinde.

Şöyle görünüyor:

Yarı denetimli doğrusal sınıflandırıcı

Etiketli verileri kullanarak bir ağırlık matrisi de öğrendik

, Haberlerin potansiyel özelliklerini sahte haber etiketleriyle eşleştirmek.

Yukarıdaki gömülü formülü entegre edin

Genel amaç, matrisi bulmak için yukarıdaki gömme formüllerinin her birinin ağırlıklı bir kombinasyonunu kullanmaktır.

Ve tüm öğrenilen matrisleri entegre eden düzenlileştirme terimleri.

Şöyle görünüyor:

Bu şekilde eğitin:

Değerlendirme

TriFN, birkaç son teknoloji sahte haber tespit yöntemini değerlendirmek için FakeNewsNet BuzzFeed ve PolitiFact veri kümelerini kullanır.

Her ikisinde de iyi performans gösterir:

10 yıl sonra Android 1.6 ile HTC G1'i yeniden deneyimlemek: utanç özellikli telefona indirgenmiş
önceki
Toshiba'nın ilk QLC flash belleğinin kullanım ömrü TLC ile karşılaştırılabilir!
Sonraki
Mahathir, Alibaba'nın küreselleşme konseptine övgüde bulundu, Malezyalı netizenler Taobao Alipay'i kullanmak için bağırdı
Çin'de ilk! OnePlus, Android 9.0'ın kararlı sürümünü yayınlayan ilk kişi. Yükseltme yaptınız mı?
Beklenmedik bir şekilde, Sony kendi mobil işlemcisini yapmak zorunda!
Fast Technology 2018 Yıllık Ödülleri: Cep Telefonları ve İşlemciler
Didi lüks otomobil incelemesi: Minimum 108 yuan tüketen araba buna değer mi?
PARL kaynak kodu adım adım yolu-labirent hazine avı problemini çözmek için strateji gradyan algoritmasını kullanın
Bilika, 22 aylık 2G ulusal trafik + yönlü serbest akış gibi büyük bir yükseltme başlattı
Sürücünün deri arka koltuğu yolcular tarafından çiğnendikten sonra, Didi sadece 20 yuan? !
Bilgisayarlar neden insanlar kadar okuyamaz?
Cep telefonu sinyal çubuğundaki "H" ve "4G" ne anlama geliyor?
Hardcore hikaye: Fikirden ürüne, yapay zeka kaç aşamadan geçiyor?
Google'ın yeni ürün lansman konferansı Pixel 3 / 3XL pro oğlu yayınladı, yapılandırma sistemi sürpriz görünümü hayal kırıklığına uğradı
To Top