Academia Alibaba'da hiper ölçekli grafik hesaplamanın uygulamaları nelerdir? İlk olarak dört KDD sözlü makalesine bakın (basılı olarak indirilebilir) KDD 2018

AI Technology Review Press : Bu makale, Alibaba tarafından sağlanan bir KDD 2018 yorumlama el yazmasıdır. Bu olay, Leifeng.com akademik kanalının AI Technology Review altındaki "AI Impact Factor" veritabanı projesinde karşılık gelen bir bonusa sahiptir.

Son 30 yılda, yüksek kaliteli deneysel teknolojinin ve yüksek hızlı İnternet bağlantılarının ortaya çıkmasıyla, giderek daha fazla miktarda veri otomatik olarak üretilebilir ve iletilebilir. Bunu takiben, endüstri, akademi ve hatta bireyler büyük ölçekli veri işlemenin zorluklarıyla yüzleşmelidir.Bu büyük miktardaki yüksek boyutlu heterojen verilerden değerli bilgilerin nasıl çıkarılacağı, veri madenciliği uygulayıcıları için her zaman bir çözüm olmuştur. Sorun. "Veri madenciliği", genellikle de "veri tabanında bilgi keşfi" (https://core.ac.uk/download/pdf/81721154.pdf), çeşitli istatistiklerden, makine öğrenmesinden, yapay zeka modellerinden tam olarak yararlanan bir yöntemdir. İlgili bilgi işlem platformu, disiplinler arası bir disiplinler arası olan büyük bir veri kümesini otomatik olarak yorumlamaya çalışır. KDD (ACM SIGKDD KONFERANSI ON BİLGİ KEŞFETME VE VERİ MADENCİLİĞİ) bu alandaki en önemli konferanstır. KDD tarafından alınan gerçek verilerden ve ilgili işlerden ve makalelerden, veri madenciliğindeki birkaç önemli gelişme eğilimini özetleyebiliriz:

Çok modlu veri madenciliği : Teknoloji ses, video, metin, görüntü vb. Gibi birden çok kanaldan daha etkili bir şekilde veri toplayabildiğinden, bu aynı zamanda giderek daha değerli olan bir yöndür ve verilerin kendisi çeşitli şekillerde daha etkilidir depolama. Çok görevli öğrenme, aktarımla öğrenme ve pekiştirmeli öğrenme gibi etkili etki alanları arası modellemenin nasıl yürütüleceği anahtar geliştirme modelleridir.

Küresel veri madenciliği : Bu yöntem, bireyler hakkında bilgi edinmek için mobil cihazlardan ve IoT cihazlarından veri madenciliği içerir. Bu türde karmaşıklık, mahremiyet, maliyet vb. Gibi çeşitli zorluklar olmasına rağmen, bu yöntem çeşitli endüstrilerde, özellikle insan-bilgisayar etkileşimi çalışmasında büyük fırsatlara sahiptir.

Dağıtılmış veri madenciliği : Bu tür veri madenciliği giderek daha popüler hale geliyor, çünkü farklı şirket lokasyonlarında veya farklı organizasyonlarda depolanan büyük miktarda bilgiyi madenciliği içeriyor ve herhangi bir algoritmanın tek başına bir sürümde tüm ağ verileri hakkında eğitilmesi ve mantık yürütmesi zor. Ek olarak, farklı konumlardan veri çıkarmak ve bunlara dayalı uygun içgörüler ve raporlar sağlamak için daha uyarlanabilir algoritmalar da kullanılabilir.

Mekan-Zamansal Veri Madenciliği : Bu, uzaydan alınan görüntüler de dahil olmak üzere periyodik ve mevsimsel eğilimlerle çevresel, astronomik ve coğrafi verilerden bilgilerin çıkarılmasını içeren yeni bir trend veri madenciliği türüdür. Bu tür veri madenciliği, mesafe ve topoloji gibi çeşitli yönleri ortaya çıkarabilir. Esas olarak dinamik coğrafi bilgi sistemlerinde ve diğer navigasyon uygulamalarında kullanılır.Bu yaklaşım aynı zamanda normal olay serilerinin dışında meydana gelen rastgele olayları analiz etmeye de yardımcı olur. Bizimle yakından ilgili konular giderek daha popüler hale geliyor.Örneğin, yeni perakendede, müşterilerin ziyaret modellerini ve davranışlarını modellemek için dinamik çevrimiçi ve çevrimdışı verilerin etkili bir şekilde nasıl birleştirileceği çok zorlu bir mekansal-zamansal veri modeli problemidir.

Grafik hesaplama modeli Büyük veri şirketlerinde, özellikle BT şirketlerinde, birçok pratik soruna en doğrudan çözüm olduğu için büyük tip bir model çok popülerdir. Grafik hesaplama, kabaca homojen grafiklere ve heterojen grafiklere bölünebilir. İkincisi, düğüm veya kenar tipinin 2'den büyük veya eşit olduğu zamandır. Ek olarak, bilgi grafikleri aynı zamanda heterojen grafiklerin önemli bir uygulaması, yani semantiğe dayalı anlambilimsel bir grafik modelidir. İyi bilinen LPA, Random Walk ve çeşitli deformasyonlar, CC, vb. Gibi geleneksel grafik hesaplama modellerine ek olarak, derin öğrenmenin başarısı ile Grafik Gömme giderek daha popüler hale geldi. Basitçe ifade etmek gerekirse, Grafik Gömme ayrıca derin öğrenme modelleri aracılığıyla düğümler veya kenarlar üzerinde özellik mühendisliği gerçekleştirir. Son yıllarda, verilerin çeşitlendirilmesi, veri hacmindeki önemli artış ve bilgi işlem gücünün çığır açan ilerlemesiyle grafik hesaplamanın geliştirilmesi ve uygulanması hızla arttı. Büyük şirketler ayrıca Google Pregel gibi grafik hesaplama platformlarını da başlattı, Facebook Giraph, Tencent Star Atlas, Huawei GES, vb.

Bunların arasında, ultra büyük ölçekli grafik veri madenciliği, önceki eğilimlerin bir özeti olarak da düşünülebilir ve aynı zamanda önümüzdeki 3 ila 5 yıl içinde veri madenciliği için büyük bir konsantre parlama noktası olacaktır. Örneğin, DeepMind, Google Brain, MIT vb. Gibi 27 yazar yakın zamanda gişe rekorları kıran bir makale yayınladı (https://arxiv.org/pdf/1806.01261.pdf), saf derin öğrenmenin olgunlaştığını ve grafik hesaplamaya dayalı derin öğrenmenin sona ereceğini belirten Son öğrenme ve tümevarımsal akıl yürütmenin birleşiminin, derin öğrenmenin ilişkisel akıl yürütme yapamadığı problemini çözmesi beklenir. Çok büyük ölçekli grafik hesaplama, büyük veri şirketlerinde, özellikle derin öğrenme ve grafik hesaplamayı birleştiren büyük ölçekli grafik gösterimi ile temsil edilen bir dizi algoritma, giderek daha önemli bir rol oynamaktadır.

Çok büyük ölçekli grafik hesaplama, büyük veri şirketlerinde giderek daha önemli bir rol oynamaktadır.Özellikle, derin öğrenme ve grafik hesaplama ile birleştirilen büyük ölçekli grafik gösterimi ile temsil edilen bir dizi algoritma, Ali'nin birçok iş senaryosunda aşamalı sonuçlar elde etmiştir. Alibaba ekosisteminin verileri, alışveriş ve seyahatten eğlence ve ödemeye kadar tüm bilgileri kapsayan son derece zengin ve çeşitlidir. Örneğin, önemli bir bilgi filtreleme aracı olarak, kişiselleştirilmiş öneri sistemi alışkanlıklarımıza ve hobilerimize göre uygun mal veya hizmetleri önerebilir.Ancak, geleneksel öneri sistemleri seyreklik, soğuk başlangıç ve bilgi tekrarı sorunlarına eğilimlidir, bilgi grafikleri ise Büyük ölçekli grafik temsilinin önemli bir modeli olarak, gerçek kişilerin küresel bilgilerini etkili bir şekilde birleştirebilen, herkesin ihtiyaçlarını gerçekten benimseyen ve anlayabilen ve her bir iş alanında tüketicilerin gerçek bilgilerini sunabilen yeni bir öneri yardımcı bilgisi türü haline geliyor. Potansiyel ilgi ürünleri. Milyarlarca düğüm ve 100 milyardan fazla uçta çıkarım analizini verimli bir şekilde gerçekleştirebilen yeni nesil bir öneri sistemi geliştirmek için çalışıyoruz. Bu zorluğa dayanarak, bilgi alma, dağıtılmış hesaplama, büyük ölçekli sistem tasarımı, makine öğrenimi, yapay zeka ve doğal dil işleme gibi ilgili alanlarda yeni fikirler getirebilecek mühendisler ve bilim adamlarını bulmak için elimizden gelenin en iyisini yapıyoruz. Bu konuyla ilgilenen öğrenciler, yazarla (yang.yhx@alibaba-inc.com) daha derinlemesine bir tartışma yapabilirler.

Aşağıda, son dönemdeki başarılarımızdan ve KDD tarafından kabul edilen makalelerden bazılarını özellikle tanıtacağız:

dolandırıcılık tespiti (SPARC: Az Çekim Nadir Kategori Karakterizasyonu için Kendi Hızında Ağ Temsili); öneri (Heterojen Grafiklerde Anlamsal Yakınlık Araması için Etkileşimli Yollar Gömme); varlık çözünürlüğü (Büyük Ölçekli Tanımlayıcı-Bağlantı Grafiklerinde Mobil Erişim Kaydı Çözünürlüğü) derin model yorumları (Model Yorumuyla Karşıtlık Tespiti).

1. SPARC of dahi: Alibaba'nın nadir sınıflandırma analizindeki ilerlemesi

Çevrimiçi platformlarda, nadir veriler genellikle en değerlidir. Nadir kategori analizi, bilgisayar ağına izinsiz girişleri önlemek, sosyal medyadaki sıcak konuları belirlemek ve hileli çevrimiçi işlemleri tespit etmek için gereklidir. Ancak bu verileri bulmak zor olabilir. Samanlıkta iğne bulmanın atasözü gibi, bunlar genellikle normal veri noktaları arasında gizlidir ve onlardan ayrılamaz ve nadir kategori örneklerini işaretlemek çok pahalıdır. Veri setindeki nadir kategorileri etkin bir şekilde analiz edebilmek için algoritmanın hızlı öğrenen olması gerekir. Alibaba'nın teknik ekibi, nadir kategori odaklı ağ temsilini ve temsil modellerini karşılıklı olarak yararlı bir şekilde kademeli olarak öğrenen, kendi hızına uygun bir çerçeve olan SPARC'yi oluşturmak için Arizona Eyalet Üniversitesi ve Tencent Tıbbi Yapay Zeka Laboratuvarı ile birlikte çalıştı.

Kendi hızınızda öğrenin

SPARC, kurs öğreniminden ilham almıştır. Müfredat öğrenme paradigması, insanın bilişsel sürecini taklit eder: temel model, görevin basit yönünden, önceden belirlenmiş müfredata dayalı olarak daha zor yönüne doğru eğitilir.

Bu kavram birçok farklı durumda uygulanmış olsa da, deneme yanılma tasarımının gerçek dünyada uygulanması zordur. Bununla birlikte, yeni bir öğrenme paradigması, kayıp işlevini en aza indirmek için kendi hızına göre ayarlanan bir düzenleyici kullanarak dersleri otomatik olarak öğrenir. Buna kendi kendine öğrenme denir. Araştırma ekibi, bu kendi kendine ilerleyen öğrenme kavramını temel alır ve nadir kategori yerleştirme temsillerini ve temsil modellerini kademeli olarak ve eşzamanlı olarak öğrenmek için etiketli örneklerin olmadığı nadir kategori analizi senaryolarına uygular. SPARC ayrıca grafik yerleştirmeleri öğrenir ve nadir kategori örneklerini karşılıklı yarar sağlayacak şekilde tahmin eder. Çerçeve, belirli bir ağdaki dengesiz üyeliği modelleyebilir (örneğin, farklı ağ boyutları). SPARC, etiketleme maliyetlerini en aza indirmek için az sayıda etiketli ender kategori örneklerinden öğrenebilir. Ek olarak, SPARC'ın sınıf odaklı temsilinin kullanılması, gömme uzaydaki çoğunluk sınıfı ve azınlık sınıfı geniş bir şekilde ayırabilir ve bu sınıflar, ağ topolojisi ve özellikleri açısından bölünemez.

SPARC'ın kendi ritim modelinin şematik diyagramı

SPARC'yi harekete geçirin

SPARC'ın bu alandaki etkinliğini test etmek için araştırmacılar, bibliyografik işbirliği ağı, NLP ağı ve sosyal ağdan veri setleri topladılar. Algoritma, iki denetimsiz ağ gömme algoritması DeepWalk ve LINE ile ve diğer yarı denetimli PLANETOID çerçevesi ile şu kriterlere göre karşılaştırılır: sınıflandırma doğruluğu, bulunan nadir kategori örneklerinin yüzdesi ve alınan gerçek nadir örneklerin oranı.

Çoğu durumda, SPARC, tüm veri kümeleri ve değerlendirme göstergelerinde en gelişmiş rekabet yöntemlerinden daha iyi performans gösterir. Yarı denetimli gömme ağı, kategorileri ayırmada denetimsiz yöntemlerden daha iyi performans gösterse de, SPARC nadir örnekleri kümelemede mükemmeldir ve nadir kategori olarak işaretlenmiş yalnızca bir örneği kullanarak eğitim yapabilir. Ek olarak, SPARC daha güçlüdür ve karşılaştırma yöntemlerine göre daha az hataya sahiptir.

Tam metin adresi:

SPARC ve üç rakip çerçeve tarafından çıkarılan ağ düzeninin görselleştirilmesi

2. Kim bilir: Doğru kişiyi yerleştirmek için etkileşimli yolları kullanın

Web platformunun en çekici özelliklerinden biri, kullanıcının başkalarıyla bağlantı kurma becerisidir. Örneğin, sosyal medyada, platform yeni bir bağlantı önermeden önce kullanıcıların aktif olarak arkadaş araması bile gerekmeyebilir. Bu ağ platformlarının yüzeyinin altında kullanıcılar arasında devasa bir bağlantı ağı vardır ve bu ağın çoğu "anlamsal yakınlık aramasına" dayanır: ağdaki nesneler sorgular olarak kullanılır ve diğer nesneler anlamsal ilişkilere göre sıralanır. Anlamsal yakınlık araması, bu bağlantıların ima ettiği anlamsal ilişkileri belirlemek için konum, istihdam konumu ve okul gibi özelliklere bakar. Buradan, arama kullanıcıyı bir sorgu olarak alır ve hangi kullanıcıların komşu, meslektaş veya sınıf arkadaşı olabileceğini sorarak onları buna göre sıralar. Bu sıralamalar daha sonra sosyal medyadaki yönlendirme bağlantıları, bibliyografik ağlarda danışman / öneri bağlantıları ve e-ticaret platformlarında kullanıcı kimliklerini birbirine bağlama gibi işlevleri desteklemek için kullanılır.

Geniş bir kullanıcı tabanına sahip sitelerde (Facebook gibi), yukarıda açıklanan heterojen grafikler hızla karmaşık hale gelebilir

Ancak, anlamsal yakınlık araması mükemmel değildir. Heterojen listelerdeki anlamsal ilişkiler her zaman net değildir ve nesneler arasında eksik bağlantılar olabilir. Anlamsal yakınlık üzerine önceki araştırmalar, sorgu nesnesini ve hedef nesneyi bağlayan yola anlamsal yakınlığı ölçmeye çalışmıştı. Bununla birlikte, bu yollar modellemede zayıf bir şekilde birleştirilir ve her yol ayrı ayrı ele alınır. Çıktıları yalnızca son aşamada özetlenir ve modelin nesneler arasındaki karşılıklı bağımlılığın tam bir resmini oluşturma yeteneğini sınırlar. Alibaba'nın teknik ekibi, kullanıcılar arasındaki bağlantıları bulmak için semantik yakın arama yollarını daha güçlü bir şekilde eşleştirmek için Etkileşimli Yol Gömme (IPE) geliştirmek için Zhejiang Üniversitesi ve Singapurun Gelişmiş Dijital Bilim Merkezi'nden araştırmacılarla işbirliği yaptı. Bu bağlantılar olabilir Mevcut taban çizgisi tarafından yok sayılacak.

IPE modelinin oluşturulması

Alibaba'nın araştırma ekibi, aynı anda birden fazla yolu işleyen ve aralarına bağımlılıklar ekleyen etkileşim yolları konseptini tanıttı. Sonuç olarak, bu yolların güçlü bir şekilde bağlı olduğu kabul edilir. Bu etkileşimli yollar daha sonra, kullanıcılar arasındaki tüm anlamsal ilişkileri yakalayabilen düşük boyutlu bir vektöre gömülür.

IPE çerçevesinin modeli

Oradan, araştırmacılar döngüsel olmayan bir yeniden düzenleme mekanizması kullandılar. Grafik yapısındaki döngüler, iki düğümün birbirine ulaşmasını zorlaştırdığı için istenmez. Bu mekanizma, farklı döngüleri ortadan kaldırmak ve yol verimliliğini en üst düzeye çıkarmak için yolların sırasını değiştirir. Daha sonra, geçitli tekrarlayan birim (GRU) mimarisi etkileşim yolunu yerleştirir ve her bir GRU'nun diğer GRU'lardan karşılıklı bağımlılıkları simüle etmesine izin verir. Son olarak, çıktıyı yerleştiren etkileşimli yol yapısı tek bir vektörde toplanır ve bu daha sonra anlamsal ilişkilerin yakınlığını tahmin etmek için kullanılabilir.

Uygulamada IPE

Bu alandaki IPE'nin etkinliğini test etmek için Alibaba'nın teknik ekibi LinkedIn, Facebook, DBLP ve Taobao gibi farklı türde heterojen ağlar aradı. Deneyde, IPE'nin ve diğer birçok anlamsal kullanıcı arama taban çizgisinin görevi, her ağın benzersiz özellik setine göre farklı ilişki türlerini tanımlamaktır. Araştırmacılar, her test sorgusu kullanıcısı ve gerekli her anlamsal ilişki için ideal bir sıralama oluşturdu. Bu ideal sıralamayı, son teknoloji ürünü çeşitli anlamsal kullanıcı arama algoritmaları tarafından oluşturulan sıralamalarla karşılaştırdılar. Tüm bu testlerde, IPE yalnızca rekabetçi temelde iyi performans göstermekle kalmadı, aynı zamanda genellikle kayda değer olan kendi indirgenmiş sürümünde de iyi performans gösterdi. Bu, etkileşimli yol yapısını doğrular ve anlamsal yakınlık araması için heterojen ağlardaki öznitelikler ve dinamiklerle başa çıkmak için IPE'yi genişletme kapısını açar.

Tam metin adresi:

3. Cep telefonunuz aracılığıyla kendi portrenizi çekebilir misiniz?

E-ticaret dönemi, mobil İnternet kullanıcılarının hızlı büyümesine tanık oluyor. Büyük e-ticaret şirketleri artık her gün milyarlarca mobil ziyaret görüyor ve bu kayıtlarda gizli, alışveriş tercihleri ve tarama modelleri gibi değerli kullanıcı davranışı özellikleridir. Bununla birlikte, bu bilgiyi büyük bir veri kümesinden çıkarmak için, kaydın ilgili mobil cihaza bağlanması gerekir Bu işleme mobil erişim kaydı çözünürlüğü (MARR) denir. MARR iki büyük zorlukla karşı karşıyadır:

1. Erişim kaydındaki cihaz tanımlayıcısı ve diğer öznitelikler eksik veya güvenilmez olabilir.

2. Veri seti, milyonlarca cihaz için milyarlarca erişim kaydı içerir.

Şu anda, mobil cihaz tanımlayıcılarının bu kadar büyük ölçekte kullanılması sorununu çözmek için hiçbir yöntem geliştirilmemiştir.

Hangi ekipmanı kullandığınızı bilmeyebiliriz

Uluslararası Telekomünikasyon Birliği'nin (ITU) yeni bir raporuna göre, 2017 yılında küresel mobil İnternet kullanıcılarının (kullanıcı olmayan) sayısı 7,74 milyara ulaştı. Cep telefonları, en yaygın kullanılan dijital platform olarak masaüstü bilgisayarların yerini aldığından, mobil kullanıcıların ziyaret kayıtlarındaki davranış kalıpları tercihlerinin özellikleri çok önemli hale geliyor. Geleneksel bloglarla karşılaştırıldığında, mobil ziyaret kayıtları çoğunlukla kullanıcı davranışını izlemek için çerezlere dayanır, bu nedenle ziyaret kayıtlarında çeşitli kimliklerle İnternet kullanıcılarını daha net anlamak mümkündür. Bu kimlikler şunları içerir:

1. Uluslararası Mobil Ekipman Kimliği (IMEI) - bir cihazı tanımlamak için kullanılan benzersiz bir tanımlayıcı.

2. Uluslararası Mobil Abone Kimliği (IMSI) - SIM kartta depolanan hücresel ağdaki kullanıcıyı tanımlamak için kullanılır.

3. UserTrack cihaz kimliği (UTDID).

IMEI ve IMSI, sırasıyla bir akıllı telefon ve cep telefonu numarasının tanımlayıcılarıdır. Öte yandan, UTDID bu iki donanım tabanlı tanımlayıcıdan tamamen farklıdır çünkü cihaz tanımlaması için Çin'deki çok uluslu bir e-ticaret şirketi olan Alibaba tarafından üretilir ve kullanılır. Bu kimlikler kullanılarak, erişim kayıtları, daha yüksek kaliteli kullanıcı profilleri oluşturmak için ilgili cep telefonlarına veya uygulamalara eşlenebilir. Erişim kayıtlarını cep telefonlarına veya uygulamalara eşlemek basit bir mesele gibi görünüyor, çünkü IMEI, IMSI ve UTDID gibi kimlikler cihazları ve uygulamaları benzersiz şekilde tanımlamak için kullanılabilir. Bununla birlikte, pratik uygulamalardan toplanan veriler mükemmel olmaktan uzaktır. Öznitelik değerleri, gürültülü (sorunlu ve yanıltıcı) kimlik ve kimlik dönüştürme sorunları kaybolacak. Kimlik Kaydırma dönüşümünün bir yolu, cihaz yeni bir SIM kart taktığında yeni bir IMSI elde etmektir.

Mobil ziyaret kayıtlarımızda çok fazla veri var

Cihazımızın kendi kendine konuşmasına izin verin

Alibaba teknik ekibi, erişim kayıtlarındaki bir veya iki kimliğin kimlik dönüşümünün zaman zaman gerçekleşebileceğini, ancak nadiren üç kimliğin hepsinde gerçekleştiğini gözlemledi. Bu gözlemden esinlenerek, belirli mobil cihazlardan erişim kayıtlarını güvenilir bir şekilde tanımlamak için üç kimliğin (IMEI, IMSI, UTDID) (buna "IDSET" adını verdikleri) bir kombinasyonunu kullanırlar. Yukarıda verilen IDSET'in örnek kaydı, IMEI, IMSI ve UTDID'nin birleşimi olan IDSET ile tanımlanır. IDSET konseptine dayanarak, mobil erişim kaydı çözümleme (MARR) problemini tanıttılar. MARR sorununun amacı, her erişim kaydının fiziksel cihazını belirlemektir, çünkü her erişim kaydı belirli bir mobil cihaz tarafından üretilir. Ekibin amacı, erişim kayıtlarını cihaza göre gruplamaktır, bu cihaz kullanıcıları için yapılandırma dosyaları oluşturmak için kullanılabilir. Veri setinin büyük ölçeğinin ve düşük veri kalitesinin esas olarak kimlik aktarım probleminden kaynaklandığı düşünüldüğünde, MARR çok zor bir problemdir. Bu nedenle ekip, mobil erişim kayıtlarını cihazlarla doğru bir şekilde eşleştirmek için (veri setindeki bazı beklenen değerler eksik olduğunda) çok sayıda mobil cihaz analiz verisi içeren seyrek bir tanımlayıcı bağlantı grafiği (SPI-Graph) önerdi. , Veriler, genel olarak büyük ölçekli veri analizinde yaygın bir fenomen olan "seyrek" olarak kabul edilir). Şimdiye kadar, büyük ölçekli gerçek veri kümelerindeki kapsamlı deneysel sonuçlar, ekibin algoritmasının etkinliğini ve verimliliğini doğruladı. Bu sonuçlar aynı zamanda ekibin artık kullanıcı profillerini daha iyi karakterize etmek için belirli cihazların mobil erişim kayıtlarını erişim oturumlarında nasıl daha fazla gruplayabileceklerini araştırmak istediği anlamına geliyor.

Tam metin adresi:

4. Rakiplerinizi tanıyın: Alibaba daha akıllı çevrimiçi dolandırıcılık dedektörlerini nasıl geliştirebilir?

Giderek daha pratik uygulamalarla, makine öğrenimi (ML) sistemleri son zamanlarda umut verici bir çevrimiçi dolandırıcılık tespit aracı haline geldi. Bununla birlikte, sabit veri kümeleriyle ilgilenen çoğu makine öğrenimi görevinde, dolandırıcılık tespiti, maruz kaldığında uyum sağlayabilen akıllı insan aktörler üzerinde çalışır; bu, makine öğrenimi modellerinin kaydırılmış veri kümelerinde statik olma eğiliminde olduğu anlamına gelir. Değişen rakiplere karşı daha dirençli dedektörler inşa etmeye yönelik önceki çabalar, sınıflandırma ve özellik tanıma geliştirme, ezberci yüzleşme eğitimi ve derin sinir ağı uygulamaları gibi yöntemlere dayanıyordu. Her birinin kendi sınırlamaları vardır, ancak tekrar eden önemli bir sorun "kara kutu" sorunudur. Araştırmacılar genellikle bu yöntemlerin iç işleyişi hakkında ayrıntılı bilgi elde edemezler ve bu yöntemleri daha da geliştirmelerine yardımcı olabilecek önemli içgörüleri reddederler. Şimdi, Alibaba araştırmacıları, ML modelinin işleyişinin incelenmesine dayalı, mekanizmasının bilgisini kullanarak eğitmeleri için daha güçlü rakipler oluşturmaya dayalı bir rakip eğitim yöntemi geliştirdiler. Dedektörün toptan sağlamlığını iyileştirmenin yanı sıra, minimum bilgi işlem kaynaklarından zorlu yeni düşmanlar yaratma çabaları, gerçek dolandırıcılık faillerinin keşfedildikten sonra belirli bir konumdan nasıl uyum sağlayabileceklerini ortaya çıkarmaya yardımcı olabilir. İstenmeyen posta gönderenlerin temelde insan aracılar olduğu ve uyarlanırken sınırlı kaynak harcadıkları varsayımına dayanan bu yöntem, önceki saldırıların konumuna göre gelecekteki saldırıların "yönünün" nasıl tahmin edileceğini gösterir.

Kara kutuyu işaretleyin

Makine öğrenimi dolandırıcılık algılama sistemi, içeriğin filtrelenmesi için sınıflandırıcılara dayanır ve doğru şekilde etiketlenme olasılıklarına bağlı olarak, bazı spam gönderenleri yüksek güvenilir olarak ve diğer örnekleri düşük güvenilir örnekler olarak ele alır. Çok sayıda spam gönderen varlık kendi düşük güven bölgesine girdiğinde, sınıflandırıcı savunmasız hale gelir, çünkü spam gönderenlerin kaçınılması kolay (EP) örneklerindeki küçük değişiklikler bile bunların yanlış bir şekilde yasal içerik olarak sınıflandırılmasına neden olabilir. . Alibaba ekibi, araştırma amacıyla bu EP örneklerini dedektör eğitimi için güçlü karşı önlem örnekleri oluşturmak üzere "tohum" olarak ele alıyor. Daha sonra, tohumların sınıflandırma mekanizmasından kaçmak için en savunmasız olduğu yönü belirlemeye çalışırlar, böylece minimum çabayla tespiti atlarlar. Bu bulguları kullanarak, gerçek kötü niyetli davranışları taklit eden düşmanlar oluşturdular ve daha güçlü tespit mekanizmalarını etkin bir şekilde eğitmek için gereken toplam saldırgan sayısını azalttılar. Ekip, sınırları boyunca tanıtılan her bir düşmana tepkisini analiz etmek için makine öğrenimi mekanizmasının bilgisini kullanarak, her duruma özgü bir yerel yorumlayıcı işlevi türetir. Bu bilgilerle, deneme sırasında ortaya çıkan bireysel spam tehditlerinin evrimini daha iyi değerlendirmek için genel mekanizmayı güncellediler.

Yeni sistem, kaçınılması kolay örnekleri belirler, potansiyel kaçınma stratejilerini analiz eder ve tespit modelini buna göre günceller

Yelp Review ve Twitter gönderi verileriyle yapılan deneylere dayanarak, dikkatli rakip seçimi, daha zorlu saldırı simülasyonları oluşturmada etkili oldu ve deney sırasında sınıflandırıcıdaki zayıflıklar hakkında birçok bilgi sağladı. Bu araştırma sonuçları daha sonra, gelecekteki tespit çerçevelerinin etkinliğini güçlendirmek için kullanılabilecek çeşitli saldırılar için etkili savunma stratejileri formüle etmek için kullanılır. Geleceğe bakan Alibaba, yüksek boyutlu ham verilerle ve örnekler arasındaki ilişkisel bağlantıların veri kümeleriyle başa çıkmak için spam algılama çabalarını genişletmeye çalışıyor.

Tam metin adresi:

Dört makaleyi paketleyip indirmek üzere AI Araştırma Topluluğu topluluğuna geçmek için https://club.leiphone.com/page/resourceDetail/409 adresini ziyaret edin.

Ülkedeki ilk AI + 5G operasyonu tamamlandı; Ofo iflas söylentilerine yanıt verdi; Wang Xing, Ali CEO'sunun halefi hakkında konuşuyor | Lei Feng
önceki
Honda'nın yeni Odyssey resmi haritası yayınlandı: dış ve iç konfigürasyonlar yükseltildi
Sonraki
Kapsamlı yükseltme "performans gücü", vivo Z3 piyasaya sürüldü: 1598 yuan'dan
Ekran altı kazma tasarımı ve çift ön kamera ile Samsung ile uyumlu Pixel 4 XL görüntüleri ortaya çıktı
"Batıya Yolculuk" "Deniz Kızı" gişesi 5 milyar, Wei Jie: Stephen Chow ile daha fazla işbirliği
Jackie Chan ve Jet Li arasındaki tek ekran işbirliği Hollywood'daydı ve çekim yine Çin Kung Fu'ydu.
Test sürüşü GAC Toyota Ralink Shuangqing E +: Klasik hibrit teknolojisi geçiliyor
998 yuan, yeni nesil hazır erişte eseri! Yeni Kindle Paperwhite resmi olarak piyasaya sürüldü
OPPO Reno renk düzeni açıklandı, 48 milyon piksel + 10x kayıpsız optik yakınlaştırma, iyi kamera yetenekleri
Geliştirme Gözlerinizin bilgisayarı kontrol etmesine izin vermek için derin öğrenme teknolojisini kullanın
McLaren F1 / P1 halefi model 1 + 2 koltuk düzeninin casus fotoğrafları
Jiang Wen'in "Çin Cumhuriyeti Üçlemesi", Dünya Kupası ile mükemmel bir şekilde örtüşüyor. "Kötülük, Doğruluğu Bastırmaz"?
Yang Mi, Di Lieba ve Zhang Binbin'in değeri 5 milyar mı?
Kazanan sneaker'ı tahmin ettiniz mi? Crepe City 2017 spor ayakkabı TOP 20 en pahalı spor ayakkabıyı gösteriyor!
To Top