g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Alibaba'da hiper ölçekli grafik hesaplamanın uygulamaları nelerdir? İlk olarak dört KDD sözlü makalesine bakın (basılı olarak indirilebilir) KDD 2018

Leifeng.com AI Technology Review: Bu makale, Alibaba tarafından sağlanan bir KDD 2018 yorumlama el yazmasıdır. Bu olay, Leifeng.com akademik kanalının AI Technology Review altındaki "AI Impact Factor" veritabanı projesinde karşılık gelen bir bonusa sahiptir.

Son 30 yılda, yüksek kaliteli deneysel teknolojinin ve yüksek hızlı İnternet bağlantılarının ortaya çıkmasıyla, giderek daha fazla miktarda veri otomatik olarak üretilebilir ve iletilebilir. Bunu takiben, endüstri, akademi ve hatta bireyler büyük ölçekli veri işlemenin zorluklarıyla yüzleşmelidir.Bu büyük miktardaki yüksek boyutlu heterojen verilerden değerli bilgilerin nasıl çıkarılacağı, veri madenciliği uygulayıcıları için her zaman bir çözüm olmuştur. Sorun. "Veri madenciliği", genellikle "bir veritabanında bilgi keşfi", büyük veri kümelerini otomatik olarak yorumlamaya çalışmak için çeşitli istatistiklerden, makine öğreniminden, yapay zeka modellerinden ve uyumlu bilgi işlem platformlarından tam olarak yararlanan bir etki alanları arasıdır. Disiplinlerarası. KDD (ACM SIGKDD KONFERANSI ON BİLGİ KEŞFETME VE VERİ MADENCİLİĞİ) bu alandaki en önemli konferanstır. KDD tarafından alınan gerçek verilerden ve ilgili işlerden ve makalelerden, veri madenciliğindeki birkaç önemli gelişme eğilimini özetleyebiliriz:

Çok modlu veri madenciliği: Teknoloji, ses, video, metin, görüntü vb. Gibi birden çok kanaldan daha etkili bir şekilde veri toplayabildiğinden, bu aynı zamanda giderek daha fazla dikkat çeken bir yöndür ve verilerin kendisi daha etkilidir Çeşitli şekillerde saklanır. Çok görevli öğrenme, aktarımla öğrenme ve pekiştirmeli öğrenme gibi etkili etki alanları arası modellemenin nasıl yürütüleceği anahtar geliştirme modelleridir.

Küresel veri madenciliği: Bu yöntem, bireyler hakkında bilgi elde etmek için mobil cihazlardan ve IoT cihazlarından veri madenciliği yapılmasını içerir. Bu türde karmaşıklık, mahremiyet, maliyet vb. Gibi çeşitli zorluklar olmasına rağmen, bu yöntem çeşitli endüstrilerde, özellikle insan-bilgisayar etkileşimi çalışmasında büyük fırsatlara sahiptir.

Dağıtılmış veri madenciliği: Bu tür veri madenciliği, farklı şirket lokasyonlarında veya farklı organizasyonlarda depolanan büyük miktarda bilginin madenciliğini içerdiği ve herhangi bir algoritmanın ağ çapında verileri bağımsız bir sürümde gerçekleştirmesi zor olduğu için giderek daha popüler hale gelmektedir. Eğitim ve akıl yürütme. Ek olarak, farklı konumlardan veri çıkarmak ve bunlara dayalı uygun içgörüler ve raporlar sağlamak için daha uyarlanabilir algoritmalar da kullanılabilir.

Uzamsal-zamansal veri madenciliği: Bu, uzaydan elde edilen görüntüler dahil olmak üzere periyodik ve mevsimsel eğilimlerle çevresel, astronomik ve coğrafi verilerden bilgilerin çıkarılmasını içeren yeni bir trend veri madenciliği türüdür. Bu tür veri madenciliği, mesafe ve topoloji gibi çeşitli yönleri ortaya çıkarabilir. Esas olarak dinamik coğrafi bilgi sistemlerinde ve diğer navigasyon uygulamalarında kullanılır.Bu yaklaşım aynı zamanda normal olay serilerinin dışında meydana gelen rastgele olayları analiz etmeye de yardımcı olur. Bizimle yakından ilgili konular giderek daha popüler hale geliyor.Örneğin, yeni perakendede, müşterilerin ziyaret modellerini ve davranışlarını modellemek için dinamik çevrimiçi ve çevrimdışı verilerin etkili bir şekilde nasıl birleştirileceği çok zorlu bir mekansal-zamansal veri modeli problemidir.

Grafik hesaplama modeli, büyük veri şirketlerinde, özellikle BT şirketlerinde çok popüler bir modeldir, çünkü birçok pratik soruna en doğrudan çözümdür. Grafik hesaplama, kabaca homojen grafiklere ve heterojen grafiklere bölünebilir. İkincisi, düğüm veya kenar tipinin 2'den büyük veya eşit olduğu zamandır. Ek olarak, bilgi grafikleri aynı zamanda heterojen grafiklerin önemli bir uygulaması, yani semantiğe dayalı anlambilimsel bir grafik modelidir. İyi bilinen LPA, Random Walk ve çeşitli deformasyonlar, CC, vb. Gibi geleneksel grafik hesaplama modellerine ek olarak, derin öğrenmenin başarısı ile Grafik Gömme giderek daha popüler hale geldi. Basitçe ifade etmek gerekirse, Grafik Gömme ayrıca derin öğrenme modelleri aracılığıyla düğümler veya kenarlar üzerinde özellik mühendisliği gerçekleştirir. Son yıllarda, verilerin çeşitlendirilmesi, veri hacmindeki önemli artış ve bilgi işlem gücünün çığır açan ilerlemesiyle grafik hesaplamanın geliştirilmesi ve uygulanması hızla arttı. Büyük şirketler ayrıca Google Pregel gibi grafik hesaplama platformlarını da başlattı, Facebook Giraph, Tencent Star Atlas, Huawei GES, vb.

Bunların arasında, ultra büyük ölçekli grafik veri madenciliği, önceki eğilimlerin bir özeti olarak da düşünülebilir ve aynı zamanda önümüzdeki 3 ila 5 yıl içinde veri madenciliği için büyük bir konsantre parlama noktası olacaktır. Örneğin, DeepMind, Google Brain ve MIT gibi 27 yazar yakın zamanda, saf derin öğrenmenin olgunlaştığını ve grafik hesaplamaya dayalı derin öğrenmenin, derin öğrenme problemini çözmesi beklenen tümevarımlı akıl yürütmeyle uçtan uca öğrenmeyi birleştirdiğini belirten ağır makaleler yayınladı. Muhakeme sorunu. Çok büyük ölçekli grafik hesaplama, büyük veri şirketlerinde, özellikle derin öğrenme ve grafik hesaplamayı birleştiren büyük ölçekli grafik gösterimi ile temsil edilen bir dizi algoritma, giderek daha önemli bir rol oynamaktadır.

Çok büyük ölçekli grafik hesaplama, büyük veri şirketlerinde giderek daha önemli bir rol oynamaktadır.Özellikle, derin öğrenme ve grafik hesaplama ile birleştirilen büyük ölçekli grafik gösterimi ile temsil edilen bir dizi algoritma, Ali'nin birçok iş senaryosunda aşamalı sonuçlar elde etmiştir. Alibaba ekosisteminin verileri, alışveriş ve seyahatten eğlence ve ödemeye kadar tüm bilgileri kapsayan son derece zengin ve çeşitlidir. Örneğin, önemli bir bilgi filtreleme aracı olarak, kişiselleştirilmiş öneri sistemi alışkanlıklarımıza ve hobilerimize göre uygun mal veya hizmetleri önerebilir.Ancak, geleneksel öneri sistemleri seyreklik, soğuk başlangıç ve bilgi tekrarı sorunlarına eğilimlidir, bilgi grafikleri ise Büyük ölçekli grafik temsilinin önemli bir modeli olarak, gerçek kişilerin küresel bilgilerini etkili bir şekilde birleştirebilen, herkesin ihtiyaçlarını gerçekten benimseyen ve anlayabilen ve her bir iş alanında tüketicilerin gerçek bilgilerini sunabilen yeni bir öneri yardımcı bilgisi türü haline geliyor. Potansiyel ilgi ürünleri. Milyarlarca düğüm ve 100 milyardan fazla uçta çıkarım analizini verimli bir şekilde gerçekleştirebilen yeni nesil bir öneri sistemi geliştirmek için çalışıyoruz. Bu zorluğa dayanarak, bilgi alma, dağıtılmış hesaplama, büyük ölçekli sistem tasarımı, makine öğrenimi, yapay zeka ve doğal dil işleme gibi ilgili alanlarda yeni fikirler getirebilecek mühendisler ve bilim adamlarını bulmak için elimizden gelenin en iyisini yapıyoruz. Bu konuyla ilgilenen öğrenciler, yazarla (yang.yhx@alibaba-inc.com) daha derinlemesine bir tartışma yapabilirler.

Aşağıda, son dönemdeki başarılarımızdan ve KDD tarafından kabul edilen makalelerden bazılarını özellikle tanıtacağız:

dolandırıcılık tespiti ( SPARC: Az Atış Nadir Kategori Karakterizasyonu için Kendi Hızında Ağ Temsili) ;Öneri (Heterojen Grafiklerde Anlamsal Yakınlık Araması için Etkileşimli Yollar Gömme) Varlık çözünürlüğü (Büyük Ölçekli Tanımlayıcı-Bağlantı Grafiklerinde Mobil Erişim Kaydı Çözünürlüğü) derin model yorumları ile (Model Yorumuyla Karşıtlık Tespiti).

1. SPARC of dahi: Alibaba'nın nadir sınıflandırma analizindeki ilerlemesi

Çevrimiçi platformlarda, nadir veriler genellikle en değerlidir. Nadir kategori analizi, bilgisayar ağına izinsiz girişleri önlemek, sosyal medyadaki sıcak konuları belirlemek ve hileli çevrimiçi işlemleri tespit etmek için gereklidir. Ancak bu verileri bulmak zor olabilir. Samanlıkta iğne bulmanın atasözü gibi, bunlar genellikle normal veri noktaları arasında gizlidir ve onlardan ayrılamaz ve nadir kategori örneklerini işaretlemek çok pahalıdır. Veri setindeki nadir kategorileri etkin bir şekilde analiz edebilmek için algoritmanın hızlı öğrenen olması gerekir. Alibaba'nın teknik ekibi, nadir kategori odaklı ağ temsilini ve temsil modellerini karşılıklı olarak yararlı bir şekilde kademeli olarak öğrenen, kendi hızına uygun bir çerçeve olan SPARC'yi oluşturmak için Arizona Eyalet Üniversitesi ve Tencent Tıbbi Yapay Zeka Laboratuvarı ile birlikte çalıştı.

Kendi hızınızda öğrenin

SPARC, kurs öğreniminden ilham almıştır. Müfredat öğrenme paradigması, insanın bilişsel sürecini taklit eder: temel model, görevin basit yönünden, önceden belirlenmiş müfredata dayalı olarak daha zor yönüne doğru eğitilir.

Bu kavram birçok farklı durumda uygulanmış olsa da, deneme yanılma tasarımının gerçek dünyada uygulanması zordur. Bununla birlikte, yeni bir öğrenme paradigması, kayıp işlevini en aza indirmek için kendi hızına göre ayarlanan bir düzenleyici kullanarak dersleri otomatik olarak öğrenir. Buna kendi kendine öğrenme denir. Araştırma ekibi, bu kendi kendine ilerleyen öğrenme kavramını temel alır ve nadir kategori yerleştirme temsillerini ve temsil modellerini kademeli olarak ve eşzamanlı olarak öğrenmek için etiketli örneklerin olmadığı nadir kategori analizi senaryolarına uygular. SPARC ayrıca grafik yerleştirmeleri öğrenir ve nadir kategori örneklerini karşılıklı yarar sağlayacak şekilde tahmin eder. Çerçeve, belirli bir ağdaki dengesiz üyeliği modelleyebilir (örneğin, farklı ağ boyutları). SPARC, etiketleme maliyetlerini en aza indirmek için az sayıda etiketli ender kategori örneklerinden öğrenebilir. Ek olarak, SPARC'ın sınıf odaklı temsilinin kullanılması, gömme uzaydaki çoğunluk sınıfı ve azınlık sınıfı geniş bir şekilde ayırabilir ve bu sınıflar, ağ topolojisi ve özellikleri açısından bölünemez.

SPARC'ın kendi ritim modelinin şematik diyagramı

SPARC'yi harekete geçirin

SPARC'ın bu alandaki etkinliğini test etmek için araştırmacılar, bibliyografik işbirliği ağı, NLP ağı ve sosyal ağdan veri setleri topladılar. Algoritma, iki denetimsiz ağ gömme algoritması DeepWalk ve LINE ile ve diğer yarı denetimli PLANETOID çerçevesi ile şu kriterlere göre karşılaştırılır: sınıflandırma doğruluğu, bulunan nadir kategori örneklerinin yüzdesi ve alınan gerçek nadir örneklerin oranı.

Çoğu durumda, SPARC, tüm veri kümeleri ve değerlendirme göstergelerinde en gelişmiş rekabet yöntemlerinden daha iyi performans gösterir. Yarı denetimli gömme ağı, kategorileri ayırmada denetimsiz yöntemlerden daha iyi performans gösterse de, SPARC nadir örnekleri kümelemede mükemmeldir ve nadir kategori olarak işaretlenmiş yalnızca bir örneği kullanarak eğitim yapabilir. Ek olarak, SPARC daha güçlüdür ve karşılaştırma yöntemlerine göre daha az hataya sahiptir.

Tam metin adresi:

SPARC ve üç rakip çerçeve tarafından çıkarılan ağ düzeninin görselleştirilmesi

2. Kim bilir: Doğru kişiyi yerleştirmek için etkileşimli yolları kullanın

Web platformunun en çekici özelliklerinden biri, kullanıcının başkalarıyla bağlantı kurma becerisidir. Örneğin, sosyal medyada, platform yeni bir bağlantı önermeden önce kullanıcıların aktif olarak arkadaş araması bile gerekmeyebilir. Bu ağ platformlarının yüzeyinin altında kullanıcılar arasında devasa bir bağlantı ağı vardır ve bu ağın çoğu "anlamsal yakınlık aramasına" dayanır: ağdaki nesneler sorgular olarak kullanılır ve diğer nesneler anlamsal ilişkilere göre sıralanır. Anlamsal yakınlık araması, bu bağlantıların ima ettiği anlamsal ilişkileri belirlemek için konum, istihdam konumu ve okul gibi özelliklere bakar. Buradan, arama kullanıcıyı bir sorgu olarak alır ve hangi kullanıcıların komşu, meslektaş veya sınıf arkadaşı olabileceğini sorarak onları buna göre sıralar. Bu sıralamalar daha sonra sosyal medyadaki yönlendirme bağlantıları, bibliyografik ağlarda danışman / öneri bağlantıları ve e-ticaret platformlarında kullanıcı kimliklerini birbirine bağlama gibi işlevleri desteklemek için kullanılır.

Geniş bir kullanıcı tabanına sahip sitelerde (Facebook gibi), yukarıda açıklanan heterojen grafikler hızla karmaşık hale gelebilir

Ancak, anlamsal yakınlık araması mükemmel değildir. Heterojen listelerdeki anlamsal ilişkiler her zaman net değildir ve nesneler arasında eksik bağlantılar olabilir. Anlamsal yakınlık üzerine önceki araştırmalar, sorgu nesnesini ve hedef nesneyi bağlayan yola anlamsal yakınlığı ölçmeye çalışmıştı. Bununla birlikte, bu yollar modellemede zayıf bir şekilde birleştirilir ve her yol ayrı ayrı ele alınır. Çıktıları yalnızca son aşamada özetlenir ve modelin nesneler arasındaki karşılıklı bağımlılığın tam bir resmini oluşturma yeteneğini sınırlar. Alibaba'nın teknik ekibi, kullanıcılar arasındaki bağlantıları bulmak için semantik yakın arama yollarını daha güçlü bir şekilde eşleştirmek için Etkileşimli Yol Gömme (IPE) geliştirmek için Zhejiang Üniversitesi ve Singapurun Gelişmiş Dijital Bilim Merkezi'nden araştırmacılarla işbirliği yaptı. Bu bağlantılar olabilir Mevcut taban çizgisi tarafından yok sayılacak.

IPE modelinin oluşturulması

Alibaba'nın araştırma ekibi, aynı anda birden fazla yolu işleyen ve aralarına bağımlılıklar ekleyen etkileşim yolları konseptini tanıttı. Sonuç olarak, bu yolların güçlü bir şekilde bağlı olduğu kabul edilir. Bu etkileşimli yollar daha sonra, kullanıcılar arasındaki tüm anlamsal ilişkileri yakalayabilen düşük boyutlu bir vektöre gömülür.

IPE çerçevesinin modeli

Oradan, araştırmacılar döngüsel olmayan bir yeniden düzenleme mekanizması kullandılar. Grafik yapısındaki döngüler, iki düğümün birbirine ulaşmasını zorlaştırdığı için istenmez. Bu mekanizma, farklı döngüleri ortadan kaldırmak ve yol verimliliğini en üst düzeye çıkarmak için yolların sırasını değiştirir. Daha sonra, geçitli tekrarlayan birim (GRU) mimarisi etkileşim yolunu yerleştirir ve her bir GRU'nun diğer GRU'lardan karşılıklı bağımlılıkları simüle etmesine izin verir. Son olarak, çıktıyı yerleştiren etkileşimli yol yapısı tek bir vektörde toplanır ve bu daha sonra anlamsal ilişkilerin yakınlığını tahmin etmek için kullanılabilir.

Uygulamada IPE kullanımı

Bu alandaki IPE'nin etkinliğini test etmek için Alibaba'nın teknik ekibi LinkedIn, Facebook, DBLP ve Taobao gibi farklı türde heterojen ağlar aradı. Deneyde, IPE'nin ve diğer birçok anlamsal kullanıcı arama taban çizgisinin görevi, her ağın benzersiz özellik setine göre farklı ilişki türlerini tanımlamaktır. Araştırmacılar, her test sorgusu kullanıcısı ve gerekli her anlamsal ilişki için ideal bir sıralama oluşturdu. Bu ideal sıralamayı, son teknoloji ürünü çeşitli anlamsal kullanıcı arama algoritmaları tarafından oluşturulan sıralamalarla karşılaştırdılar. Tüm bu testlerde, IPE yalnızca rekabetçi temelde iyi performans göstermekle kalmadı, aynı zamanda genellikle kayda değer olan kendi indirgenmiş sürümünde de iyi performans gösterdi. Bu, etkileşimli yol yapısını doğrular ve anlamsal yakınlık araması için heterojen ağlardaki öznitelikler ve dinamiklerle başa çıkmak için IPE'yi genişletme kapısını açar.

Tam metin adresi:

3. Cep telefonunuz aracılığıyla kendi portrenizi çekebilir misiniz?

E-ticaret dönemi, mobil İnternet kullanıcılarının hızlı büyümesine tanık oluyor. Büyük e-ticaret şirketleri artık her gün milyarlarca mobil ziyaret görüyor ve bu kayıtlarda gizli, alışveriş tercihleri ve tarama modelleri gibi değerli kullanıcı davranışı özellikleridir. Bununla birlikte, bu bilgiyi büyük bir veri kümesinden çıkarmak için, kaydın ilgili mobil cihaza bağlanması gerekir Bu işleme mobil erişim kaydı çözünürlüğü (MARR) denir. MARR iki büyük zorlukla karşı karşıyadır:

1. Erişim günlüğündeki cihaz tanımlayıcı ve diğer özellikler eksik veya güvenilmez olabilir.

2. Veri seti, milyonlarca cihazdan gelen milyarlarca erişim kaydını içerir.

Şu anda, mobil cihaz tanımlayıcılarının bu kadar büyük ölçekte kullanılması sorununu çözmek için hiçbir yöntem geliştirilmemiştir.

Hangi cihazı kullandığınızı bilmeyebiliriz

Uluslararası Telekomünikasyon Birliği'nin (ITU) yeni bir raporuna göre, 2017 yılında küresel mobil İnternet kullanıcılarının (kullanıcı olmayan) sayısı 7,74 milyara ulaştı. Cep telefonları, en yaygın kullanılan dijital platform olarak masaüstü bilgisayarların yerini aldığından, mobil kullanıcıların ziyaret kayıtlarındaki davranış kalıpları tercihlerinin özellikleri çok önemli hale geliyor. Geleneksel bloglarla karşılaştırıldığında, mobil ziyaret kayıtları çoğunlukla kullanıcı davranışını izlemek için çerezlere dayanır, bu nedenle ziyaret kayıtlarında çeşitli kimliklerle İnternet kullanıcılarını daha net anlamak mümkündür. Bu kimlikler şunları içerir:

1. Uluslararası Mobil Ekipman Kimliği (IMEI) - bir cihazı tanımlamak için kullanılan benzersiz bir tanımlayıcı.

2. Uluslararası Mobil Abone Kimliği (IMSI) - SIM kartta depolanan hücresel ağdaki kullanıcıları tanımlamak için kullanılır.

3. UserTrack cihaz kimliği (UTDID).

IMEI ve IMSI, sırasıyla bir akıllı telefon ve cep telefonu numarasının tanımlayıcılarıdır. Öte yandan, UTDID bu iki donanım tabanlı tanımlayıcıdan tamamen farklıdır çünkü cihaz tanımlaması için Çin'deki çok uluslu bir e-ticaret şirketi olan Alibaba tarafından üretilir ve kullanılır. Bu kimlikler kullanılarak, erişim kayıtları, daha yüksek kaliteli kullanıcı profilleri oluşturmak için ilgili cep telefonlarına veya uygulamalara eşlenebilir. Erişim kayıtlarını cep telefonlarına veya uygulamalara eşlemek basit bir mesele gibi görünüyor, çünkü IMEI, IMSI ve UTDID gibi kimlikler cihazları ve uygulamaları benzersiz şekilde tanımlamak için kullanılabilir. Bununla birlikte, pratik uygulamalardan toplanan veriler mükemmel olmaktan uzaktır. Öznitelik değerleri, gürültülü (sorunlu ve yanıltıcı) kimlik ve kimlik dönüştürme sorunları kaybolacak. Kimlik Kaydırma dönüşümünün bir yolu, cihaz yeni bir SIM kart taktığında yeni bir IMSI elde etmektir.

Mobil ziyaret kayıtlarımızda çok fazla veri var

Ekipmanımızın kendi kendine konuşmasına izin verin

Alibaba teknik ekibi, erişim kayıtlarındaki bir veya iki kimliğin kimlik dönüşümünün zaman zaman gerçekleşebileceğini, ancak nadiren üç kimliğin hepsinde gerçekleştiğini gözlemledi. Bu gözlemden esinlenerek, belirli mobil cihazlardan erişim kayıtlarını güvenilir bir şekilde tanımlamak için üç kimliğin (IMEI, IMSI, UTDID) (buna "IDSET" adını verdikleri) bir kombinasyonunu kullanırlar. Yukarıda verilen IDSET'in örnek kaydı, IMEI, IMSI ve UTDID'nin birleşimi olan IDSET ile tanımlanır. IDSET konseptine dayanarak, mobil erişim kaydı çözümleme (MARR) problemini tanıttılar. MARR sorununun amacı, her erişim kaydının fiziksel cihazını belirlemektir, çünkü her erişim kaydı belirli bir mobil cihaz tarafından üretilir. Ekibin amacı, erişim kayıtlarını cihaza göre gruplamaktır, bu cihaz kullanıcıları için yapılandırma dosyaları oluşturmak için kullanılabilir. Veri setinin büyük ölçeğinin ve düşük veri kalitesinin esas olarak kimlik aktarım probleminden kaynaklandığı düşünüldüğünde, MARR çok zor bir problemdir. Bu nedenle ekip, mobil erişim kayıtlarını cihazlarla doğru bir şekilde eşleştirmek için (veri setindeki bazı beklenen değerler eksik olduğunda) çok sayıda mobil cihaz analiz verisi içeren seyrek bir tanımlayıcı bağlantı grafiği (SPI-Graph) önerdi. , Veriler, genel olarak büyük ölçekli veri analizinde yaygın bir fenomen olan "seyrek" olarak kabul edilir). Şimdiye kadar, büyük ölçekli gerçek veri kümelerindeki kapsamlı deneysel sonuçlar, ekibin algoritmasının etkinliğini ve verimliliğini doğruladı. Bu sonuçlar aynı zamanda ekibin artık kullanıcı profillerini daha iyi karakterize etmek için belirli cihazların mobil erişim kayıtlarını erişim oturumlarında nasıl daha fazla gruplayabileceklerini araştırmak istediği anlamına geliyor.

Tam metin adresi:

4. Rakibinizi tanıyın: Alibaba daha akıllı çevrimiçi dolandırıcılık dedektörlerini nasıl geliştirebilir?

Giderek daha pratik uygulamalarla, makine öğrenimi (ML) sistemleri son zamanlarda umut verici bir çevrimiçi dolandırıcılık tespit aracı haline geldi. Bununla birlikte, sabit veri kümeleriyle ilgilenen çoğu makine öğrenimi görevinde, dolandırıcılık tespiti, maruz kaldığında uyum sağlayabilen akıllı insan aktörler üzerinde çalışır; bu, makine öğrenimi modellerinin kaydırılmış veri kümelerinde statik olma eğiliminde olduğu anlamına gelir. Değişen rakiplere karşı daha dirençli dedektörler inşa etmeye yönelik önceki çabalar, sınıflandırma ve özellik tanıma geliştirme, ezberci yüzleşme eğitimi ve derin sinir ağı uygulamaları gibi yöntemlere dayanıyordu. Her birinin kendi sınırlamaları vardır, ancak tekrar eden önemli bir sorun "kara kutu" sorunudur. Araştırmacılar genellikle bu yöntemlerin iç işleyişi hakkında ayrıntılı bilgi elde edemezler ve bu yöntemleri daha da geliştirmelerine yardımcı olabilecek önemli içgörüleri reddederler. Şimdi, Alibaba araştırmacıları, ML modelinin işleyişinin incelenmesine dayalı, mekanizmasının bilgisini kullanarak eğitmeleri için daha güçlü rakipler oluşturmaya dayalı bir rakip eğitim yöntemi geliştirdiler. Dedektörün toptan sağlamlığını iyileştirmenin yanı sıra, minimum bilgi işlem kaynaklarından zorlu yeni düşmanlar yaratma çabaları, gerçek dolandırıcılık faillerinin keşfedildikten sonra belirli bir konumdan nasıl uyum sağlayabileceklerini ortaya çıkarmaya yardımcı olabilir. İstenmeyen posta gönderenlerin temelde insan aracılar olduğu ve uyarlanırken sınırlı kaynak harcadıkları varsayımına dayanan bu yöntem, önceki saldırıların konumuna göre gelecekteki saldırıların "yönünün" nasıl tahmin edileceğini gösterir.

Kara kutuyu işaretleyin

Makine öğrenimi dolandırıcılık algılama sistemi, içeriğin filtrelenmesi için sınıflandırıcılara dayanır ve doğru şekilde etiketlenme olasılıklarına bağlı olarak, bazı spam gönderenleri yüksek güvenilir olarak ve diğer örnekleri düşük güvenilir örnekler olarak ele alır. Çok sayıda spam gönderen varlık kendi düşük güven bölgesine girdiğinde, sınıflandırıcı savunmasız hale gelir, çünkü spam gönderenlerin kaçınılması kolay (EP) örneklerindeki küçük değişiklikler bile bunların yanlış bir şekilde yasal içerik olarak sınıflandırılmasına neden olabilir. . Alibaba ekibi, araştırma amacıyla bu EP örneklerini dedektör eğitimi için güçlü karşı önlem örnekleri oluşturmak üzere "tohum" olarak ele alıyor. Daha sonra, tohumların sınıflandırma mekanizmasından kaçmak için en savunmasız olduğu yönü belirlemeye çalışırlar, böylece minimum çabayla tespiti atlarlar. Bu bulguları kullanarak, gerçek kötü niyetli davranışları taklit eden düşmanlar oluşturdular ve daha güçlü tespit mekanizmalarını etkin bir şekilde eğitmek için gereken toplam saldırgan sayısını azalttılar. Ekip, sınırları boyunca tanıtılan her bir düşmana tepkisini analiz etmek için makine öğrenimi mekanizmasının bilgisini kullanarak, her duruma özgü bir yerel yorumlayıcı işlevi türetir. Bu bilgilerle, deneme sırasında ortaya çıkan bireysel spam tehditlerinin evrimini daha iyi değerlendirmek için genel mekanizmayı güncellediler.

Yeni sistem, kaçınılması kolay örnekleri belirler, potansiyel kaçınma stratejilerini analiz eder ve tespit modelini buna göre günceller

Yelp Review ve Twitter gönderi verileriyle yapılan deneylere dayanarak, dikkatli rakip seçimi, daha zorlu saldırı simülasyonları oluşturmada etkili oldu ve deney sırasında sınıflandırıcıdaki zayıflıklar hakkında birçok bilgi sağladı. Bu araştırma sonuçları daha sonra, gelecekteki tespit çerçevelerinin etkinliğini güçlendirmek için kullanılabilecek çeşitli saldırılar için etkili savunma stratejileri formüle etmek için kullanılır. Geleceğe bakan Alibaba, yüksek boyutlu ham verilerle ve örnekler arasındaki ilişkisel bağlantıların veri kümeleriyle başa çıkmak için spam algılama çabalarını genişletmeye çalışıyor.

Tam metin adresi:

Dört makaleyi paketleyip indirmek üzere AI Araştırma Topluluğu topluluğuna geçmek için bu bağlantıyı tıklayın.

Yılın Honor V20 amiral gemisi Avrupa'da piyasaya sürülecek, 22 Ocak'ta Paris, Fransa'da görüşmek üzere!

Ana araç bakımı (15) FAW-Volkswagen Jetta bakımı ayrıntılı

: "Komedinin Yeni Kralı" kadın versiyonu Yin Tianqiu doğdu. Zhou Xingchi, "kadınlar daha güçlü" diye övdü

: Şeref kralı eski sürücüyü kuleden çalar, bu kahramanlar durmadan sürer

: Yeni Changan CS75 casus fotoğrafları yumuşak orta konsol / panoramik açılır tavan

: Milyarları kıran film bir ağza bağlıdır, Marvelin en popüler "Deep Well Ice" kahramanı Deadpool hayranları tarafından havaya uçuruldu

: Merhamet için bana yalvar, seni şiddetle reddedeceğim

: Yapay zeka, makaleler yayınlamak için nasıl ekip oluşturacağınızı söylüyor? KDD 2018 belgesi, çoklu ve çoklu set türleri için bir temsil öğrenme yöntemi önermektedir.

: 11. South Coast Üniversitesi'nin okul dışı eğitim kurumları grup promosyonları düzenliyor, "kara listeye" okullar hala öğrenci kaydettiriyor

: Gençler için modaya uygun seçim Huawei nova4

: Kral sihirli bir silahtır! En son Snapdragon 835 cep telefonu önerisi

: Hisense Akıllı Ev, Çin Kalite Teftiş Derneği Kilit Endüstrisi Profesyonel Komitesi'nin hazırlık toplantısına katıldı

: Tiangong testi ile karşılaştırmak ister misiniz? Reebok Floatride Space Boot SB-01 ile gerçekten cennete gidebilir misiniz?

: Yeni Volkswagen Golf elektrikli versiyonunun casus fotoğrafları, 200 km'nin üzerinde pil ömrü

kağıt

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Alibaba'da hiper ölçekli grafik hesaplamanın uygulamaları nelerdir? İlk olarak dört KDD sözlü makalesine bakın (basılı olarak indirilebilir) KDD 2018

1. SPARC of dahi: Alibaba'nın nadir sınıflandırma analizindeki ilerlemesi

2. Kim bilir: Doğru kişiyi yerleştirmek için etkileşimli yolları kullanın

4. Rakibinizi tanıyın: Alibaba daha akıllı çevrimiçi dolandırıcılık dedektörlerini nasıl geliştirebilir?

İlgili bilgi

Colette'in kapanmadan önceki son ortak çalışması? ! Bu çift ayakkabının hatıra değeri büyük!

Sorunlu bir kızdan Altın Kadeh Ödülüne - "Sabah Yemin" filminin yönetmeni Okada Kori'nin senaryolu hayatı

MOTO ailesinin yeni "video sosyal eseri" Moto Green Pomelo

Bu orta-üst düzey bir ticari araç amiral gemisi olmasına rağmen, 300.000'den az mı?

Hey! Savaşmaya gel! Takım Dövüşü Kahramanlarının Analizi

İzlanda'daki kurutulmuş meyan kökünden bile daha kötü bir turist hatırası olduğu ortaya çıktı!

Bu yıl piyasaya sürülecek 19 yeni Kore arabası için yemeğiniz var mı?

"Kaçış Odası" on gün boyunca yayınlandı ve hala sürekli övgü aldı ve katılım oranı ilk üçte kaldı

Kralın ihtişamının tarihindeki en uykulu kahraman neden?

Yeni Akıllı İşCSHIA 2019 Akıllı Ev Sektörü Açılış Töreni Başarıyla Gerçekleştirildi