Xinzhiyuan Derlemesi
Kaynak: Google Brain
Derleyici: Jin Lei, Xiao Qin
Xin Zhiyuan Rehberi Tartışmalı saldırılar genellikle sinir ağlarının yanlış sınıflandırılmasına neden olur, ancak Ian Goodfellow ve diğer Google Brain ekibinin yeni araştırması daha karmaşık bir saldırı hedefi önermektedir: modeli saldırgan tarafından seçilen yeni görevleri gerçekleştirmeye teşvik etmek için sinir ağını yeniden programlayın. Bu araştırma ilk kez sinir ağlarının inanılmaz kırılganlığını ve esnekliğini gösteriyor.
Kağıt adresi:
https://arxiv.org/pdf/1806.11146.pdf
Çatışmacı örneklerin araştırılması, genellikle saldırganların modelin girdisinde küçük değişiklikler yapmasını önlemek içindir, bu da modelin tahminlerinde önyargılara neden olur. Böyle bir saldırgan bir çıkartma (küçük bir
Rahatsızlık) sürücüsüz arabanın dur işaretine tepki vermesine veya hasar fotoğraflarını ince bir şekilde değiştirerek (küçük Rahatsızlık) sigorta şirketinin zarar modelinin kazanın tazminat değerini fazla tahmin etmesine neden oldu. Bunları göz önünde bulundurarak, araştırmacılar bunu inşa etmek ve direnmek için birçok yöntem önerdiler. Adversrial saldırılar .Şimdiye kadar, çoğu düşman saldırının nedeni Hedeflenmemiş saldırı (Hedeflenmemiş saldırılar) ve Hedefli saldırı (Hedefli saldırılar) kompozisyon. Hedefsiz saldırılar, modelin performansını düşürmek için tasarlanır, ancak belirli bir çıktı üretmeleri gerekmez; hedefli saldırılar, belirli bir çıktı üretmek için modele karşı bir karıştırma girdisi tasarlamak için tasarlanmıştır. Örneğin, bir sınıflandırıcıya yapılan bir saldırı, her bir görüntü için belirli bir çıktı kategorisi elde etmek olabilir veya bir takviye öğrenme aracısına yönelik bir saldırı, aracıyı belirli bir duruma girmeye teşvik etmek olabilir.
Yakın zamanda, Gamaleldin F.Elsayed, Ian Goodfellow ve Google Brain'den Jascha Sohl-Dickstein tarafından yapılan yeni araştırma, daha karmaşık bir hedefi değerlendiriyor: Saldırganın belirli bir beklenen çıktıyı hesaplamasına gerek kalmadan, model saldırgan tarafından seçilen bir görevi gerçekleştirmeye teşvik edilir.
Tartışmalı yeniden programlama
Bazı ilkel görevleri yerine getirmek için eğitilmiş bir model düşünün: girdi için çıktı üretecektir
. Düşman bir görevi gerçekleştirmek isteyen bir düşman düşünün: girdi için (X ile aynı alanda olması gerekmez), düşman bir işlevi hesaplamak ister . Düşmanın rakip yeniden programlama işlevlerini öğrenebileceğini kanıtlıyoruz (düşmanca yeniden programlama işlevleri) ile Bunu başarmak için, bu iki işlev iki görev arasında bir eşleştirmedir. Burada hf, girdiyi x etki alanından Alan adı.Bu çalışmada, basitlik uğruna ve son derece yorumlanabilir sonuçlar elde etmek için, küçük görüntüler olarak tanımlayacağız; burada g, küçük görüntüleri işlemek için bir işlev ve f, büyük görüntüleri işlemek içindir. Görüntü işlevi. işlevi
Çizimi yalnızca büyük görüntünün ortasına, sınırda çizmeyi ve Sadece sınıf etiketleri arasında sabit kodlu bir eşleme çıktılayın.Ancak bu fikir daha geneldir;
İki görevin girdi (çıktı) biçimleri arasında tutarlı bir dönüşüm olabilir ve modelin rakip görevleri yerine getirmesini sağlayabilir.Yeni bir görevi gerçekleştirmek için bir makine öğrenimi algoritmasının yeniden kullanıldığı bir saldırı türünden bahsediyoruz. Tartışmalı yeniden programlama . arıyoruz Tartışmalı program . Çarpıcı örnekler üzerinde yapılan önceki çalışmaların çoğuyla karşılaştırıldığında, bu rahatsızlığın büyüklüğünün sınırlandırılmasına gerek yoktur. Böyle bir saldırının insanlar tarafından algılanamaz olması ya da başarılı olarak kabul edilmesi için ince olması gerekmez. Düşmanca yeniden programlamanın olası sonuçları şunları içerir: kamu hizmetlerinden bilgi işlem kaynaklarını çalmak veya yapay zeka güdümlü asistanları casus botlara veya spam botlara dönüştürmek.
Bu makalede, çekişmeli yeniden programlamanın ilk örneğini tanıttık. Yüzleşme programı tasarımı öneriyoruz Eğitim süreci Yüzleşme programı sinir ağının yeni görevler gerçekleştirmesine neden olacaktır. Deneysel bölümde, ImageNet veri sınıflandırması için kullanılan çeşitli evrişimli sinir ağlarına karşı önlemleri gösterdik. Bu rakip programlar, ağın işlevlerini birleştirir ImageNet sınıflandırmasından şu şekilde değiştir: : Görüntüdeki kareleri sayın; MNIST sayılarını sınıflandırın ve CIFAR-10 görüntülerini sınıflandırın. Ayrıca eğitimli ve eğitimsiz ağların düşmanca yeniden programlamaya duyarlılığını da inceledik.
yöntem
Önerdiğimiz saldırı senaryosu şu şekildedir: Belirli bir görevi yerine getirirken, düşman zaten sinir ağının parametrelerini elde etmiş ve ağ işlevini manipüle etmek için ağ girişine eklenebilecek bir saldırı programı kullanarak yeni bir işlevi gerçekleştirmeyi umuyor. görev. Burada, ImageNet sınıflandırmasını gerçekleştirmek için orijinal ağın kullanıldığını varsayıyoruz, ancak bu makalede tartışılan yöntem ölçeklenebilir.
Düşman programımız, ağ girdisine ek bir katkı olarak hizmet edecektir. Diğer pek çok düşman müdahalesinin aksine, rakip programımızın Tek bir görüntü için değil . Aynı çekişmeli prosedür tüm görüntülere uygulanacaktır. Muhalif prosedürleri şu şekilde tanımlıyoruz:
onların arasında,
Karşı programın parametresi öğrenilecek mi, n ImageNet görüntüsünün genişliğidir ve M bir maskeleme matrisidir. M'nin gerekli olmadığını belirtmekte fayda var.İzin Vermek
Veri kümesinin bir örneği olarak, rakip görevlere uygulamayı umuyoruz. . Daha sonra ilgili yüzleşme görüntüsü şu şekilde ifade edilebilir:Bir giriş resmi verildiğinde
,Yapmak ImageNet sınıflandırıcı olarak, ImageNet etiketi verme olasılığı y {1, ..., 1000}. Sabit kodlu bir eşleme işlevi tanımlıyoruz , Bu rakip bir görevdir Bir etiket, bir ImageNet etiket setine eşlenir. Şimdiye kadar, rakip hedefimiz olasılığı düşürmek maksimize edin. Bu nedenle optimizasyon problemini şu şekilde belirledik:Deneysel sonuçlar
1. Resimdeki karelerin sayısını sayın
Resimdeki karelerin sayısını saymak olan basit bir rakip görevle başlayın. Sonuç şekilde gösterilmiştir:
Şekil 1: Çekişmeli yeniden programlamanın gösterimi.
(A) ImageNet etiketlerini rakip görevlerin etiketleriyle (görüntüdeki kareler) eşleyin.
(B) Çekişmeli görevdeki (solda) görüntü, karşıt bir soruna (ortada) gömülüdür ve karşıt bir görüntüyle sonuçlanır (sağda).
(C) Düşman görüntüleri kullanarak tahmin etmenin açıklaması.
2. MNIST sınıflandırması
Şekil 2: MNIST sınıflandırması için karşıt programlama örneği.
Rakip prosedür, 6 ImageNet modelinin MNIST sınıflandırıcıları olarak kullanılmasıyla sonuçlandı.
3. CIFAR-10 sınıflandırması
Şekil 3: CIFAR-10 sınıflandırmasında karşıt görüntülerin örnekleri (başlık)
Rakip program, bir Inception V3 modelini CIFAR-10 sınıflandırıcısının yerine geçen bir işlev olarak yeniden kullanır.
Tablo: Eğitimli ImageNet sınıflandırıcı, çeşitli görevleri gerçekleştirmek için ters olarak yeniden programlanabilir
4. Eğitimsiz ve düşmanca eğitilmiş ağları yeniden programlayın
Şekil 4: Tartışmalı programlar, hem ağda hem de görevde niteliksel benzerlikler ve farklılıklar göstermektedir.
(A) Üst: Görüntüdeki kare sayısını hesaplamak için ImageNet üzerinde önceden eğitilmiş ağı yeniden kullanan rakip bir program.
Orta kısım: MNIST sınıflandırıcı işlevi olarak ImageNet üzerinde önceden eğitilmiş ağı kullanan tartışmalı program.
Altta: Rakip program, CIFAR-10 sınıflandırıcısı ile aynı ağı kullanıyor.
(B) Rastgele başlatma parametreli rekombinasyon ağı için, rakip program bunu MNIST sınıflandırıcı olarak kullanır.
Kağıt adresi:
https://arxiv.org/pdf/1806.11146.pdf
Topluluğa katıl
Xinzhiyuan AI teknolojisi + endüstri topluluğunun işe alımında, AI teknolojisi + endüstrisiyle ilgilenen öğrenciler küçük bir WeChat asistanı hesabı ekleyebilirler: aiera2015_3 Gruba katılın; incelemeyi geçtikten sonra sizi gruba katılmaya davet edeceğiz. Topluluğa katıldıktan sonra, grup açıklamalarını değiştirmeniz gerekir (isim-şirket-pozisyon; profesyonel grup incelemesi katıdır, lütfen anlayın).