İçbükey tapınaktan Lai Ke Qubit Raporu | Genel Hesap QbitAI
Yapay zekayı kandırmak çok basit.
Bir eşanlamlıyı değiştirdikten sonra, doğal dil işleme modeli cümleyi yanlış okur.
MIT ve Hong Kong Üniversitesi'nden mezun öğrenciler, AI'nın metin sınıflandırma ve muhakeme problemlerinde doğruluğunu% 80'den% 10'a düşüren bir algoritma geliştirdiler.
Bu modelin adı, ince ayarlanmış cümleler oluşturarak doğal dilde metin sınıflandırmasına ve muhakemeye saldıran Textfooler'dır.
Örneğin, film inceleme kararının ünlü sınıflandırma görevinde, AI'nın görevi bir film incelemesinin olumlu mu yoksa olumsuz mu olduğuna karar vermektir.
Bu cümle gibi:
İmkansız bir şekilde ortaya çıkan karakterler yapmacık durumlar , vardır tamamen gerçeklikten uzaklaştı. (Oyundaki karakterler imkansız durumlarda, tamamen gerçeklikle teması olmayan bir şekilde düzenlenmiştir.)
Textfooler modeli tarafından oluşturulan karşılık gelen cümle şudur:
İmkansız bir şekilde ortaya çıkan karakterler tasarlanmış koşullar , vardır tamamen gerçeklikten uzaklaştı.
Yapmacık durumu tasarlanmış duruma ve tamamen tamamen değiştirin.
Sonuç olarak, AI ilk cümleyi "olumsuz" ve ikinci cümleyi "olumlu" olarak işaretledi.
Muhakeme görevlerinde, YZ'nin bir cümle ile durum arasındaki ilişkinin ima mı, tarafsızlık mı yoksa çelişki mi olduğuna karar vermesi gerekir.
Örneğin, bir öncül verildiğinde:
Mavi futbol üniformalı iki küçük çocuk ellerini yıkamak için tahta bir merdiven seti kullanır.Mavi futbol üniformalı iki küçük çocuk ellerini yıkamak için tahta bir merdiven seti kullanır.
"Oğlanlar grup üniforması giyiyor." (Erkekler grup üniforması giyiyor) cümlesi ile öncül arasındaki ilişkiyi yargılamalı.
AI bu cümleyi "çelişkili" olarak değerlendirecek.
Üniformalar kelimesi giysilere dönüştürüldüğünde: Oğlanlar bando elbiseleri giyiyor.
AI, cümleyi "ima" olarak değerlendirecektir.
Ek olarak, araştırma ekibi ayrıca insan deneklerden yeni oluşturulan cümlelerin orijinal cümlelere yakın olduğunu doğrulamak için bu cümleleri okumalarını istedi.
Deneyde iki veri seti MR veri setinden ve WordLSTM'den 100 örnek seçtiler ve deneklerden bunları deneme bazında puanlamalarını istediler. Benzerlik 1, belirsizlik 0,5, fark 0 ve son puanlar 0,91 ve 0,86'dır.
Bu, düzeltilmiş cümlenin insan okuması üzerinde çok az etkisi olduğunu gösterir.
Araştırma ekibi test için üç model ve yedi veri seti kullandı.
Üç model şunlardır: BERT, WordCNN ve WordLSTM.
veri seti:
5 sınıflandırılmış veri kümeleridir ve 2 örtük çıkarım veri kümeleridirSınıflandırma görevinin test sonuçları aşağıdaki gibidir:
Tüm modellerin orijinal doğruluğu% 78'in üzerindedir ve BERT daha iyi performans göstererek her iki veri setinde% 97 doğruluk elde eder.
Ancak Textfooler'in saldırısından sonra doğruluk% 20'nin altına düştü.
Çıkarım görevinin nasıl çalıştığını gösterelim:
Doğruluk% 80'den% 10'un altına düştü.
Metni işleyen AI, adayları yargılamak, tıbbi geri ödemeleri değerlendirmek ve yasal belgeleri işlemek için giderek daha fazla kullanılmaktadır. Bu nedenle araştırmacılar, AI'nın bu kusuruna dikkat edilmesi gerektiğine inanıyor.
Finans veya tıbbi bakımda otomatik bir sistemde kullanılırsa, metindeki küçük değişiklikler bile çok fazla soruna neden olabilir.
Irvine'deki California Üniversitesi'nde yardımcı doçent olan Sameer Singh, metni ayarlamanın bu yönteminin "gerçekten çok etkili bir şekilde AI sistemi için iyi bir rakip oluşturduğunu" söyledi.
Ancak, bu yöntemin pratikte uygulanmasının zor olduğunu, çünkü şüpheye neden olabilecek AI sistemlerinin tekrar tekrar tespit edilmesini içerdiğini söyledi.
Berkeley'deki California Üniversitesi'nde profesör olan Dawn Song, yapay zeka ve güvenlik konusunda uzmanlaşmıştır. Bu araştırmanın, dil algoritmalarının nasıl aldatılacağını ve çeşitli ticari sistemlerin bir tür saldırıya karşı savunmasız olabileceğini gösteren devam eden bir çalışmanın parçası olduğunu söyledi.
Görünüşe göre insan dilini anlamak istiyorsanız, AI'nın çok çalışmaya devam etmesi gerekiyor.
Bu araştırma, Tsinghua Üniversitesi, Hong Kong Üniversitesi ve Singapur Bilim ve Teknoloji Enstitüsü'nden araştırmacılar tarafından ortaklaşa tamamlandı. Karşılık gelen iki yazar vardır:
Di JinDi Jin, Tsinghua Üniversitesi Bilgisayar Bilimleri Fakültesi'nden mezun oldu. 2020'de MIT'den Bilgisayar Bilimleri alanında doktora derecesi aldı. Şu anda MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'nda yardımcı araştırmacı.
Jin ZhijingJin Zhijing, Şanghay Doğu Çin Normal Üniversitesi İkinci Eklentisi'nde liseden ve Hong Kong Üniversitesi'nden lisans derecesiyle mezun olmuştur ve şu anda doktora için başvurmaktadır. En önemli konferanslarda NAACL, EMNLP, AAHPM, AAAI'de 4 NLP makalesi yayınlandı.
github adresi: https://github.com/jind11/TextFooler
Kağıt adresi: https://arxiv.org/pdf/1907.11932.pdf
Referans bağlantısı: https://www.wired.com/story/technique-uses-ai-fool-other-ais/
- Bitiş -
Qubit QbitAI · Toutiao İmzalı
Bize dikkat edin ve en son teknolojiden haberdar olun