Eş anlamlısı değiştirin, AI cümlenin anlamını tersine çevirecek | Çinli araştırmacılar NLP modelinin savunmasızlığını ortaya koyuyor

İçbükey tapınaktan Lai Ke Qubit Raporu | Genel Hesap QbitAI

Yapay zekayı kandırmak çok basit.

Bir eşanlamlıyı değiştirdikten sonra, doğal dil işleme modeli cümleyi yanlış okur.

MIT ve Hong Kong Üniversitesi'nden mezun öğrenciler, AI'nın metin sınıflandırma ve muhakeme problemlerinde doğruluğunu% 80'den% 10'a düşüren bir algoritma geliştirdiler.

Test prensibi

Bu modelin adı, ince ayarlanmış cümleler oluşturarak doğal dilde metin sınıflandırmasına ve muhakemeye saldıran Textfooler'dır.

Örneğin, film inceleme kararının ünlü sınıflandırma görevinde, AI'nın görevi bir film incelemesinin olumlu mu yoksa olumsuz mu olduğuna karar vermektir.

Bu cümle gibi:

İmkansız bir şekilde ortaya çıkan karakterler yapmacık durumlar , vardır tamamen gerçeklikten uzaklaştı. (Oyundaki karakterler imkansız durumlarda, tamamen gerçeklikle teması olmayan bir şekilde düzenlenmiştir.)

Textfooler modeli tarafından oluşturulan karşılık gelen cümle şudur:

İmkansız bir şekilde ortaya çıkan karakterler tasarlanmış koşullar , vardır tamamen gerçeklikten uzaklaştı.

Yapmacık durumu tasarlanmış duruma ve tamamen tamamen değiştirin.

Sonuç olarak, AI ilk cümleyi "olumsuz" ve ikinci cümleyi "olumlu" olarak işaretledi.

Muhakeme görevlerinde, YZ'nin bir cümle ile durum arasındaki ilişkinin ima mı, tarafsızlık mı yoksa çelişki mi olduğuna karar vermesi gerekir.

Örneğin, bir öncül verildiğinde:

Mavi futbol üniformalı iki küçük çocuk ellerini yıkamak için tahta bir merdiven seti kullanır.Mavi futbol üniformalı iki küçük çocuk ellerini yıkamak için tahta bir merdiven seti kullanır.

"Oğlanlar grup üniforması giyiyor." (Erkekler grup üniforması giyiyor) cümlesi ile öncül arasındaki ilişkiyi yargılamalı.

AI bu cümleyi "çelişkili" olarak değerlendirecek.

Üniformalar kelimesi giysilere dönüştürüldüğünde: Oğlanlar bando elbiseleri giyiyor.

AI, cümleyi "ima" olarak değerlendirecektir.

Ek olarak, araştırma ekibi ayrıca insan deneklerden yeni oluşturulan cümlelerin orijinal cümlelere yakın olduğunu doğrulamak için bu cümleleri okumalarını istedi.

Deneyde iki veri seti MR veri setinden ve WordLSTM'den 100 örnek seçtiler ve deneklerden bunları deneme bazında puanlamalarını istediler. Benzerlik 1, belirsizlik 0,5, fark 0 ve son puanlar 0,91 ve 0,86'dır.

Bu, düzeltilmiş cümlenin insan okuması üzerinde çok az etkisi olduğunu gösterir.

Her modelin test sonuçları

Araştırma ekibi test için üç model ve yedi veri seti kullandı.

Üç model şunlardır: BERT, WordCNN ve WordLSTM.

veri seti:

5 sınıflandırılmış veri kümeleridir ve 2 örtük çıkarım veri kümeleridir

Sınıflandırma görevinin test sonuçları aşağıdaki gibidir:

Tüm modellerin orijinal doğruluğu% 78'in üzerindedir ve BERT daha iyi performans göstererek her iki veri setinde% 97 doğruluk elde eder.

Ancak Textfooler'in saldırısından sonra doğruluk% 20'nin altına düştü.

Çıkarım görevinin nasıl çalıştığını gösterelim:

Doğruluk% 80'den% 10'un altına düştü.

Gerçek uygulamalarda etkisi olabilir

Metni işleyen AI, adayları yargılamak, tıbbi geri ödemeleri değerlendirmek ve yasal belgeleri işlemek için giderek daha fazla kullanılmaktadır. Bu nedenle araştırmacılar, AI'nın bu kusuruna dikkat edilmesi gerektiğine inanıyor.

Finans veya tıbbi bakımda otomatik bir sistemde kullanılırsa, metindeki küçük değişiklikler bile çok fazla soruna neden olabilir.

Irvine'deki California Üniversitesi'nde yardımcı doçent olan Sameer Singh, metni ayarlamanın bu yönteminin "gerçekten çok etkili bir şekilde AI sistemi için iyi bir rakip oluşturduğunu" söyledi.

Ancak, bu yöntemin pratikte uygulanmasının zor olduğunu, çünkü şüpheye neden olabilecek AI sistemlerinin tekrar tekrar tespit edilmesini içerdiğini söyledi.

Berkeley'deki California Üniversitesi'nde profesör olan Dawn Song, yapay zeka ve güvenlik konusunda uzmanlaşmıştır. Bu araştırmanın, dil algoritmalarının nasıl aldatılacağını ve çeşitli ticari sistemlerin bir tür saldırıya karşı savunmasız olabileceğini gösteren devam eden bir çalışmanın parçası olduğunu söyledi.

Görünüşe göre insan dilini anlamak istiyorsanız, AI'nın çok çalışmaya devam etmesi gerekiyor.

Araştırma takımı

Bu araştırma, Tsinghua Üniversitesi, Hong Kong Üniversitesi ve Singapur Bilim ve Teknoloji Enstitüsü'nden araştırmacılar tarafından ortaklaşa tamamlandı. Karşılık gelen iki yazar vardır:

Di Jin

Di Jin, Tsinghua Üniversitesi Bilgisayar Bilimleri Fakültesi'nden mezun oldu. 2020'de MIT'den Bilgisayar Bilimleri alanında doktora derecesi aldı. Şu anda MIT'nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı'nda yardımcı araştırmacı.

Jin Zhijing

Jin Zhijing, Şanghay Doğu Çin Normal Üniversitesi İkinci Eklentisi'nde liseden ve Hong Kong Üniversitesi'nden lisans derecesiyle mezun olmuştur ve şu anda doktora için başvurmaktadır. En önemli konferanslarda NAACL, EMNLP, AAHPM, AAAI'de 4 NLP makalesi yayınlandı.

github adresi: https://github.com/jind11/TextFooler

Kağıt adresi: https://arxiv.org/pdf/1907.11932.pdf

Referans bağlantısı: https://www.wired.com/story/technique-uses-ai-fool-other-ais/

- Bitiş -

Qubit QbitAI · Toutiao İmzalı

Bize dikkat edin ve en son teknolojiden haberdar olun

Güneş, bahar, gün, rüzgar, çiçekler ve koku - Yueyang Doğal Kaynaklar ve Planlama Bürosu'nun medeni bir biriminin oluşturulması
önceki
Bugün kuzeydoğuda şiddetli kar veya kar fırtınası var ve güney ısıtma modunu başlatıyor
Sonraki
Tesla bir bant parçasıyla aldatıldı, 35'i 85 olarak "düşündü", 80 km / s anormal bir şekilde hızlandı.
Google beyninde yoğun araştırma: hızlı farklılaştırılabilir sıralama algoritması, daha hızlı bir büyüklük sırası
Ücretsiz çevrimiçi fitness dersi başlar, size evin yeni duruşunu "açmayı" öğretir
Ali Dharma Enstitüsünün en son AI anti-salgın raporu:% 96 doğruluk oranıyla 30.000 şüpheli vakanın CT görüntüleri teşhis edildi
OPPO Reno telefonun arka 7 kamera patenti olan büyük Oreo
Binlerce eğitmen görev başında "noktadan noktaya" işletmelerde görev yaptı
Nar HikayesiAnne karantina alanından bir ses gönderdi
Excel, CV algoritması uygular: Amazon mühendisleri sihirli bir şekilde yüz algılama ve karakter tanımayı kullanır
Jiahe sağlık endüstrisi bilim ve teknoloji çalışanları kendilerini "salgını" önlemeye ve kontrol etmeye adadılar
İncelemesi sadece 5-10 dakika sürdü ve reddedilme nedenleri sunmadı, IJCAI makalelerin% 42'sini "vurdu"
Yeni taç pnömonisine yakalanan hemşire iyileşti ve taburcu oldu: Cephede savaşan annemle bir kez daha savaşacağım
Güney Çin deniz ürünleri pazarı, virüsün ortaya çıktığı tek yer değil; Zhejiang aşısı araştırma ve geliştirme, hayvan deneyleri aşamasına giriyor
To Top