Adalet, hassasiyet kadar önemlidir! CMU, algoritma adaletini sağlamak için öğrenmede adil bir temsil yöntemi önerir

Yazar | Zhao Han

Derleme | Mr Bear

Düzenle | Kongun Sonu

Tüm yöntemlerin ortak noktası, bağımlılığı azaltmak için doğruluktan bir dereceye kadar feda edilmesi gerektiğidir.

Calders ve diğerleri

"Bağımsızlık Kısıtlamaları Olan Sınıflandırıcılar"

Yapay zeka geliştirmenin ilk günlerinde, insanların algoritma gereksinimleri genellikle "yarı" seviyede kaldı ve tahmin sonuçları ne kadar doğru olursa o kadar iyidir. Bununla birlikte, yapay zeka teknolojisi yavaş yavaş günlük yaşama entegre edildiğinden, insanların algoritmaların "adilliğine" yönelik gereksinimleri her geçen gün artmaktadır. Bu makalede, CMU'dan (Carnegie Mellon Üniversitesi) bir araştırmacı olan Zhao Han, adil temsili öğrenerek algoritma adaleti sağlamak için bir yöntem önerdi. (İlgili makaleler ICLR 2020'de yayınlanacaktır)

Şekil 1: İstatistiksel Eşlik (grup öz sermayesi olarak da bilinir) ile optimal karar verme arasındaki değiş tokuşun şematik diyagramı. Bu örnekte, döngüsel ve kare gruplar arasında grup düzeyinde geri ödeme oranlarındaki farklılıktan dolayı, istatistiksel eşitliğe uymak için, karar vericinin geri ödeme yapan belirli döngüsel başvuru sahiplerine kredi vermeyi reddetmesi gerekir. (Soldaki resim) veya temerrüde düşen bazı kare başvuru sahiplerine kredi vermeyi kabul edin (sağdaki resim).

Suç yargılamaları, tıbbi testler ve çevrimiçi reklamcılık gibi yüksek riskli alanlarda makine öğrenimi uygulamalarının yaygınlığıyla, otomatik karar destek sistemlerinin geçmiş verilerde var olabilecek doğal önyargı veya ayrımcılığı yaymamasını sağlamak çok önemlidir. Genel olarak, algoritma adaleti ile ilgili literatür "adalet" ile ilgili iki temel kavramı içerir:

  • İlk kavram "bireysel adalet" tir. Kısacası, benzer kişilere benzer şekillerde davranmak için adil algoritmalar gerektirir. Bununla birlikte, pratikte, belirli bir görevle karşılaştıklarında bireylerin benzerliğini ölçmek için kullanılan, toplum tarafından tanınan bir mesafe ölçüsü bulmak veya tasarlamak genellikle zordur.

  • İkinci kavram, bu makalenin odak noktası olan "grup adaleti" dir. Daha spesifik olarak, tahmin edicinin farklı alt gruplar için aynı sonuçları vermesini gerektiren sözde istatistiksel eşitliktir.

Örneğin aşağıdaki kredi onay sorununu ele alalım. Bu sanal ortamda daireler ve karelerle temsil edilen iki grup kredi başvurusu olduğunu varsayalım.

Otomatik kredi onay sistemi C'nin amacı, aşağıdakileri tahmin etmektir: Bir kredi başvurusunda bulunan kişinin açıklama bilgileri X göz önüne alındığında, krediyi zamanında ödeyip ödemeyeceği, C (x) = 1 krediyi zamanında geri ödeyeceği anlamına gelir. , C (x) = 0, ödemenin zamanında geri ödenmeyeceği anlamına gelir.

Başvuru sahibinin dairesel bir gruptan olduğunu belirtmek için A = 0 ve başvuru sahibinin bir kare gruptan olduğunu belirtmek için A = 1 kullanırsak, bu istatistiksel eşitlik için tanım gereklilikleri aşağıdaki gibidir:

Pr (C (x) = 1 | A = 0) = Pr (C (x) = 1 | A = 1)

Bunlar arasında olasılık değeri, X, A, Y'nin ortak dağıtımına (D) göre elde edilir (yani, başvuru sahibinin açıklama bilgileri, başvuranın ait olduğu grup ve başvuru sahibinin krediyi gerçekten ödeyip ödemediğine dair gerçek etiket). Başka bir deyişle, istatistiksel eşitlik, C (x) öngörücünün A: C (x) A grup niteliğiyle hiçbir ilgisi olmamasını gerektirir.

1. Adaletin temsilini öğrenmek

Görevin etkililiğini olabildiğince garanti ederken, istatistiksel eşitliği tatmin eden bir sınıflandırıcı (yaklaşık olarak) oluşturmanın bir yolu, adil temsilleri öğrenmektir (ayrıntılar için "Öğrenme Adil Temsilleri" belgesine bakın: https: //www.cs. toronto.edu/~toni/Papers/icml-final.pdf).

Makro açıdan bakıldığında, bu tür çalışmalar bilgilendirici bir temsil Z bulmaya çalışır (Profesör Richard Zemel'in ilgili çalışmasına bakın: biri Girdi değişkeni X'in özellik dönüştürme yöntemi, böylece Z (yaklaşık olarak) A ile hiçbir ilgisi olmazken, Z hala Y hedefi hakkında zengin bilgi içerir. Bu hedef, resmi olarak aşağıdaki optimizasyon problemi olarak tanımlanabilir:

Nerede > 0 önceden ayarlanmış bir sabittir, iki rastgele değişken arasındaki karşılıklı bilgiyi temsil etmek için I (; ) kullanırız. Şekil 2'de gösterildiği gibi, derin sinir ağı temsilini öğrenmedeki son araştırma ilerlemesi sayesinde, yukarıdaki optimizasyon problemini rakip eğitim algoritmaları aracılığıyla uygulayabiliriz. Bu özel yöntem, en azından Edwards ve diğerlerinin çalışmasına dayandırılabilir: "Bir Düşmanla Temsilleri Sansürlemek" (https://arxiv.org/abs/1511.05897).

Şekil 2: Adil temsil öğrenmenin algoritmik bir uygulaması. Ortadaki temsil Z, rakip A'yı kandırmaya çalışır. A'nın amacı, girdi değişkeninin grup özniteliğinin "daire: A = 0" veya "kare: A = 1" olup olmadığını belirlemektir. Genel ağ mimarisi, gradyan iniş yöntemi kullanılarak eğitilebilir.

Şimdi, amacımız çok açık: Ünlü veri işleme eşitsizliğine (DPI) göre, çok güçlü bir rakibi (ayırıcıyı) kandırabilecek bir özellik dönüştürme yöntemi Z'yi eğitmeye çalışırsak, o zaman bunun herhangi bir şekilde kullanılması Bu temsilin öngörücüsü de adil olacaktır (yani, istatistiksel eşitliği karşılayacaktır).

2. Adalet ve fayda arasındaki denge

Şekil 2'de gösterilen model iki amaç işlevi içerir ve bunları eğitim aşamasında eş zamanlı olarak optimize ederiz. İlk amaç, düşmanları kandırarak istatistiksel eşitliği sağlamak, ikinci amaç ise hedef Y'yi tahmin etme görevinin kayıp işlevini azaltmaktır.

Bu iki amaç işlevi genellikle harmonik bir hiperparametre aracılığıyla bir araya getirilir. Bununla birlikte, istatistiksel eşitlik kavramı, gerçek Y etiketiyle ilgili bilgileri dikkate almaz. Tahmin edebileceğiniz gibi, bir kişinin grup özelliği A'nın eklenmesi hedef etiketi Y ile oldukça ilişkilidir, bu nedenle tahminci istatistiksel eşitliği karşılayacaksa, tahmin edicinin en iyi performansını kaçınılmaz olarak yok edecektir.

Örneğin Şekil 1'de gösterilen kredi onay probleminde, yuvarlak grubun geri ödeme oranı (% 90), kare grubunun geri ödeme oranından (% 80) yüksektir. İstatistiksel eşitlik kavramına göre, adil bir tahmincinin kredileri aynı oranda yuvarlak ve kare gruplara dağıtması gerekir. Örneğin, adil bir sınıflandırıcı, geri ödeme yapacak olan kare başvuru sahiplerinin tam olarak% 80'ine kredi verecek ve aynı zamanda geri ödeyecek olan yuvarlak başvuru sahiplerinin% 80'ine kredi verecektir (bkz. Soldaki Şekil 1) . Ancak bu, geri ödeme yapan yuvarlak başvuru sahiplerinin% 10'unun reddedileceği anlamına gelir.

Olası bir diğer durum ise, adil bir sınıflandırıcının geri ödeyecek tur başvuru sahiplerinin tam olarak% 90'ına kredi vermesi ve aynı zamanda geri ödemelerin% 80'ine ve geri ödemeyecek kare başvurularının% 10'una kredi vermesidir. Tarafından. Örneğimizdeki her iki durumda da, istatistiksel eşitlik standardını karşılamak için, adil bir sınıflandırıcı, tahmin doğruluğunda bir kayıp yaşayacaktır. Elbette başka makul öngörücüler de olabilir, bu öngörücülerin küçük bir kayıp yaşaması mümkün mü?

NeurIPS 2019'da yayınlanan "Öğrenim Fuarı Temsillerinde İçsel Ödünleşmeler" adlı makalede (kağıt adresi: https://arxiv.org/pdf/1906.08386.pdf) yazar, yukarıdaki iki adil sınıflandırıcının her ikisinin de bir ölçüde olduğunu açıkladı En etkili olanıdır. Biçimsel tanımlar açısından, izin ver

Çünkü grup özelliği

Tarafından üretilen 0-1 ikili sınıflandırma hatası. Biz tanımlıyoruz:

Her grubun taban oranı arasındaki farktır. Ardından aşağıdaki teorem geçerlidir:

Teorem 1: İstatistiksel eşitliği sağlayan herhangi bir öngörücü için,

Kredi onayı örneğimizde yuvarlak başvuru sahipleri ile kare başvuru sahiplerinin geri ödeme oranı arasındaki fark% 10'dur.

. Lütfen yuvarlak başvuru sahipleri ve kare başvuru sahipleri için yukarıdaki iki adil sınıflandırıcının hata oranlarının 0,1 olduğunu unutmayın.

Teorem 1'e göre, herhangi bir adil sınıflandırıcı için, iki gruptaki hata oranlarının toplamı en az% 10 olmalıdır, bu nedenle her ikisi de optimaldir. Teorem 1 çok sezgiseldir, temelde şunu belirtir:

Farklı grupların kıyaslama oranları farklı olduğunda, istatistiksel eşitliği karşılayan tüm adil sınıflandırıcılar, en az bir grupta kaçınılmaz olarak daha büyük hatalar üretecektir.

Özellikle, güvercinin yuva ilkesine göre, herhangi bir adil sınıflandırıcının kaçınılmaz olarak en azından

Hata oranı. Ek olarak, bu sonuç bütçe kanunu ile ilgisizdir, grup düzeyinde belirlenir (yani, büyük bir eğitim seti kullanmak yardımcı olmaz). Şimdi bu miktarı derinlemesine analiz edelim:

AY ise, Pr (Y = 1 | A = 0) = Pr (Y = 1 | A = 1), yani

. Başka bir deyişle, grup özniteliğinin hedefle ilgisi yoksa, alt sınır 0'dır, bu nedenle şu anda fayda ve adalet arasında değiş tokuş yoktur.

A = Y veya A = 1-Y'ye göre belirlenebiliyorsa, maksimum değeri 1 alınacaktır. Bu durumda, herhangi bir adil sınıflandırıcı, kaçınılmaz olarak en az bir grup üzerinde en az 0.5 hata üretecektir.

Genel olarak, 0 ile 1 arasında bir değer alır. İkili sınıflandırma durumunda adalet ve fayda arasındaki değiş tokuşu temsil eden bu değerdir.

3. Adil temsil öğreniminin değiş tokuşu

Teorem 1 yalnızca belirli "kesin" koşullar altında doğrudur: tahmin edicinin istatistiksel eşitliği "doğru" olarak karşılaması gerekir. Bununla birlikte, pratikte, sınırlı miktarda eğitim verisi veya model kapasitesi nedeniyle bu gereksinimi gerçekleştirmek zor olabilir.

Belirli bir öngörücü istatistiksel eşitlik standardını ancak yaklaşık olarak karşılayabildiğinde, bu içsel değiş tokuşu ifade etmemiz mümkün müdür? Mümkünse, karakterizasyonun bu özelliği ne zaman ve ne şekilde işleyecek?

Bu yaklaşımın Teorem 1'deki alt sınırı azaltmaya yardımcı olduğu ortaya çıktı. Özellikle, izin ver

A = a verildiğinde koşullu dağılım D'dir. Özellik aktarım işlevi için

Diyelimki

G dönüşümü kullanıldıktan sonra Da'nın İtici Dağılımıdır. Ayrıca kullanırsak

İki olasılık dağılımı arasındaki toplam varyasyonel mesafeyi temsil eder, ardından aşağıdaki teorem geçerlidir: Teorem 2: Bir özellik dönüşümü olalım. Keyfi (rastgele) varsayımlar için

, İzin Vermek

Bir tahminci için aşağıdaki eşitsizlik geçerlidir:

İlk olarak, belli ki ne zaman

Teorem 2, Teorem 1'in alt sınırına düştüğünde.

Bu örnekte, veri işleme eşitsizliğine (DPI) göre de, Z'ye etki eden herhangi bir h hipotezi, sonuçları farklı gruplarda aynı oranda çıkaracaktır, bu nedenle adildir.

İkincisi, bunun farkında olun

Alt sınır ne kadar küçükse. Bu nedenle, daha büyük olduğunda, farklı gruplar için temsillerin hizalanması ne kadar iyi olursa, farklı gruplardaki hataların toplamı o kadar büyük olur.

Dağılım hizalamasının kalitesinin bir ölçüsü olarak toplam varyasyonel mesafeyi seçmenin özel bir yanı olmadığına dikkat edilmelidir. "Adil Temsilleri Öğrenmede İçsel Ödünleşmeler" başlıklı makalenin 3.2 bölümünde, genel bir analiz vermek için f diverjans kullanıyoruz. Okuyucular ayrıca diğer ıraksama ölçümlerini de kullanabilirler (örneğin, HS mesafesi, Hellinger mesafesi vb.) Aynı alt sınırı elde etmek için örnekleyin.

Olumlu tarafı, belirli koşullar altında, adaletin temsilini öğrenmenin, gruplar arasında eşit hata oranları gerektiren başka bir adalet kavramını, yani eşit doğruluğu gerçekleştirmeye yardımcı olduğunu da kanıtladık.

4. Gerçek durum nedir?

Yukarıdaki alt sınır, gruplar arasındaki aşırı hizalanmış özellik dağılımlarının kaçınılmaz olarak daha büyük eklem hatalarına yol açacağı anlamına gelir. Bu olasılığı kanıtlamak için gerçek dünya veri kümesi (UCI yetişkin veri kümesi) üzerinde deneyler yaptık. Buradaki görev gelir tahminidir (yıllık maaşın 50.000'den fazla olup olmadığı) ve grup niteliği "erkek / kadın" a karşılık gelir. Bu veri seti için,

Yani 1994 yılında yıllık geliri 50.000'den fazla olan erkeklerin oranı kadınlarınkinden% 19.7 daha yüksekti.

Şekil 2'de gösterilen modeli uyguladık ve karşıt zarar dengeleme hiper parametresi 'yı farklı değerlere aldık: 0.1, 1.0, 5.0 ve 50.0. Deneysel sonuçlar Şekil 3'te gösterilmektedir:

Şekil 3: İstatistiksel eşitlik ödünleşimi ve farklı katsayılar altındaki gruplar arasındaki hata oranlarının toplamı.

Şekil 3'te, üç ölçümü ve arttıkça değişimlerini çiziyoruz. İlk çubuk, eklem hatasına karşılık gelir (yani

), yetişkin veri kümesindeki genel hatadır. İkinci kırmızı dikey çubuk, gruplar arasındaki hata oranlarının toplamını temsil eder.Bu, hem Teorem 1 hem de Teorem 2'de görünen alt sınırdır. Üçüncü gri dikey çubuk, istatistiksel eşitliğin karşılanma derecesini ölçen boşluk puanına karşılık gelir. Gri dikey çubuklar özellikle şunları temsil eder:

. Kısacası, fark puanı ne kadar küçükse, tahmin edicinin karşılaştığı istatistiksel olarak o kadar eşittir.

Beklendiği gibi arttıkça fark puanı hızla azalmaktadır. = 50.0 olduğunda, karşılık gelen istatistiksel eşitliği tatmin etmeye zaten çok yakındır. Öte yandan 'nın artmasıyla birlikte kırmızı dikey çubukların da hızla arttığını ve nihayet gruplar arası hata toplamının 0,36'dan büyük bir düzeye ulaştığını gözlemleyebiliriz.

Lütfen Şekil 3'teki siyah yatay çizginin teorik analizimizle tutarlı olan bu yatay çizgiye karşılık geldiğini ve tüm kırmızı parmak patates kızartmalarının bu yatay çizgiyi aştığını unutmayın. Aslında, hesaplaması çok kolaydır ve gerçekten adil sınıflandırıcılar eğitmeden onlar tarafından üretilen hataların toplamını sınırlayabilir.

Beş, sonuç

Fayda ve istatistiksel eşitlik arasındaki temel değiş tokuşu anlamak hem ilginç hem de zordur. Makalemizde ve bu blog gönderisinde, ikili bir sınıflandırma problemi bağlamında bu içsel değiş tokuşun basit ve sezgisel bir tanımını veriyoruz: gruplar arasındaki kıyaslama oranları farklı olduğunda, herhangi bir istatistiksel eşitlik sağlanır. Tüm makul sınıflandırıcılar, gruplardan en az birinde büyük hatalar üretmelidir!

Bununla birlikte, regresyon probleminde karşılık gelen tanımlamayı bulmak hala çözülmesi gereken bir problemdir.Geçerli ispat stratejimizi, regresyon problemlerinin analizinde benzer ödünleşimlere nasıl genişleteceğimiz açık değildir.

Öte yandan, deneysel sonuçlarımız, istatistiksel eşitliğin adalet olarak tanımlanmasının kusurlu olduğunu göstermektedir. Adalet kavramını tanımlarken hedef bilgileri de dikkate almalıyız. Örneğin, eşit olasılık ve eşit doğruluk, grup adaletini tanımlamanın diğer iki yoludur ve her ikisi de mükemmel öngörücülerle uyumludur.

ICLR 2020'de yayınlanan son makalemiz olan "Adil Temsillerin Koşullu Öğrenimi" de bir algoritma önermiştir.İkili sınıflandırma probleminde, iki standart yine öğrenme temsili ile birbirine yaklaştırılmıştır.

Kağıt adresi: https://openreview.net/forum?id=Hkekl0NFPr

Üzerinden https://blog.ml.cmu.edu/

Kaynak ve hedef cümleler artık bağımsız değildir ve ortak ifade, makine çevirisi performansını artırabilir
önceki
Veriler ayrım gözetmeden kullanılamaz Yeni on yılda şirketler neden yeni veri paylaşımı paradigmasını kullanmalı?
Sonraki
Tencent AI Lab, ilişki ayıklamadaki hata iletimini büyük ölçüde hafifletmek için "tamamen bağımlı orman" önermektedir
Hinton AAAI2020 Konuşması: Bu sefer nihayet kapsül ağını doğru anladım
Today Paper | Gradyan Kırpma; Adlandırılmış Varlık Tanıma; Doğal Dil İşleme; Serbest Güç Fonksiyonu Öğrenme, vb.
2020 Sloan Araştırma Ödülü açıklandı, Pekin Üniversitesi'nden 4 Çinli bilim insanı seçildi
Makaleye genel bir bakış, AAAI 2020'deki bilgi grafiği
Paper Today | Küçük örnek öğrenme; makine öğrenimi; tek görüntülü hata giderme; sıfır örnek hedef tespiti vb.
İnsan DNA parçalarının% 8'i, Bahar Şenliği'nde okumak için uygun bir beşeri bilimler tarihi kitabı olan virüslerden geliyor.
Güçlü ve güçlü, kötü şöhreti toplumun dibine nasıl itiyor? Bahar Şenliği'nde okumaya uygun finansal kitaplar
Duygular nasıl yönetilir ve beyin nasıl çalıştırılır? Bahar Şenliği'nde okumaya uygun sosyal bilimler kitapları
Türük Ekspresi sipariş başına 8 sente düşüyor: Para kazanmadan iş yapmak için kapıyı açın, resim nedir?
Nokia, yeni yılın ilk konferansını ve amiral gemisi makinesinden 100 yuan makinesine yeni ürünü düzenledi.
Stanford Üniversitesi mühendisleri deforme olabilen, serbestçe dolaşan yumuşak robotlar yaratıyor
To Top