g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

HKBTÜ Profesörü Yang Qiang: Frontier Research and Application of Federal Learning

Gizlilik koruması altında küçük verilerin "bir kulede toplanması".

Yazar | Kaka

Düzenle | Kongun Sonu

Son zamanlarda, WeBank Baş Yapay Zeka Sorumlusu ve Hong Kong Bilim ve Teknoloji Üniversitesi Başkanı Profesörü Qiang Yang, Leifeng.com AI Financial Review ve AI Technology Review tarafından ortaklaşa düzenlenen ve "Federal Öğrenmenin Sınır Araştırması ve Uygulaması" na odaklanan "Federal Learning Series of Public Courses" konuğu oldu. Konu için, federe öğrenmenin veri siloları ve gizlilik korumasının ikili zorluklarıyla nasıl karşı karşıya kaldığını kapsamlı ve ayrıntılı bir şekilde açıkladı. Bu makale, bu konuşmanın içeriğini düzenler, makale biraz daha uzundur ve içeriği şu şekildedir:

1. AI geliştirme ikilemi: küçük veri ve gizlilik koruması

2. Federe öğrenme, adayı aşar ve veri "bulmacasını" tamamlar

2.1 Yatay federe öğrenme: örneklerin farklı özellikleri aynıdır

2.2 Boylamsal birleşik öğrenme: örtüşen örneklemlerin farklı özellikleri

2.3 Birleşik Öğrenmeyi Aktarın: Örnekler ve özellikler çakışmaz

2.4 Federal Öneri Sistemi

3. Birleşik öğrenmenin çok sahneli uygulama örnekleri

4. Federal Öğrenim Ekolojik Yapısı Devam Ederken

Aşağıdakiler, Yang Qiang'ın konuşmasının ve seçilen soruların ve cevapların tam metnidir:

Yang Qiang:

Bugünün konusu finansla ilgili. Finans sektöründe kullanıcı gizliliğini korumaya neden özel bir ihtiyaç olduğunu size anlatayım. Umarım herkes bir cümleyi hatırlar: veriler taşınmaz, model hareket eder.

1. AI geliştirme ikilemi: küçük veri ve gizlilik koruması

Finans sektöründe çoğu uygulama artık veriye dayalıdır, ancak çok ciddi zorluklarla karşı karşıyadır.

Öncelikle yapay zekanın gücü büyük veriden geliyor, ancak gerçek uygulama sürecinde daha küçük veriler. Örneğin, hukuki davaları ele alalım Birisi istatistik yapmış ve en fazla on binlerce dava toplanıyor. Diğer bir örnek de finansal kara para aklamayla mücadele Kara para aklama ile mücadele vakaları nadir görülen bir olgu olduğu için her vaka çok önemlidir. Tıbbi görüntüler için, çok iyi açıklanmış çok az sayıda tıbbi görüntü vardır. Böylece bulabiliriz: Etrafta daha fazla küçük veri var, ancak yapay zekanın yalnızca büyük verileri kullanması gerekiyor.

Birkaç örnek: Öncelikle, kredi riski kontrolü ve pazarlama gibi finans alanında çok sayıda veri eğitimi gereklidir. Büyük kredilerde çok az risk kontrolü durumu vardır. Bir derin öğrenme modeli olarak kullanılıyorsa, bu kadar büyük kredilerin yalnızca birkaç örneğini kullanmak yeterli olmaktan uzaktır.

Bir başka örnek de akıllı şehirler. Akıllı bir şehirde çok sayıda kamera var ve her kameranın elde edebileceği veriler aslında sınırlı. Farklı kameralardan bazı verileri bir araya getirmeyi umuyorum. Ancak farklı şirketlerden geliyorlarsa veya kullanıcı gizliliği içeriyorlarsa, basitçe ve kabaca birleştirilemezler.

Yapay zekanın geleceğinden (uygulama yönlerinden) birinin insansız araçlar olduğunu herkes bilir, ancak her insansız aracın karşılaştığı yeni veriler sınırlıdır. Modelimizi güncellemek istiyorsak çok fazla yeni veriye ihtiyacımız var.Farklı insansız araçlardan geliyor.Her aracın verisinde mahremiyet olmalı ve aynı zamanda küçük bir veri.

Diğer bir örnek, lojistik sistemleri ve tedarik zinciri sistemleri gibi çevrimiçi alışveriştir. Çok sayıda depolama vardır. Otomatik hale getirilecekse, çok sayıda izleme gereksinimi olacaktır. Bu tür veriler genellikle küçük verilerdir, ancak aynı zamanda merkezi olmayan verilerdir. Bir araya getirmek o kadar kolay değildir. kolay.

Örneğin, haber izlemek için cep telefonlarının kullanılması, birçok öneri sistemi vardır.Her cep telefonundan elde edilen kullanıcı tercihi bilgileri de küçük verilerdir.Kümelenmesi, kullanıcı gizliliği sorunuyla da karşı karşıyadır.

Sorun şudur: Çevreleyen alan küçük verilerdir, toplanabilir mi ve daha azı daha fazla olabilir mi? Elbette bu bizim en doğrudan fikrimiz ... Yapay zekanın gelişimi başlangıçta da aynı şekilde yapıldı ama şimdi ciddi zorluklarla karşı karşıya.

Sosyal düzeyde, mahremiyet ve güvenlik bilinci güçleniyor ve hükümet denetimi ve ilgili yasa ve yönetmelikler daha da katı hale geliyor.

Avrupa'da getirilen ilk düzenlemeye GDPR denir. Çeşitli maddeleri vardır, en önemlisi verilerin gizliliğini korumak, gizliliğin kullanıcıların elinde olmasını sağlamaktır. 2018'deki lansmanından bu yana Facebook ve Google gibi birçok büyük şirket para cezasına çarptırıldı.

Amerika Birleşik Devletleri'ndeki ilerleme biraz daha yavaş oldu, ancak şimdi CCPA olarak adlandırılan Kaliforniya yasası da izledi. Yerel kanunlar da katı ve kapsamlıdır ve hayatın her kesiminden kanun ve yönetmelikler mevcuttur.

2. Federe öğrenme, adayı aşar ve veri "bulmacasını" tamamlar

Modelleri eğitme sürecinde çok büyük miktarda büyük veriye sahip olmayı umuyoruz, ancak gerçek bir veri adası. Büyük bir veri oluşturmak için veri adalarını birbirine bağlamak istiyorum, ancak katı yasa ve yönetmelik kısıtlamalarıyla karşılaşıyor.

Karşılaştığımız iki teknik sorun aynı zamanda kişisel araştırmayla ilgilendiğim konular: Birincisi, küçük verileri çözmek için transfer öğrenmenin nasıl kullanılacağı, bu bugünün dersinde değil. Bugün sağdaki resme odaklanacağım: Veriler tamamen bozuk, Bozuk verileri bir araya getirmek istiyorsanız ne yapılabilir? Çözümümüz Federe Öğrenim hakkında konuşalım.

Federe Öğrenme, açıkça söylemek gerekirse, böyle bir duruma ulaşmak istiyor: birden çok veri kaynağı var, birden çok veri adası var, her veri kaynağının verileri taşınmıyor ve hepsi yerel. Ancak, veri kaynaklarına sahip bu sahiplerin (Sahiplerin) bir anlaşmaya varmasına izin verin, böylece herkes bir federasyon modeli oluşturmak için bir araya gelebilir. İşbirlikçi bir model oluşturmanın çeşitli yolları ve algoritmaları vardır, ancak genel amaç aynıdır: geçmiş uygulamayı değiştirmek, verileri yerinde tutmak ve modelin büyümesine izin vermek için bazı model bilgilerini değiş tokuş etmek.

Bunu yapmak için bazı matematiksel araçlar ve hesaplama araçları gerekir. Birincisinin en göze çarpanı, gizlilik koruması ve şifreleme modellemesi ile ilgili araçlardır; ikincisinden en önemlisi dağıtılmış makine öğrenimidir.

Bazı öğrenciler için federe öğrenme terimini ilk kez duyuyor olabilir, bunu herkese açıklamak için basit bir örnek kullanacağım.

Bir koyunun makine öğrenimi modeline benzetme olarak kullanıldığını varsayalım Koyun ot yedikten sonra büyüyebilir.

Geçmişteki uygulama, bir model oluşturmak için birlikte ot satın almaktı. Örneğin soldaki modelde soldaki ok koyunu işaret ediyor. Koyunlar hareket etmedi, ancak çimen satın alındı. Veri elde etmek, büyük veri oluşturmak ve modeller oluşturmak için basit ve kaba yöntemler kullanmaya eşdeğerdir.

Ama birbirimizin mahremiyetini korumak istiyoruz, bu yüzden çimlerin kıpırdamasına izin vermeyin ve koyunlar hareket etsin. Başka bir deyişle, modeli farklı otlakları ziyaret etmek için aldık ve zamanla koyunlar büyüdü - bu, otların otlaktan çıkmasını engelleyen yeni federal öğrenim fikri ve yerel mal sahibi koyunların hangi otları yediğini bilemez. Ama koyunlar hala büyüdü.

2.1 Yatay federe öğrenme: örneklerin farklı özellikleri aynıdır

Nasıl inilir? İlk yaklaşım, her veri sahibinin farklı bir örneğe sahip olduğunu varsayar, ancak uzunlamasına özellikler temelde aynıdır. Bu, yataydan kesilmiş, bir örnek yığını oluşturan çok büyük bir büyük veri kümesine sahip olmamızla eşdeğerdir, ancak özellikleri benzerdir.

Örneğin, her cep telefonu kişisel olarak bizim tarafımızdan kullanılır ve bir grup örnek oluşturur. Farklı cep telefonları var ve her cep telefonu temelde bu özellikleri alıyor, ancak örnekler farklı. Bu cep telefonlarındaki verilerin bu yeteneklerini bir araya getirip verileri değiştirmeden büyük bir veri modeli oluşturabileceğimizi umuyoruz.

Tıpkı bu şeklin solunda gösterilen veri setleri gibi, sırayla sağdaki terminallerdeki verilere karşılık gelirler. Özellikleri boylamsaldır, X1, X2 ve X3 benzerdir, ancak U1, U2 ... U10 örnekleri farklıdır. Bu nedenle buna yatay kesme, numuneye göre kesme veya kısaca yatay federe öğrenme denir.

Yatay federe öğrenme, matematik biçiminde, bir matristir. Bir veri kümesi sol üst köşedir ve bir veri kümesi sağ alt köşedir. Özelliklerde büyük bir örtüşme vardır, ancak örnek kullanıcıları örtüşmez. Kendi etiketleri olabilir.

Solda ve sağda ayrı etiketler var, ancak tüm verileri modellemek için kullanmak istiyoruz, sadece küçük bir model oluşturmak için bir terminaldeki verilere güvenmek yerine, onları büyük bir model oluşturmak için toplamayı umuyoruz, ancak verileri taşınamaz .

Şu anda, yatay ittifakla öğrenme modeline ihtiyaç var. Basitçe söylemek gerekirse, her terminalin sunucu ile bir bağlantısı vardır.Sunucu ile olan iletişimimizin veri iletişimi değil, yalnızca model parametre iletişimi olmasını sağlamalıyız. Buradaki parametreler w1, w2'den wk'ye kadardır. Bu parametrelerin yanında matematiksel olarak şifrelemeyi temsil eden iki dik açılı parantez () vardır, işte burada bir şifreleme matematiksel modeli.

Bu parametreler şifrelendikten sonra, şifrelenmiş paket sunucuya gönderilir.Sunucu şifreli pakette ne olduğunu anlamaz, ancak bunun ilgili parametrelerin şifrelenmiş bir paketi olduğunu bilir. Şimdi bu şifreleme paketini sunucu tarafında birleştirecek bir teknoloji var ve kombinasyonun sonucu yukarıda gösterilen sinir ağı modeli olan yeni bir model oluşturacak. Bu, ilk adımdan altıncı adıma kadar olan süreçtir.

Matematiksel olarak böyle bir kombinasyon aslında bir modelin üst üste binmesidir. İki farklı veri seti iki farklı sınıflandırma modeli oluşturur, biri doğrusal model ve diğeri KNN modeli olabilir. Bu iki model birleştirilmiştir Yüksek boyutlu bir uzay modeli oluşturacak.

Bu modelleme sürecinde, her veri setinin kendi verilerini sunucuya sızdırmayacağını, ancak parametrelerinin iletişim halinde olmasını umuyoruz. Ve parametrelerin iletişimi de şifrelenir, bu da gizliliği garanti eder.

Homomorfik şifreleme

Ayrıntılı olarak, özellikle iyi bir şifreleme yöntemi vardır. İki şifreli paket bir araya getirildiğinde, şifrelenmiş her paketteki verileri göz ardı edebilirsiniz, ancak paketini çekirdeğiyle değiştireceğiz, bu nedenle Artı b'nin şifrelenmesi, a artı b'nin şifrelemesine eşittir.

Örneğin, paketlenmiş iki şey bir araya getirildiğinde, paket çıkar ve iç kısım iki şeyin toplamıdır. Bu teknolojiye homomorfik şifreleme denir.Eğer ilgileniyorsanız, çevrimiçi çok sayıda kaynak var. Homomorfik şifrelemede özellikle başarılı olan birçok yerli uzman da var. Geçmişte homomorfik şifrelemenin iyi sonuç vermemesinin nedenlerinden biri, hesaplama miktarının çok fazla olmasıydı.Şimdi, donanımın tüm yönlerindeki gelişmelerle birlikte iyi çözme algoritmalarının olduğu bulundu, bu nedenle homomorfik şifreleme artık bir sorun değil.

Homomorfik şifrelemenin etkisi, birçok makine öğrenen kişinin hayal gücünü harekete geçirdi. Örneğin, Sigmod eğrisi doğrusal değildir ve bir doğrusal ile yaklaşık olarak tahmin edilebilir Yaklaşıklıktan sonra, kayıp fonksiyonu ve şifreleme sonucu hesaplanabilir. Homomorfik şifreleme dağıtım yasası (dağıtım yasası), toplam şifrelemesini her bir öğenin şifrelemesinin toplamı haline getirir.

Google önce avantajları gördü ve yatay bir federe öğrenme yaklaşımı olan Federe Ortalama Alma'yı önerdi.

Bunu bir federe ortalama olarak hayal edebiliriz, yani n model var ve şimdi bunların ortalama değerine ihtiyacımız var, ancak bu şey sunucu tarafında yapılacaksa, sunucunun içerdiği her öğeyi görebilmesini istemiyoruz, öyleyse varsayalım Cep telefonu her gün yeni veriler aldıktan sonra, cep telefonundaki bazı makine öğrenimi modellerini güncellememiz gerekiyor. Örneğin, sonraki kelime tahmini ve yüz tanıma. Bazı cep telefonlarını seçebilir ve bu yöntemi yeni verileri üzerinde federal toplama yapmak için kullanabiliriz Son olarak, kullanıcı gizliliğini koruma öncülüğünde, cep telefonundaki verileri sürekli olarak güncelleyebiliriz.

Bu, Google ve Android'de uygulandı ve şu anda yurt içi cep telefonu satıcılarımız da dahil olmak üzere çok ilgilenen birçok cep telefonu satıcısı var. Nesnelerin İnterneti ve akıllı ev şirketleri gibi diğer üreticiler, Federal Öğrenmeyi duymamışlarsa, geride kalacaklar.

2.2 Boylamsal birleşik öğrenme: örtüşen örneklemlerin farklı özellikleri

Az önce bahsettiğim şey, kullanıcılar tarafından bölünen ve örneklere bölünen yatay federasyon. Böyle bir durum var mı? Örnekler, farklı veri sahiplerinde hemen hemen aynı, ancak özellikleri farklı. Örneğin farklı kuruluşların ve şirketlerin karşılaştığı kullanıcılar hemen hemen aynıdır ancak özellikleri farklıdır.

Örneğin, bir video web sitesinde birçok kullanıcının video tercihleri vardır ve kitap satan bir çevrimiçi mağaza neredeyse aynı kullanıcı setine sahiptir, ancak özellikleri farklıdır. Bu kitaplarla ilgili, diğeri videolar hakkındadır. Bir başka örnek iki banka: Bir bankanın çok fazla kredisi olabilir, diğer bankanın çok fazla mali yönetimi olabilir ve kullanıcı grupları da büyük bir örtüşmeye sahip olabilir.

Geçmişte yöntem, verileri satın almak ve bir sunucuda toplamaktı, ancak şimdi işe yaramıyor. Sadece federe öğrenmenin bunu yapıp yapamayacağını düşünüyoruz.

Bu tür bir federasyonun farklı özellikleri vardır, ancak örnekler üst üste biner ve özelliklerine göre dikey olarak kesilir, bu nedenle buna dikey federasyon denir. Şekilde görüldüğü gibi, iki kurum arasındaki iletişim de verilerin kendisi değil, şifrelenmiş bir model parametresidir. Herhangi iki A ve B verisi verildiğinde, tüm örnekler çakışmaz. Ancak yeterince örtüşen parça bulmanın bir yolunu bulursak, bu kısımda modelleyebilir ve modellemek için federe öğrenmeyi kullanabiliriz.

Aşağıdaki iki soruya bölünmüştür:

Kullanıcının kendi verilerinin gizliliğini ifşa etmeden ve kullanıcıya ve karakteristik değeri söylemeden, iki veri sahibi ortaklaşa sahip oldukları örnekleri birlikte bulabilirler.

Bu örnekleri bulduktan sonra, bu örnekleri birlikte modellemek için eğitim verileri olarak kullanın. O zaman nasıl kullanılacağı var.

Nasıl modellenir:

Dikey federasyonun genel fikri, bu modelin Parti A modelinin bir parçası ve Parti B modelinin bir parçası olmasıdır. Tıpkı Savaşan Devletler Dönemi kaplan sembolü gibi, bir mühür iki parçaya bölünür.Ancak mühür tamamen üst üste gelebildiğinde generalin gerçek kralın emrini aldığını kanıtlayabilir - solda A modeli ve sağda B modeli , Bu ikisi birlikte ortak akıl yürütme için bir ittifak oluşturabilir.

Detaylara bakalım: Önce bir duvar var, yani duvardan veri alışverişi yapılamaz. Solda A organizasyonu ve sağda B organizasyonu var Bu iki organizasyon iletişim kurarken çok dikkatli olmalı ve sadece bazı şifreli model parametrelerini iletebilirler.

Bu algoritma, sağ tarafta genişletmek için 4 adım kullanır ve size adım adım açıklayacağım.

Adım 1: Şekilde gösterildiği gibi, soldaki kuruluşun böyle bir kullanıcısı veya bir dizi X örneğine sahip olduğunu ve ayrıca sağda bir dizi örnek Y bulunduğunu ve bunların kesişme noktalarının X ve Y gösterilmeden bulunabileceğini varsayalım.

Adım 2: İlgili modelleri hesaplayın, A organizasyonunun modelin bir parçası olacağını ve B organizasyonunun modelin başka bir parçası olacağını unutmayın. İlk olarak, A kurumunda ilk adımı yapın, ilk parametrelerin ve her numunenin bir iç çarpımını yapın, bu iç ürünün sonucunu şifreleyin ve ardından şifreleme algoritması aracılığıyla B'ye gönderin.

Üçüncü adım: B bu paketi alıyor, içinde ne var bilmiyorum ama homomorfik şifreleme ile numunenin hesaplama sonucunu güncelleyebiliyor.Sonuç alındıktan sonra gerçek değer ile karşılaştırılacak ve bir kayıp değeri elde edilecek. Kaybı şifreleyin ve A'ya geri gönderin.

Genellikle bu durumda, bir düzenleyici (Koordinatör) varsa, prosedürü basitleştirecektir, böylece B de sonucu doğrudan Koordinatöre gönderebilir.

Adım 4: Koordinatör sonucu aldıktan sonra, sonucu şifreler, biraz gürültü ekler ve kendi model parametrelerini güncelleyebilmeleri için bunu A ve B'ye dağıtır. Bu, her katılımcının diğer tarafın Veri ve özellikler ve kendi parametrelerini güncelleyebilir. Bu süreçten sonra birçok kez yavaş yavaş A ve B modelleri oluşturulur.

Yeni bir kullanıcı gelirse, Parti A ve Taraf B'nin katılımıyla benzer bir süreçle tamamlanabilir. Bu, özelliklerin örtüşmediği, örneklerin örtüştüğü ve birbirlerinin örneklerini tanımadıkları dikey federasyonun öncülüğünde gerçekleşir. Öncülüne göre, model de olabilir.

Özet: Sözde yatay birleşik öğrenme, verileri yatay olarak kesmektir Daha fazla kullanım senaryosu, birçok terminal ve bir sunucu ile birleşik öğrenmedir. Boylamsal birleşik öğrenme, verileri özelliklerine göre kesme. Kullanırken, herkes temelde iki şirket arasında aynı yerde veya seviyededir.

Dolayısıyla sol yatay federasyon toC için daha uygundur ve sağ dikey federasyon toB için daha uygundur.

Özellikle, 18. yüzyılın başlarında WeBank'ta, kullanıcı gizliliğinin korunmasının birçok veri sahibinin işbirliği yapması için bir zorluk olduğunu gördük. Korurken farklı bankalar ve kurumlar arasında ortak model nasıl oluşturulur? Veri gizliliği? TOB'nin federe öğrenimini geliştirdik.

Google'ın ilgili araştırma ekibi her zaman Android ekibinin altında yer aldı, bu nedenle yatay birleşik öğrenim konusunda daha fazla endişe duyuyorlar. Şimdi Amerika Birleşik Devletleri ve Avrupa daha yatay ama bizim ülkemizde daha dikey. Federal öğrenme artık iki başlı bir gelişmedir.

Üçüncü taraf kaldırılabilir mi?

Üçüncü bir tarafın kullanıcı gizliliğini sızdırması mümkün olduğu için (kaldırmak) mümkündür, ancak birkaç adım daha gereklidir ve genel adımlar daha uzun hale gelir, ancak yapılabilir, bu yüzden burada genişletmeyeceğim.

Federe öğrenme blockchain gibi mi?

Federe öğrenme aslında blok zincirinden farklıdır. En önemli fark şudur: Federe öğrenme, verinin değerini kullanır.Özelliklerinden biri, verilerin kopyalanamaması ve diğer düğümlere yerleştirilememesidir. Blockchain, bilginin şeffaflığını sağlamak içindir ve değiştirilemez, bu nedenle verilerin farklı düğümlere kopyalanması gerekir. Nihai amaç bir fikir birliği oluşturmak ve birden fazla taraf arasında bir ortak oluşturmak olsa da, gerçekten farklıdırlar.

Matematiksel açıdan, bilgisayar bakış açısından, çok partili bir mekanizma tanıtılırken, aşağıdaki üç soru sorulmalıdır:

İlk soru tutarlılıktır. Şimdi birçok parti var, yani işleri farklı sırayla yaparsam aynı sonucu mu alacağım? Umarız aynıdır. Veritabanı için sorgu sonuçları aynı olmalıdır. Aynı şey federe öğrenme için de geçerlidir.

İkinci soru atomikliktir. Bir parti telefonu kapattığında, herkes eski haline dönebilir mi?

Üçüncü soru güvenliktir. Bu, federe öğrenme için özellikle önemli bir özelliktir. Ancak blok zincirinin bu tür çok partili bilgi işlem, güvenli bilgi işlem ve model hesaplama ve veri işbirliği dediğimiz şeyle hiçbir ilgisi yoktur.

2.3 Transfer öğrenimi: örnekler ve özellikler örtüşmez

Örneklerin örtüştüğünden veya özelliklerin örtüştüğünden az önce bahsetmiştim, ancak ikisi örtüşmezse, o zaman aktarım öğrenmesi gerekir.

Transfer öğrenmesi fikri, iki veri kümesinin örneklerinin ve özelliklerinin neredeyse hiç kesişme olmadığını ve alt uzaylarında örtüşmeler bulabileceğimi varsaymaktır. Nasıl bulunur? Bu, homomorfik şifreleme ve az önce bahsedilen dağıtılmış etkileşim mekanizması yoluyla yapılır. Bulunduktan sonra, alt uzayda yatay veya dikey federasyon gerçekleştirebilirsiniz.

Çok taraflı katılımla kötü amaçlı merkezler ve düğümler nasıl belirlenir

Kötü adamlar nasıl içeri girdi? Örneğin, OCR'de (El Yazısı Tanıma), bilgisayarın 0'ı tanımasına izin veririz. Şifreleme yapılmazsa, bir mekanizmamız yoktur, bu sözde yüzleşme yapılabilir.Kötü adamlar, parametrelerin sızması veya bir dizi gradyanla orijinal verileri tahmin edebilir.

Bu nedenle, matematikçiler kötü adamları sınıflandırmak için çeşitli yöntemler üzerinde kafa yordular.

Dürüst iyi bir insandır; Dürüst ama meraklı meraklıdır, ama fena değildir. Kötü niyetli olan ve zarar vermek isteyen, kullanıcı gizliliğini elde etmek ve sonra kâr etmek isteyen başkaları da var.

Farklı hipotezler için farklı federe öğrenme algoritmaları ve çok partili hesaplama algoritmaları tasarlanabilir ve sıfır bilgi ve bazı bilgi sınıflandırmaları da yapılabilir. Sunucu aynı zamanda kötü niyetli bir merkez, kötü niyetli bir veri düğümü ve kötü niyetli olmayan bir veri düğümü olup olmadığını da ayırt edebilir.

Örneğin, tüm sunucunun ortalama modelini kontrol etmek için özellikle bazı sahte veriler tasarlamak isteyen bir cep telefonu var. Bu fenomenin olmasını nasıl önleyebilirim? Bu sorunlar gelecekte bir dizi açık sınıfta ele alınacaktır. Bu görevler şu anda devam etmektedir. Çevrimiçi arama yapabilirsiniz.

Güvenlik politikası açısından, çevrimiçi bulabileceğiniz iki özel örnek var. Bunlardan biri, model parametrelerini işleyerek tüm federasyon modelini kontrol eden model saldırısıdır. Ayrıca, federe hesaplamalara katılan ve onu federe modelin kontrolünde belirleyici bir rol yapan bir veri saldırısı vardır.Bunların makaleleri ve çözümleri vardır.

Ek olarak, bu farklı veri sahiplerini federe modellemeye katılmaya devam etmeye teşvik etmeye nasıl devam edebiliriz, böylece herkes fayda elde etmeye devam edebilir ve aynı zamanda kolektif faydaları en üst düzeye çıkarabilir? Oyun teorisinin, ekonomisinin ve modellerin yapması gereken budur ve bu alanda da çok çalışma vardır.

2.4 Federal Öneri Sistemi

Öneri sistemi ile federe öğrenmenin kesişimi de oluşturulabilir.Örneğin, film öneren ve kitap öneren iki veri tarafı iş dünyasında rekabet edemeyebilir, bu nedenle işbirliği yapmaya karar verirler, ancak gizliliği sızdırmak istemezler. Diğer taraf için, federal öğrenim yapmak için aşağıdaki yöntemleri kullanabilirler:

ABC'nin farklı veri sahipleri, her bir tarafın sahip olduğu kullanıcı verilerini bazı alt matrislerin ürünü olarak ele almak için matris ayrıştırmasını kullanabilir.Doğrusal cebir, böyle bir alt matrisin ürününü oluşturmak için kullanılır. Bu üç farklı kullanıcı ayrıştırılır Üç kullanıcının özvektörleri, bir kitabın özvektörlerinin bir matrisi ile çarpılır.Bu vektörlerin hesaplanması, federe öğrenme yoluyla hesaplamayı umduğumuz şeydir. Nasıl hesaplanacağına özel olarak, burada herkesin kafasını karıştırabilecek nispeten yeni ve karmaşık görünen bir algoritma var.

Genel yaklaşımdan kısaca bahsedin:

Her veri sahibi önce kendi verilerinin matris ayrıştırmasını gerçekleştirir ve ardından az önce bahsedilen kitabın özvektörleri gibi içindeki bazı parametreleri şifreler ve bunları sunucuya taşır ve ardından bu farklı vektörler üzerinden geçirilebilir. Yatay birleşik öğrenme, homomorfik ortalama alır ve ardından ortalama güncellenmiş değeri farklı kullanıcılara dağıtır. Böyle bir yaklaşımla matris, Federated Averageing çerçevesi altında güncellenebilir.

Şimdi bunu dikey öneri sistemine de genişletebiliriz, yani kullanıcıları çok fazla örtüşüyor, ancak özellikler yok. WeBank şimdi Federal Öğrenme ve Federal Önerileri kullanan ilk reklam sistemini başlattı, bu nedenle buna Federal Reklam deniyor. Reklam sistemi, kullanıcının mahremiyetini veya medyanın mahremiyetini bilmeyebilir.

3. Birleşik öğrenmenin çok sahneli uygulama örnekleri

Banka risk kontrolü

Çünkü elde etmek istediğimiz şey büyük veri, yani veriler farklı bakış açılarından geliyor.Örneğin, kullanıcı kredilerinin risk yönetimi finansal, kamuoyu, adli, vergi, idari ve daha birçok veriyi gerektiriyor. Hepsi farklı. Veri sahibi olarak, birlikte modellemek için bir federasyon ittifakı kurmayı umuyoruz. Örneğin, bir kooperatif işletme ve bir banka. Bu dikey bir federasyondur, çünkü kullanıcılar yeterince örtüşür, ancak özellikleri farklıdır. Az önce bahsedilen algoritmaları kullanmanın etkisi çok geliştirildi, işte karşılık gelen Sonuç, NPL oranında keskin bir düşüş.

Sigorta Sektörü İşbirliği

Şimdi bir İsviçre reasürans şirketi ile derinlemesine bir işbirliğimiz var.Reasürans adı verilen sigorta şirketleri için sigortadır.Reasürans şirketi bünyesinde çok sayıda sigorta şirketi olduğunu tahmin edebilirsiniz.Bu sigorta şirketleri hem rekabetçi hem de işbirlikçi. İşbirliği, federal öğrenimin kullanılmasını gerektirir.

Küçük ölçekli bir yatay federasyon ve büyük ölçekli bir dikey federasyon haline gelmek için dikey federasyon, yatay federasyon veya dikey ve yatay federasyonların bir kombinasyonu olabilir. Çeşitli çok ilginç yapılar var ve çok iyi sonuçlar elde ettiler.

Bilgisayar görüşü

Farklı bilgisayar görüntülerinin farklı şirketlerden geldiğini varsayarsak, bu işbirliği yapma istekliliği vardır. Yatay bir federe öğrenme sistemi hayal edebilirsiniz, çünkü görüntü örnekleri farklıdır, ancak özellikleri hemen hemen aynıdır, hepsi pikseldir, bu nedenle akıllı üretim, güvenlik ve şehir alanlarında kullanılabilirler ve şimdi uygulanmaktadırlar.

Extreme Vision ile işbirliğimizi örnek olarak alın. İşlerinden biri, inşaat şirketlerinin şantiyelerin güvenliğini izlemelerine yardımcı olmaktır. Birçok inşaat şirketinin kendi mahremiyeti vardır ve bunu diğer inşaat şirketlerine ifşa etmek istemezler, ancak her bir verisi Sınırlıdır.Federal öğrenme yoluyla, güvenli inşaat gereksinimlerini karşılayabilecek genel model oluşturulabilir ve onlara dağıtılabilir.

Konuşma tanıma

Ses sistemi farklı kayıtlardan gelebilir.Örneğin, bazıları servis merkezlerinden kayıtlar, bazıları cep telefonlarına kayıtlar ve bazıları diğer şirketlere ait kayıtlardır.O zaman her kayıt, bu kullanıcıları gözlemlemek için farklı bir açıdan olabilir. Bu kayıtları toplamanın, bu verileri taşımadan genel bir model oluşturmanın ve farklı kayıtların, dillerin ve veri setlerinin kayıtlarını kullanarak federe modelimizi eğitmenin bir yolu var mı?

İnsansız araç

Laboratuvar ortamındaki insansız araçlar sınırlı veriye sahip, ancak sokağın her yerinde insansız araçlar olduğu varsayıldığında her biri her an yeni veriler alıyor. Her insansız araçla ilgili belirli verileri ifşa etmemek ve aynı zamanda federal bir model oluşturmak için bir araya getirmenin bir yolu var mı? Spesifik yöntem, federe öğrenme artı pekiştirmeli birleştirilmiş öğrenmedir.

tedarik zinciri finansmanı

Az önce bahsedilen bilgisayarla görme ve federe öğrenme arasındaki iletişimi kullanan çok sayıda depo yönetimi ve izleme vardır. Yukarı ve aşağı akış ile envanter tahmini arasındaki ilişki, tedarik zincirindeki zor problemlerdir ve bu tür bir federal öğrenme yoluyla daha iyi çözülebilir.

4. Federal öğrenme ekolojisi inşa edilirken

Gelecekte, federal öğrenme gibi teknolojilerle, GDPR ve kullanıcı gizliliği gibi düzenleyici gerekliliklerle birlikte, beş yıl ve on yıl içinde toplumumuz ne tür bir biçim geliştirecek? Ben de böyle bir sosyal düğüme ulaşacağımıza ve pek çok ittifakın kurulacağına inanıyorum, bu ekoloji.

Federe öğrenme yoluyla gönüllü olarak örgütlenen birçok farklı şirket var, bunlar endişe duymadan özgürce işbirliği yapabilirler. Federe öğrenmenin teşvik mekanizması, bu tür ekolojiyi eşit bir şekilde canlı tutabilir, bir kartopu gibi gittikçe büyür. genişletin. Veri tekelini önleyebilir ve küçük verilere sahip şirketlerin hayatta kalmasına izin verebilir - yapay zekanın sosyal doğası dediğimiz şey, bu gerçekten Etik AI elde edebilen bir teknolojidir.

Federe Öğrenim kelimesinin ortaya çıkmasından sonra, bu kelimeyi Çinceye çevirmeyi düşünüyorduk. Her veri sahibinin bir "devlet" olduğunu ve aralarındaki ilişkinin bir devlet diplomatik ilişkisi olduğunu düşünüyoruz. Koordinatörleri de olabilir ya da böyle bir ortak modeli olabilir ve herkes bunu birlikte kullanıyor, bu herkes tarafından paylaşılan bir hizmet partisi gibi, bir "federasyon".

Aynı zamanda, ilk IEEE standardının oluşturulmasında da öncülük ettik, bu standardın formülasyonu henüz tamamlanmadı ve şimdi son noktaya girdi. Birçok tanınmış firma bu standarda katılmıştır. Bu standart ortaya çıktığında, dünyanın ilk uluslararası federal öğrenim standardı olacak.Gelecekte herkes federal öğrenim yoluyla işbirliği yaptığında, bu standarda göre ilerleyebilir ve etkileşim için ortak bir dile sahip olabilirler. Aynı zamanda, grup standartları ve ulusal standartlar dahil olmak üzere çeşitli yerel standartları da aktif olarak teşvik ediyoruz.

Federal Learning Açık Kaynak Projesi FATE

Federe bir öğrenme platformu oluşturduğumuzu varsayalım Kullanıcıların platformun güvenliği konusunda şüpheleri olacak ve arka kapıların varlığı konusunda endişelenecekler. En iyi yol, onu herkese açık ve açık kaynak yapmaktır.Herkes her kod satırını görebilir ve güvenle kullanabilir. En başından beri, federe öğrenmenin teknolojik ilerlemesinin açık kaynaktan ayrılamaz olduğuna inandık. Bu yüzden, FATE sistemi olan Linux Vakfı tarafından altın proje olarak listelenen, federe öğrenme üzerine dünyanın ilk açık kaynak projesini açık kaynaklı hale getirdik.

Bu, biraz önce bahsettiğim yatay federasyonu, dikey federasyonu, federe geçiş öğrenimini, birleşik güçlendirme öğrenimini ve ittifak önerisini destekleyen endüstriyel düzeyde bir federe öğrenimdir. Artık heterojen bilgi işlemi destekleyen, çeşitli birleşik öğrenmeyi destekleyen yeni bir sürüm var ve VMWare, derin bağlama ile derin bir işbirliğine sahibiz ve kullanıcıların Bulutta daha iyi uygulamalarına yardımcı olmak için KubeFATE adlı bir sistem başlattık. .

Federal öğrenmede başka ne çalışmaya değer? Güvenlik uyumluluğunun nasıl sağlanacağı, saldırılara karşı nasıl savunulacağı, algoritma verimliliğinin nasıl artırılacağı ve sistem mimarisinin nasıl geliştirileceği, daha fazla teknik uygulamanın nasıl yapılacağı ve iyi bir ittifak mekanizması ve teşvik mekanizması nasıl yapılacağı gibi hala yapılabilecek çok şey var. Herkesi cesaretlendirin. Yani her açıdan yeni başladık ve daha yapılacak çok iş var.

Etkileşimli Soru-Cevap Özellikli

S: Birleşik öğrenme ile dağıtılmış makine öğrenimi arasındaki en ayırt edici nokta nedir?

Yang Qiang: Birincisi, veri dağıtım özellikleridir. Dağıtılmış makine öğreniminde, veriler genellikle katılan hesaplama düğümlerine eşit olarak (iid) dağıtılır ve amaç, paralel hesaplama yoluyla verimliliği artırmaktır. Birleşik öğrenmede, veriler doğal olarak farklı alan ve kurumların veri adalarında bulunur ve veri dağılımı çok farklı ve düzensizdir (Non-iid). Ek olarak, dağıtılmış öğrenme, verimliliğe daha fazla önem verir ve genellikle veri merkezinde gerçekleştirilir ve veri sahibi aynı bireydir. Federe öğrenme, güvenliğe daha fazla önem verir ve veri sahipleri birden çok kişidir.

Soru: Şu anda blockchain ve MPC kombinasyonunu yapan şirketler var (federe öğrenme, homomorfik şifreleme gibi) Siz ne düşünüyorsunuz?

Yang Qiang: Blockchain ve federe öğrenme birbirini iyi bir şekilde tamamlayabilir. Federe öğrenme, ilgili tüm taraflar için değer değişimi ve etkili teşvikler elde etmek için blok zincirinin dağıtılmış muhasebesini ve diğer işlevlerini kullanabilir ve ayrıca, federe öğrenme hesaplamalarına katılan merkezi düğümleri değiştirmek için blok zincirinin merkezi olmayan özelliklerini kullanabilir. Blockchain, federe öğrenmeden farklıdır.Blockchain, bir fikir birliği mekanizması elde etmek için her düğümde verileri tekrar tekrar çoğaltır. Zincirdeki tüm veriler herkese açıkken, federe öğrenmeye katılan tüm tarafların verileri farklı ve özeldir.

Soru: Federe öğrenme eğitiminden sonraki model kamuya açık bir modeldir ve her bir müşterinin verileri genellikle geçersizdir.Öğretmenin bu konuda herhangi bir fikri olup olmadığını merak ediyorum.

Yang Qiang: (Yatay) federe öğrenmenin etkisi, esas olarak tüm tarafların örneklem büyüklüklerinin bir araya getirilmesinden elde edilir.Eğitimin amacı, tüm katılımcıların verilerine uygulanabilen genelleme yeteneklerine sahip bir model elde etmektir. Tüm taraflardan iddiasız veri dağıtımı, federe Kanada doları öğrenme ve çok görevli öğrenme ile çözülebilir.

Soru: Verinin her bir parçasının kalitesi nasıl sağlanır? Örneğin, tıbbi görüntü verisi açıklamasının kalitesi değişiklik gösterir.

Yang Qiang: Fiili üretimde, tüm düğümlerde denetim mekanizmalarını uygulama yöntemi, eğitime katılan örneklerin veri kalitesi eşiğini ortadan kaldırmak için kullanılabilir veya denetim için eğitim örneklerinin oluşturulmasını simüle etmek için GAN gibi bazı makine öğrenimi teknikleriyle birleştirilebilir. Ek olarak, eğitim sırasında çapraz doğrulama gibi veri doğrulama yöntemlerinin kullanılması da veri kalitesi sorunlarını etkili bir şekilde kontrol edebilir.

Soru: Federe öğrenmede, federe öğrenme sürecinde farklı veri adalarının örtük ağırlıkları var mı (yani, algoritma modelinde tasarım ağırlığı yok, ancak gerçek öğrenmede farklı ağırlıklar oluşuyor) Nasıl çözülür?

Yang Qiang: Birleşik öğrenme algoritması, verilerin eşit olarak dağıtıldığını varsayarak, veri miktarına göre ağırlıkları kendisi atar. Aslında ağırlık, veri kaynağı ile hedef veri kaynağı arasındaki benzerlik analiz edilerek de tasarlanabilir.

S: FATE çerçevesinin ve Tensorflow Federated Framework'ün avantajları ve dezavantajları nelerdir?

Yang Qiang: FATE çerçevesi, ilk endüstriyel FL çerçevesidir.Sektör uygulamalarından başlayarak, yatay, dikey ve geçişli birleşik öğrenme ve çeşitli güvenli bilgi işlem bileşenleri gibi öğrenme çerçevelerini destekler. TensorflowTF şu anda yalnızca, çoğunlukla akademik araştırmalar için uygun olan, nispeten kısa ve kullanımı kolay olan yatay federasyonu desteklemektedir.

Soru: Federe öğrenme, RPA dağıtımını ve veri orta istasyon dağıtımını nasıl etkiler?

Yang Qiang: Birleşik öğrenme, RPA'da AI teknolojisinin bir bileşeni olarak kullanılabilir. RPA genellikle standart dışı ve veri ayrımı gibi zorluklarla karşılaşır.RPA dağıtım sistemleri, birleşik öğrenme yoluyla ürün etkilerini iyileştirebilir.

Soru: Federe öğrenme, eğitim büyük veri alanına nasıl uygulanır?

Yang Qiang: Federal öğrenme, özelleştirilmiş eğitime ulaşmaya yardımcı olabilir. Eğitim kurumları, öğrencilerin kişisel mobil cihazlarında (akıllı telefonlar ve dizüstü bilgisayarlar gibi) depolanan verilere dayalı olarak ortak bir öğrenme planı modeli oluşturabilir. Bu model temelinde, her öğrencinin uzmanlığı, ihtiyaçları, becerileri ve ilgi alanlarına göre özelleştirilmiş ve kişiselleştirilmiş bir öğrenme rehberlik modeli de oluşturulabilir.