Chen Zhiyuan: Veri Boyutunu Azaltma ve Görselleştirme AI Araştırma Topluluğu 53rd Ape Table Meeting

Çoğu insanın zaten veri görselleştirmeye maruz kaldığına inanıyorum - Excel sadece bir tablo çizdi. Hepimizin bildiği gibi, ortaokulda öğrendiğimiz çubuk grafikler, pasta grafikler, vb. Gibi iki boyutlu verileri görselleştirmek kolaydır. Peki ya 3B veriler? Belki ses ürünleriyle temas kuran bazı arkadaşlar şelale grafiğinin çok iyi olduğunu söyleyecektir. N boyutlu veriler ne olacak? Fizik bize şunu söylüyor: Düşük boyutlu uzay ancak bu boyuttaki yüksek boyutlu uzayın izdüşümünü gözlemleyebilir. Kendi boyutluluğumuz artırılamayacağından, yalnızca verilerin boyutluluğunu azaltmanın bir yolunu bulabiliriz.

Veri boyutluluğunu azaltmanın temel ilkesi, orijinal veri setinin kompakt, düşük boyutlu bir temsilini elde etmek için, örnek noktaları girdi uzayından düşük boyutlu bir alana doğrusal veya doğrusal olmayan dönüşüm yoluyla eşlemektir. Bir yandan "boyut felaketini" çözebilir, "zengin bilgi ve yetersiz bilgi" statükosunu hafifletebilir ve karmaşıklığı azaltabilir, diğer yandan verileri daha iyi anlayabilir ve anlayabilir.

Şimdiye kadar, veri boyutluluğunu azaltmanın birçok yöntemi vardır. Farklı açılardan farklı sınıflandırmalar başlatabiliriz.Ana sınıflandırma yöntemleri şunlardır: Verilerin özelliklerine göre doğrusal boyut küçültme ve doğrusal olmayan boyut küçültme; verinin denetlenen bilgisinin dikkate alınmasına ve kullanılmasına göre denetimsiz boyut küçültme olarak ayrılabilir, Denetimli boyutsallık azaltma ve yarı denetimli boyutluluk azaltma; veri korumanın yapısına göre, küresel koruma boyutsallığını azaltma, yerel koruma boyutluluğunu azaltma ve küresel ve yerel tutarlılık boyutsallığını azaltma, vb.

Son zamanlarda, Leifeng.com AI Araştırma Enstitüsü'nün açık sınıfında, Avustralya Ulusal Üniversitesi'nde bir bilgi teknolojisi öğrencisi olan Chen Zhiyuan, veri boyutluluğunu azaltma ve görselleştirme ile ilgili içeriği paylaştı. Açık sınıf oynatma video URL'si:

Chen Zhiyuan: Avustralya Ulusal Üniversitesi'nde Bilgi Teknolojisi Öğrencisi. Şimdi Pekin Üniversitesi'nde uluslararası bir yaz öğretim asistanıyım. Lei Feng altyazı grubuna katıldıktan sonra, CS231n Stanford Li Feifei Bilgisayarla Görme Kursu ve CS224n Doğal Dil İşleme'yi tercüme etti.

Konuyu paylaş: Veri boyutluluğunu azaltma ve görselleştirme

Anahat paylaş:

Yüksek boyutlu veri örneği yüksek enlem uzamsal model

Boyutsallık felaketi neden bu kadar önemli?

Yaygın olarak kullanılan doğrusal ve doğrusal olmayan boyutluluk azaltma yöntemleri

Leifeng.com AI Araştırma Enstitüsü paylaşım içeriğini şu şekilde düzenler:

Ben Chen Zhiyuan, Avustralya Ulusal Üniversitesi'nde bilgi teknolojisi okuyorum. Şu anki yönüm yüksek performanslı bilgi işlem. Şu anda Peking Üniversitesi'nde uluslararası bir yaz öğretim asistanıyım. Lei Feng altyazı grubuna katıldıktan sonra, CS231n Stanford Li Feifei Bilgisayarla Görme Kursu ve CS224n Doğal Dil İşleme'yi tercüme etti. Bugün sizinle paylaşmak istediğim şey popüler öğrenim: veri boyutunun azaltılması ve görselleştirme.

Bir süre önce Şangay'a gittim ve eski kıdemlilerim ve Avustralya Ulusal Üniversitesi'nden bazı mezunlarla tanıştım.

Onlarla akşam yemeği yerken birçok iş meselesini tartıştık. Onlardan biri, bir bankada çalışan bir kıdemli, bana mevcut iş zekası ve veri görselleştirmesinden bahsetti.

Bu nedenle bugün sizinle veri görselleştirme hakkında konuşmak istiyorum. Herkesin makine öğreniminde bir geçmişi olduğunu varsaymış olsam da, tüm insanların makine öğrenimini öğrendiğini göz önünde bulundurarak, bilgisayar ve matematik olmayan izleyiciler de olmalıdır. Yeterli temele sahip değiller, bu yüzden bugünün dersi çok derin olmayacak. Ben sadece Size kısa bir giriş yapmama izin verin. Herhangi bir sorunuz varsa, dersten sonra benimle iletişime geçebilirsiniz veya internette daha derinlemesine bilgi bulabilirsiniz.

Burada internette bulduğum bir resmi kullandım ve başlık şu ki, herkes akıllı telefon gönderileriyle daha çok ilgileniyor olabilir.

Bu grafikte yatay eksen ay (zaman) ve dikey eksen sevkiyatlardır. Bu, veri görselleştirmenin mükemmel bir örneğidir.İki dakikada bir sürü resim yapabileceğinize inanıyorum.

Bu yüzden sizinle paylaşacak çok şey olduğunu sanmıyorum. Bu ders başarıyla sona erdi. Katılımınız için teşekkür ederim. Umarım herkes Lei Feng'i desteklemeye ve AI Araştırma Enstitüsü'nü desteklemeye devam edebilir.

--Tabii ki bu imkansız.

Zi, "İyi bir ders videoyla başlamalı" dedi. Ders 2 dakika başlasa da çok geç değil.

Bu video aslında beş yıllık. Ulusal makine öğreniminin ne kadar erken başladığını gösteren Smart Planet'i tanıtmak için o sırada IBM tarafından üretildi. Umarım herkes bu videoyu anlamıştır çünkü ben de altyazıları bulamadım.

Bu video, esas olarak IBM'in makine öğreniminin bu fırının satışlarını nasıl artırabileceğini anlatmaktadır Önemli olan veri.

Fırınlar için satışları etkileyen birçok faktör vardır. Örneğin, dış hava sıcaklığı, nem ve yağış - tek başına havanın üçten fazla boyutu var, trafik sıkışıklığı da var (kahvaltı için çok geç) ve hatta Dünya Kupası sonuçları bile bunu etkileyecek. Öyleyse, bu kadar çok boyuta atmak için ne tür bir resim çizeceğiz?

Yukarıdaki resmin en sol kısmı sıfır boyut, nokta. Aşağıdakiler şunlardır: tek boyutlu, çizgi; iki boyutlu, yüzey; üç boyutlu, hacim. Ve son dört boyuta kare denir ... kare nedir? Her neyse, adının ne olduğu önemli değil, önemli olan dört boyutlu olması. Üç Beden okuyan var mı bilmiyorum, son kitabında dört boyuttan bazı açıklamaları var. Bu, üç boyutlu uzayda olmayan bir açıdır, olmadığı için onu göremeyiz, ancak hayal edebiliriz.

Herkesin bunu akılda tutması yeterli Biri sizden bir fırının satışını gözünüzde canlandırmanızı istiyor ve siz sadece bu resme yüzünü atıp şöyle diyorsunuz: Kendiniz hayal edin.

Cidden, sadece bir tablo çizmek için bir sürü makine öğrenimi algoritması mı yapıyor? Pekin Altıncı Enstitüsü hakkında bilgi almak ister misiniz?

Herkesin bir makine öğrenimi geçmişine sahip olduğunu varsaymış olsam da, tüm insanların makine öğrenimini öğrendiğini göz önünde bulundurarak, yeterli temele sahip olmayan bilgisayar ve matematik olmayan izleyiciler de olmalı, bu yüzden boyutsallık felaketini kısaca tanıtmak istiyorum. Daha derinlemesine öğrenmek isteyen öğrenciler, internette de ilgili bilgileri arayabilirler.

Boyut ne kadar yüksekse, doğruluk o kadar yüksek olduğunu biliyoruz.Örneğin, hava tahmini sıcaklık, nem, rüzgar yönü, rüzgar kuvveti ve yağışları içerecektir ... En azından deneyimler bize bu tür hava tahminlerinin doğruluğunun daha yüksek olacağını söylüyor. Öyleyse, tüm durumlar için boyutsallık ne kadar yüksekse, o kadar iyi olduğunu düşünerek genişletilebilir mi?

Önce resme bir bakalım, resimde bir sürü Wang ve Meows var, onları nasıl sınıflandırmalıyız? Sıralamak iyi görünmüyor.

O halde biraz genişletelim, bir boyut daha ekleyelim ve grafiğin iki özelliği olacak, yani iki boyut.

Sınıflandırma etkisi iyi gibi görünse de, daha iyi olabilir mi?

Peki ya bir özellik daha?

Harika. Çok sezgisel görünmese de. Şifremi dinle, değiştir

Çok güzel, Meow'u Wangs'tan mükemmel bir şekilde ayırıyor.

Yukarıdaki resmi görünce Hmmmm biraz yanlış görünüyor. Doğru tahmin ettin, aşırı uygun. Herkesin abartmanın ne olduğunu ve bundan neden bu kadar nefret ettiğimizi bildiğine inanıyorum, bu yüzden burada tekrar etmeyeceğim.

Ek olarak, rahatsız edici bir şeyimiz daha var, eğer kNN'yi öğrendiyseniz, o zaman boyutsal felaketi bilmelisiniz.

Pek çok algoritma önemli bir temel varsayıma dayanmaktadır: bir eğitim numunesi her zaman herhangi bir numunenin yakınında herhangi bir küçük mesafede bulunabilir, yani, eğitim numunesinin numune yoğunluğu yeterince büyüktür ve sınıflandırmayı sağlamak için "yoğun numune alma" olarak da bilinir.

Boyutsal büyümenin üstel olduğunu biliyoruz. Bir 10x10 kare 100 örnekle doldurulabilir ve 10x10x10x10 dört boyutlu bir gövde 10.000 gerektirir. 2009 KDD Mücadelesi 15.000 boyut buldu ve örneklem boyutu ne kadar büyük olursa olsun, çok seyrek.

Yukarıdaki iki noktaya ek olarak, son derece önemli bir nokta daha var, sonra mesafe. Yüksek boyutlu uzayda farklı örnek çiftleri arasındaki mesafenin aşina olduğumuz üç boyutlu uzaydan çok farklı olduğunu biliyoruz. Burada basit bir kanıt yapıyoruz:

D boyutlu bir uzayda, bir hiperferin hacmi şu şekildedir:

, Tesseract'ın hacmi şu şekildedir:

. Sonsuz boyutlara sahip olduğumuzda, yani, d sonsuza yaklaştığında, hiper kürenin hiper kübe hacim oranı talihsiz olacaktır:

.

Bu hikaye bize, yüksek boyutlu bir uzaydaki neredeyse tüm verilerin merkezden çok uzakta olacağını ve birbiriyle yakından ilişkili iki veri çifti arasındaki mesafenin düşündüğünüzden çok daha büyük olabileceğini anlatıyor.Bu durumda, mesafe fonksiyonu anlamını yitiriyor.

Bu nedenle amacımız boyutu küçültmektir.

Boyut nasıl küçültülür?

"Üç Vücut" u izleyen herkesin bildiğine inanıyorum: Manifold öğrenme. Veri boyutluluğunu azaltma işlemine geçmeden önce, burada kısaca popülerliği tanıtacağım.

Bu resimde bir kase, bir fincan ve bir çörek var.

İlk önce bir "Homeomorfizm" kavramı. Ne tür şeyler homeomorfiktir?

Sürekli dönüşümden sonra (uzatma, bükme, yırtma veya bağlama), bunlar aynı iki veya daha fazla nesne haline gelebilir.Bu nesneler homeomorfiktir. Bu örnekte, kupa ile halka arasında bir daire vardır, bu nedenle bunlar homeomorfiktir.

Sonra başka birini tanıtırız "Cins" Gerçek kapalı yüzeyi bir örnek olarak ele alalım, g cinsi yüzeydeki deliklerin sayısıdır ve aynı cins cinsi olan nesneler homeomorfiktir. Bu örnekte, kasenin cinsi 0'dır ve hem fincan hem de çörek cinsi 1'dir, bu nedenle fincan ve halka homeomorfiktir.

Neden burada manifoldlardan bahsediyoruz? Bu, bu şeylerin isteğe bağlı olarak değiştiğini varsayabileceğimiz anlamına gelir. Örneğin cam ve plastik kaseleri fincan şeklinde yoğurmak da zordur.

Öyleyse bunun boyutsallık azaltmayla ne ilgisi var? Başka bir resme bakalım.

Bu dünya. Ve hepimiz Avrupa uzayında bir kürenin üç boyutlu olduğunu biliyoruz.

Bu haritadır, küre düzleştirildikten sonra nasıl görünür.

Peki, küresel yüzey kaç boyuttadır? İki boyutlu bilmek için bu resme bakın. Başlangıçta, konumumuzu ifade etmek için üç değişkene ihtiyacımız vardı, bu yüzden sadece ikiye ihtiyacımız var, yani boyutu başarıyla ikiye indirdik.

Sözde manifold öğrenme, Öklid uzayında boyutsallığı azaltabilecek böyle bir manifoldun olduğunu varsaymaktır. Burada yine, d boyutlu bir manifold herhangi bir noktada yerel olarak Öklid uzayına homeomorfiktir.Dünyanın herhangi bir noktası için, yerde gördüğümüz şey düzdür, yerel olarak homeomorfik olduğunu düşünebiliriz. Avrupa uzayında bu iki boyutlu bir şeydir.

Ardından, popüler öğrenme algoritmalarını resmi olarak tartışıyoruz.

her şeyden önce Doğrusal popüler öğrenme algoritması . Burada toplamda iki algoritmayı tartışacağız: denetimsiz PCA ve denetimli LDA.

İlk algoritma PCA veya Temel Bileşen Analizidir , Bileşenleri ilişkili olmayan yeni bir rasgele vektör ile ilişkili olan orijinal rasgele vektörü dönüştürmek için ortogonal bir dönüşüm kullanır.Bu cebirsel olarak orijinal rasgele vektörün kovaryans matrisini köşegen bir matrise dönüştürmek olarak ifade edilir. Yukarıdaki performans, orijinal koordinat sistemini yeni bir ortogonal koordinat sistemine dönüştürmek, örnek noktalarının en yayıldığı p ortogonal yönlere işaret etmektir ve ardından çok boyutlu değişken sistem üzerinde boyut indirgeme işlemini gerçekleştirerek daha yüksek bir hassasiyetle olabilir. Bunu düşük boyutlu bir değişken sisteme dönüştürün ve ardından düşük boyutlu sistemi tek boyutlu bir sisteme dönüştürmek için uygun bir değer fonksiyonu oluşturun.

Basitçe söylemek gerekirse, potansiyel olarak ilişkili değişkenlerden oluşan bir grubu, ortogonal dönüşüm yoluyla doğrusal olarak ilintisiz bir değişkenler grubuna dönüştürmektir.Dönüşümden sonra bu değişken grubuna temel bileşenler denir. PCA, verilerin en önemli yönünü bulmak ve orijinal verileri verilerin en önemli yönüyle değiştirmek anlamına gelir. PCA algoritması esas olarak doğrusal kovaryans açısından daha iyi bir projeksiyon yöntemi bulur.

Yaygın olarak kullanılan diğer bir algoritma ise LDA'dır, yani Doğrusal Ayrım Analizi (Doğrusal Ayrım Analizi) . PCA'dan farklı olarak, LDA, kategorinin etiketine göre sınıflandırma yeteneklerine odaklanır. Bu nedenle, LDA boyutsallığının azaltılması, k kategorilerinin sayısı ile doğrudan ilişkilidir ve öngörülen koordinat sisteminin ortogonal olduğunu garanti etmez.

Orijinal verilerimizin d boyutlu olduğunu varsayarsak, toplam k kategori vardır. PCA'nın seçebileceği boyut aralığı 1 - d iken, LDA'nın boyutlarla pek ilgisi yoktur. Denetimli öğrenme esas olarak etiketlere odaklanır. Düşürmeyi seçebileceği boyut aralığı 1 - k-1'dir (kategori sayısı-1). Bu, LDA kullanımında kısıtlamalara neden olmuştur.Örneğin kategori 3 ise 3 boyuta indirilemez, analoji 10'dur ve en fazla 9 boyuta indirilebilir. Ancak çoğu durumda, LDA'nın boyut azaltma etkinliği, PCA'ninkinden biraz daha yüksektir.

Boyutsallık felaketinden bahsederken üçüncü noktadan (uzaklık sorunu) dikkatlice bahsedilmemiştir.

Boyutluluğu azaltırken, boyutluluğu azaltmak için genellikle projeksiyon kullanırız. Bununla birlikte, düşük boyutlu projeksiyonlar elde etme sürecinde birçok veri, özellikle de orijinal mesafe verisi olan mesafe bilgisi çok fazla veri kaybedecektir. Boyutluluk azaltıldıktan sonra, yeni veriler üretilecektir. Çeşitlilik. Örneğin, Öklid uzayının orijinal mesafesi 10'dur, boyutsallık azaltıldıktan sonra 8 olur ve başka bir boyuttaki veriler 2 olabilir. Bu, boyutluluk indirgemesinden sonraki sonucun yeterince yakınsak olmamasına neden olur, dolayısıyla sınıflandırma Etki de azalır - bu, doğrusal boyut azaltmanın doğrusal prensibinden kaynaklanmaktadır.

Yani biz sadece Bu problem yalnızca doğrusal olmayan çok katlı öğrenme ile çözülebilir. Doğrusal olmayan manifold öğrenme ile ilgili olarak, sadece kısaca T-SNE (t-dağıtılmış Stokastik Komşu Gömme) algoritmasını tanıtacağım.

T-SNE algoritması, veri noktaları arasındaki benzerliği olasılığa dönüştürür.Görselleştirmenin kalitesini değerlendirmek için orijinal uzayın ve gömme uzayının ortak olasılığının Kullback-Leibler (KL) ıraksamasını kullanır, yani KL diverjansını kullanır. Derece fonksiyonu kayıp fonksiyonu olarak kullanılır ve ardından kayıp fonksiyonu gradyan inişi ile en aza indirilir ve son olarak yakınsama sonucu elde edilir.

Basitçe ifade etmek gerekirse, orijinal uzaydaki benzerlik Gauss ortak olasılığı ile temsil edilir ve gömme uzayındaki benzerlik "öğrenci t dağılımı" ile temsil edilir. T-SNE'yi neden kullanmak istediğimize gelince? Bunun nedeni performansının özellikle iyi olmasıdır - esas olarak verilerin yerel yapısına odaklanır ve aynı zamanda bu, zaman ve mekan karmaşıklığının çok yüksek olmasına da neden olur.

Daha sonra, doğrusal boyutluluk azaltma ile doğrusal olmayan boyutluluk azaltma arasında kısa bir karşılaştırma yapıyoruz.

Yukarıdaki resim, dört algoritmanın boyut azaltma etkilerini göstermektedir. Sağ alt köşedeki fa faktör analizidir (şimdi bunun hakkında konuşmadık) ve aynı zamanda bir doğrusal boyutluluk indirgemesidir.

Tüm karşılaştırma tablosundan şunu görebiliriz Doğrusal boyut azaltma ile doğrusal olmayan boyutluluk indirgeme arasındaki fark çok büyüktür, bunlar arasında, T-SNE'nin boyutluluk azaltma etkisi çok daha iyidir.

Genel olarak, önce onu azaltmak için doğrusal boyut azaltma (PCA gibi) kullanacağız ve sonra indirgemeden sonra T-SNE kullanacağız, böylece zaman ve alan karmaşıklığı tüketimini ve boyut azaltma etkisini dengeleyebiliriz.

Aynısı boyut azaltma için LDA kullanımı için de geçerlidir İlk olarak, boyut azaltma için PCA kullanılır ve sonra boyut azaltma için LDA kullanılır, çünkü (burada da görebiliriz) LDA'nın boyutluluk azaltma etkisi gerçekten de PCA'dan daha iyidir.

Bugünün bilgi noktaları burada. Gelecekte bu konuyu sizinle daha derinlemesine paylaşacağım. Dikkatini vermeye devam etmek için herkese hoş geldiniz.

Yukarıdakiler, bu sayıda davetliler tarafından paylaşılan tüm içeriklerdir. Daha fazla halka açık sınıf videosu için lütfen izlemek için Leifeng.com (Genel Hesap: Leifeng.com) AI Araştırma Topluluğu'na gidin. WeChat genel hesabını takip edin: AI Araştırma Enstitüsü (okweiwu), en son genel sınıf canlı yayın süresi önizlemesini alabilirsiniz.

Film eleştirmeninde du | Kalbinizde "yeni komedinin gerçek kralı" kim?
önceki
Grupta keskin bir silah olan Hou Yi düşmandan korkmuyor
Sonraki
Sanayi ve Bilgi Teknolojileri Bakanlığı harika: Huawei Play 7S parametre yapılandırması tamamen açığa çıktı
Fei Dong sana Bekarlar Günü hediyesi mi verdi? Adidas Human Race NMD x Pharrell Williams yeni renk şeması satışa çıktı ve kilitlendi!
Hipoglisemiyi tedavi eden fantastik bir aşk şaheseri olan "Bu Gece Romantik Tiyatroda" filmi, Sakaguchi Kentaro'dan selamlar gönderiyor.
Monkey King'i bu şekilde kullanarak, düşman siyah bir ekrandan utanacak
Cool House Technology, 2019 Hong Kong Küresel Kaynaklar Elektroniği Fuarı'nda yeni çözümünü tanıttı
ZUK tamamen pes etmedi: ZUK Z2 Pro, Android 8.0'ı yükseltecek
Opel'in yeni Insua lansmanı, yeni nesil Regal'in habercisi
Lider işbirliği ve sektörde yeni bir model oluşturma Deschmann'ın 2019 Yatırım Konferansı Guangzhou İstasyonu başarıyla sona erdi
En güçlü istasyon eski usta, koşması kolay değil
Yeni uygun maliyetli tam ekran makine: Kutudan çıkan Redmi 5 resim turu
Discovery Hall: Land Rover Range Rover Xingmai gerçek otomobili bu yıl içinde Çin'e girecek
"Komedinin Yeni Kralı" ulusal hitlerde. Zhou Xingchi: "Sıkı çalışma süreci çok zor, bu yüzden sık sık eve gidip izliyorum"
To Top