Makine öğrenimi öncüsü Michael I. Jordan, Tsinghua Üniversitesi'nde bir konuşma yaptı

20 Aralık'ta Tsinghua Üniversitesi Yazılım Okulu'nun ev sahipliğinde Veri Bilimi Enstitüsü'nün ortaklaşa düzenlediği "Michael I. Jordan Akademisyen Akademisyen Tsinghua Üniversitesi Değerli Konuk Profesör Atama Töreni ve Akademik Rapor" ana binanın resepsiyon salonunda gerçekleştirildi.

Akademisyen Michael Owen Jordan açılış konuşması yaptı

Törenin ardından Akademisyen Ürdün ünvanını aldı "Bilişimsel Düşünme, Çıkarımsal Düşünme ve Veri Bilimi (Bilişimsel Düşünme, Çıkarımsal Düşünme ve Veri Bilimi Üzerine)" Açılış raporu, veri bilimindeki temel konular hakkındaki düşüncelerini ve uygulamalarını paylaştı. Büyük veri bağlamında karşılaştığımız teorik ve sistem zorluklarını derinlemesine analiz etti. Bu iki zorluğu gizlilik ve iletişim kısıtlamaları ile çözmek için sayısal düşünme ve çıkarım düşüncesini örnek olarak açıkladı ve Berkeleyin büyük verisi olan California Üniversitesi'ni tanıttı. Alandaki en son araştırma sonuçları, istatistiksel çıkarımı, makine öğrenimini ve büyük veri hesaplamayı bütünleştiren ve önceki nesil dağıtılmış hesaplama çerçevesi Spark'ı tamamen geride bırakan yeni nesil dağıtılmış makine öğrenimi sistemi Ray'in piyasaya sürülmesine odaklanıyor.

Aşağıdaki, Akademisyen Ürdün ünvanıdır. "Bilişimsel Düşünme, Çıkarımsal Düşünme ve Veri Bilimi" Orijinal niyeti değiştirmeme gerekçesiyle tema raporunun orijinal metni, bir kısmı silindi.

Burada olmaktan onur duyuyorum Bugün teknik ders vermeyeceğim ama yine de teknik ve matematiksel konulara odaklanacağım - Tsinghua öğrencilerinin bunlarla ilgilenmesi gerektiğini düşünüyorum. Matematiksel problemler hakkında düşünmek faydalıdır ve dersi iki kısma ayıracağım.

Bazı zorluklarla başlayacağım, bu bölüm teknolojiye odaklanacak; sonra sistem zorluklarına döneceğim, bu nedenle veri kullanımı dahil birkaç slayt veri büyümesi vermek yerine, bu bölüm gerçek verilere odaklanacak Bir bilim insanı neye benziyor.

Berkeley'den yeni mezun olan öğrencilerimin iş bulmak için Silikon Vadisi'ne gittiğini hayal edin. İşin ilk gününde patron onlara dedi ki, ne olursa olsun büyük bir veri sistemi kurmama yardım etmeni istiyorum, ancak geleneksel hizmet sistemimizi kişiselleştirilmiş bir hizmet sistemiyle değiştirecek. Bu durum genellikle Silikon Vadisi'nde meydana gelir ve Çin'de de aynı olabilir.

Geleneksel hizmet sistemleri, arama, e-ticaret veya ilaç gibi işler yapar. Bu hizmet sistemini sadece herkese sağlarlar. Yıl boyunca yaptıkları işler, hizmet sistemini optimize etmek için verileri kullanmaktır. Bu nedenle, arama hizmeti sistemi genellikle parametrelere sahip bir tür algoritmadır.Veri taşınır ve parametreler çıktı veri kalitesini daha yüksek ve daha yüksek hale getirmek için ayarlanır.

Geçtiğimiz on yıl içinde çok fazla veri topladılar ve birden fazla hizmet sistemi sağlayabileceklerini anlamaya başladılar. En azından büyük şirketler için kişiselleştirilmiş bir hizmet sistemi sağlayabilirler. Küçük şirketler, çok sayıda hizmet sistemi sağlama konusunda büyük şirketlerle rekabet edemezler, ancak daha kişiselleştirilmiş hizmet sistemleri sağlayabileceklerini de fark ederler, bu nedenle birçok küçük şirket, bireyselleşme yönüne uyum sağlamaya başlamıştır.

Peki, bir teknisyen olarak ne yapmalısınız? Yapmam gereken şey, bu algoritmayı yüzlerce veya binlerce kez tekrarlamak, daha özel veriler ve daha kişiselleştirilmiş veriler kullanarak, her biri bir döngü içinde tekrarlanıyor. Her bireyin verilerini tekrarlamak için kullanmayacağım, ancak aynı ailenin verileri gibi gruplara ayrılmış bazı verileri kullanacağım.

Bunu arka planda yaptığım zaman, sadece bir servis sistemine değil, binlerce modele de çok fazla bilgisayara ihtiyacım var, şimdi buradayız. Pek çok insan böyle bir sistem kurmayı öğreniyor ve genellikle başarılı oluyorlar.

Ama asıl sorun burada değil, patron da bazı durumların farkında. İstatistiksel modelin yanlış olduğunu biliyoruz, çünkü mevcut verilere dayanıyor, ancak sisteme hizmet veren insan sayısı ile hata sayısının artmasına izin veremezsiniz-Az sayıda hataya tahammül edebilirim, ancak hatalara tahammül edemem Büyümeye devam et yoksa bu hizmet sistemini piyasaya sürdüğümde ilk gün 10 hata üretti. Bir yıl sonra hizmet sistemi son derece popüler oldu, ancak 10.000 hata üretildi. Sonra bu 10.000 kişi olmazdı Mutlu, o zaman büyük haberler yapmak isteyecekler ve hizmet sisteminizin o kadar iyi olmadığından şikayet edecekler.

Bu nedenle, yalnızca değişmeden kalan hatalı verilere tahammül edebilirim ve sistemin genişlemesi ile genişletilemez. Bir istatistikçi olarak, gerçek sorunun bu olduğunu düşünüyorum. Hata oranı orantılı olarak arttığında, istatistiklerde bu tür bir hatayı kontrol etmek için L2 veya L1 normunun kullanılmasının L sonsuz normunu kontrol etmeye eşdeğer olduğunu düşündüm Kuyruk olasılığını ve güç yasasını nasıl kullanacağınızı düşünmelisiniz. Yapmak için bekleyin. Öğrencilerim iyi eğitilmişlerse bu konular hakkında nasıl düşüneceklerini ve böyle bir sistemi nasıl kuracaklarını bileceklerdir. Ama daha da kötüsü, patronunuz sizden sadece bu sorunu çözmenizi istemiyor, aynı zamanda size bu sistemin en az eski sistem kadar hızlı çalıştığını da soruyor. Artık bilişimsel düşünceye sahip olmamız gerekiyor. İlk yarı, bir sistem artı istatistik ve makine öğrenimidir. Şimdi çalışma süresini tahmin etmemiz gerekiyor. Bu sistemin belirli bir süre içinde tamamlanmasını istiyoruz, böylece yaptığınız şeyin bir bilgisayar bilimcisine çok benzediğini görüyorsunuz.

İstatistikçilerin çalışma süresi kavramı yoktur, istatistiksel teori sistemindeki insanlar bu konuyu asla tartışmazlar, makine öğrenimi alanında tartışmazlar. Minimum çalışma süresinin ne kadar iyi olduğunu bilmiyoruz, operasyonla birlikte alınmasına izin verilen istatistiksel riski dikkate alacak bir konsepte sahip değiliz. Yani istatistikte, genellikle adlandırılan veri miktarını bilirsiniz, değerlendirilen parametrelerin boyutsal hipotez uzayının karmaşıklığını anlarsınız ve sistemi oluşturmak için denklemlere güvenirsiniz, ancak çalışma süresini bilmiyorsunuz ve çalışma süresi, veri miktarına göre farklıdır. . Bilgisayar bilimcilerin yapması gereken bu, devreye girip bazı miktarları çalışma süresine dönüştürmeleri gerekirdi.

Bu, öğrencilerim için küçük bir zorluk olmaya başlıyor. Bir sistem kurabileceğimi söyleyecekler, eğer yavaş çalışıyorsa bana daha fazla bilgisayar vermelisin, ama hala bilet paketleyemiyorum, neden şimdi yavaş çalışmıyor? Bu hizmet sistemlerinin çoğunun, arama motorunuz gibi bir zaman bütçesi olduğundan, geri bildirim almak onlarca milisaniye sürer, değil mi? Bu, 1990'lardaki en iyi arama motorlarının tepki süresiydi.

Anında sonuç almak yerine, yalnızca ara düğmesini tıkladıktan sonra on milisaniye sonra geri bildirim alabilirsiniz. Önceki nesil arama motorlarında, düğmeyi tıklamak bile belirsiz bir süre gerektirir, genellikle birkaç saniye, bu da kullanıcılar için çok sinir bozucudur, bu nedenle bunu optimize etmek için çok çaba sarf ettiler ve sonunda tepki verdiler. Birkaç milisaniye ila onlarca milisaniye olur.

Yani şimdi bir hizmet sistemi kurmak istediğimi söylerseniz, kişiselleştirilecek ve size daha iyi bilgi verecek, ancak daha yavaş çalışacak ve kimse tatmin olmayacaktır. Bahse girerim bu, sistem kurucular için küçük bir sınırlayıcı faktör değildir ve bu görevi daha zor hale getirir.

Daha uzun vadede düşünürseniz mesela patron bu sistemin de ölçeklenebilir olması gerektiğini söyledi.Günümüzde 10 TB veriye sahibim. 5 yıl sonra PB düzeyinde veriye sahip olacağım.Herkes için daha fazla veriye sahip olacağım. Daha iyisini yap. Bu bir sorun gibi görünmüyor. Daha fazla veri daha iyi bir modelle sonuçlanmalıdır, ancak algoritmalar için daha fazla veri, daha uzun çalışma süresi anlamına gelir ve verileri işlemek için daha fazla zaman gerekir. Örnekleme için verileri okursanız, İstemediğiniz daha fazla hata alırsınız ve bu hataları kontrol etmeniz gerekir. Öyleyse aslında, böyle bir sistemi inşa etmek için yönergelere sahip değiliz. İnsanların sürekli deneme ve tahmin çalışmalarına gerçekten güveniyoruz. Sistem beklendiği gibi çalışmazsa, daha fazla bilgisayar satın alacaklar. Sonunda, çok fazla para harcamanın hala olduğunu fark ederler. Etkisi yok, şirket iflas etti. Daha da kötüsü, sistemi bugün tasarladılar ve çok para harcadılar, ancak sonunda nadiren düzgün çalıştı.Yeni veriler geldi, ancak sistem genişletilemedi.

Bu, birçok sektör ve şirket için ölümcüldür. Arama veya e-ticaret için büyük bir sorun değilse, sistem kilitlenirse, en fazla kötü arama sonuçları alırsınız. Bu çok da kötü değil. Kimse yaralanmadı. Ancak, kişiselleştirilmiş tıp alanında büyük bir veri sistemi uygulamak gibi başka bir sektöre geçtiğinizde, kötü tahmin sonuçları alabilirsiniz, sistem yavaşlar ve ölüm olabilir! Ulaşım, finans ve diğer alanlarda uygulandığında birçok kişiye zarar verebilir. Bence bu sorunlar gerçekten oluyor.Birçok büyük veri sisteminin kötü tahminlerde bulunduğunu düşünüyorum.İnsanlar gereksiz ilaç kullanıyor ve gereksiz operasyonlar geçiriyor, bu da gereksiz sorunlara yol açıyor.

Ve bence bu durum, biz veriler hakkında düşünmemizi sağlayan bilimsel bir mühendislik ilkeleri seti geliştirene kadar aslında daha da kötüye gidecek. Kullanmaktan hoşlandığım bir benzetme, yüksek binalar ve köprüler inşa etmek ... Bu uygulamalar insan toplumunu binlerce yıldır daha gelişmiş ve gelişmiş hale getirdi, ancak yüksek bir bina çöktüğünde veya bir köprü kazayı kırdığında, insanların hayatını da alacaktır.

İnşaat mühendisliği denen son konu ortaya çıktı. Açık bir rüzgar kuvveti, verilen toprak vb. Göz önüne alındığında, bir binanın yüksekliği verilen bir binanın nasıl inşa edileceğini inceleyin. Ancak büyük veri alanında buna benzer bir şeyimiz yok. Bilgisayar bilimimiz, istatistiklerimiz, makine öğrenimimiz var, birçok yeni fikrimiz var, zekiyiz ve her şeyi yapabiliriz. Ancak bir sistem tasarladığımızda, hata oranını ve zamanını bilmiyoruz, büyük ölçekli bir durumda daha iyi kararlar alıp alamayacağımızı bilmiyoruz ve bunun zamanla daha da kötüye gideceğini bilmiyoruz. Ve aslında böyle bir sistemi kurarken, başka pek çok sorun da vardır.Örneğin, mahremiyete büyük önem veren insanlardan birçok veri gelir.Size tıbbi verileri vermek istemezler, özellikle de kimseye ifşa etmenizi istemezler. Yani verileri alıp analiz edemezsiniz.Veri toplama konusunu düşünmelisiniz.Ayrıca yönetim riskleri, bant genişliği sınırlamaları vb. De vardır.

İstatistiksel çıkarımın kalitesini etkileyeceği ve hatayı artıracağı için tüm bu konular dikkate alınmalıdır.Bu, çalışanlar için çok yaygın bir endüstri gereksinimidir, ancak akademide en azından bu çözümleri sağlayabilecek böyle bir alan yoktur. Benim için öyle. Bence önümüzdeki yüzyılın zorluğu bu, mevcut fikirlerimizi alıp doğrudan uygulamak değil, bilim olarak düşünmek ve uygulamaktır. Dolayısıyla, bu konudaki çok yararlı bir ifade, sayısal düşünme ile çıkarımsal düşüncenin birleşimidir.

Bilişimsel düşünme, veritabanlarının nasıl programlanacağını ve kullanılacağını bilmek değil, bir tür düşünme anlamına gelir. Bir problemin soyutlaması, modülerliği, performansı hakkında düşünme hakkında ... sadece programlama değil, bilgisayar sınıfında öğrendiğiniz her şey. Bilgisayar altyapısı olan kişiler bunlara çok aşina olmalıdır. Tanıdık olmayan düşünce sonucu çıkarılabilir. Bu, iki yüz yıldan daha uzun bir geçmişi olan istatistikte bir şey Yeni bir alan değil, tıpkı bir veritabanı çalışanı gibi, verileri aldığınızda işlemlere başlamıyor.

Öncelikle verilerin nereden geldiğini, verilerin arkasında ne olduğunu ve veri toplama sürecindeki sorunların neler olduğunu düşünmeliyiz Bu bir çıkarımdır ve kesinlikle bir bilgisayar bilimleri araştırma kategorisi değildir. Nihai sonuç sözde bir algoritma olsa bile, bunun arkasındaki istatistiksel örnekleme ve popülasyonu da düşünmelisiniz. Yani aslında, makine öğrenimi terimini pek sevmiyorum, bence yeni bir şey yok, istatistiksel düşünceden başka bir şey yok. Ancak bilgisayar bilimcileri istatistiksel çıkarım hakkında fazla bir şey bilmedikleri için makine öğrenimi adı verilen yeni bir isim aldılar.

Çoğu makine öğrenimi çalışması, çıkarımı, örneklemeyi ve bütünlüğü dikkate almaz. Yalnızca makine öğrenimi modellerini verilere uygular, ancak önyargı, nedensel çıkarımı vb. Dikkate almadığı için doğru yanıtı alamaz. Bence ikisini birleştirmek ve dikkatlice çalışmak gerçek zorluk. Eskiden algoritmalara ve sistemlere daha çok dikkat ederdim.Geçtiğimiz birkaç yılda, giderek daha çok bir kuramcı haline geldim, giderek bazı yönlerden teori ve sistemlere daha fazla önem verdim. Laboratuvarda sistemi tasarlama sürecinde teorik problemler gördüm, bu yüzden bilgisayar ve istatistik teorisini ve kavramlarını nasıl birleştireceğimi bulmaya gittim. Bu yüzden disiplinler arası veri bilimi konusunu geliştirdik ki bu kolay değil. İstatistiksel karar teorisinde kayıp fonksiyonları ve riskler vardır, ancak temel teorisinde çalışma süresi kavramı yoktur.On yıllardır istatistiksel kararla ilgili binlerce makaleyi kontrol edebilirsiniz ve herhangi bir söz görmeyeceksiniz. Aynı şekilde, bilgisayar tarafında, karmaşıklık ve çeşitli karmaşıklık teorilerini tartışan binlerce makale bulabilirsiniz, ancak istatistiksel riskle ilgili makaleler bulamazsınız. İstatistiksel risk teorisi, verilere dayalı olarak hata oranını kontrol edebilir. Ek olarak, istatistiksel tahmin konularının derinlemesine anlaşılması, yalnızca algoritmaları öğrenmeyi değil, aynı zamanda alt sınırları öğrenmeyi, en iyi ne yapabileceğinizi öğrenmeyi de içerir, ancak bilgisayar teorisinde alt sınırlar hakkında fazla bir şey yoktur. Evet var, ama çok değil.

Bir sonraki konuşma bugün ana temama girecek ve "teori" hakkında bazı sorulardan bahsedecek. İstatistiksel "çıkarım" kavramındaki "hesaplama" sınırlamaları ve bir veri analizi yığını oluşturmayla ilgili bazı sorular. Neredeyse AMP laboratuvarının yaptığı şey bu ve takipteki bazı gelişmeler RISE laboratuvarı olarak adlandırılıyor.

Spark'ın yerini alacak bir sistem kurduk. Aslında bunu kamuoyuna ilk kez duyurduğumu söylemek istiyorum. Spark'ın yerini alacak proje devam ediyor. Bu değişim Ocak ayında tamamlanacak ve bugün duyurdum.

Şimdi bir dizi sorudan bahsedelim.Özel veri analizi vakası kullanıyorum. Bu özel verilerin sizinle ilgili olup olmadığı önemli olmayabilir, ancak taşınması gereken bazı sorunları ortaya çıkarırlar. İnsanlar genellikle verilere sahiptir ve çalışmasını isterler, ancak aynı zamanda kendi verilerinin de korunmasını isterler, örneğin verilerini kim bilebilir. Önümüzdeki birkaç yıllık tıbbi veriler için çoğunuzun genom dizinizi alabileceğinizi ve şimdi onu elde etmenin 500 dolara mal olduğunu hayal edin. Belki beş veya on yıl içinde, doktorunuza gittiğinizde, doktorunuz size kanınızın veya tükürüğünüzün bir kısmını fincanda bırakmanızı söyleyebilir, böylece genlerinizi alabileyim. 3 milyar çift geninizin tümünü alacak ve bunları veri tabanında depolayacak, verilerle ne yapacaklar?

Gelecekte yaşayabileceğiniz tüm hastalıkları tahmin etmek için biyotıp ve biyoinformatikte de kullanılmaya çalışılacaktır. Gelecekte, belirli bir gen aracılığıyla karşılık gelen ilacı bulmaya çalışacaklar ve genin bazı yönlerindeki kusuru karşılık gelen tedaviye bağlayacaklar. Bu iyi bir fırsat, ancak aynı zamanda birçok sorunu, özellikle de gizlilik sorunlarını da beraberinde getiriyor.

Biyomedikal araştırmacısı olsaydım, Profesör Wang'a yaklaştım ve genlerinizi alabilir miyim? Bu genlere sahip olduğunuzu biliyorum. Bana sorardı: Öncelikle genetik verilerimi ne için kullanmak istiyorsunuz? Genetik verilerimi nasıl koruyacaksınız?

Bu verilerin ailesinin genetik hastalıklarını incelemek ve çözmek için kullanıldığını söylersem çok mutlu olacak ve bana genlerini verecek. Sigorta oranını hesaplamak ve belirlemek için kullanıldığını söylersem, iyi bir şey olduğunu da düşünecektir. Veriler aracılığıyla kendini korumayı umuyor. Bazı verileri atabilir ve yalnızca bir kısmını araştırma için kullanabilirim.

Bu verileri size Baidu aracılığıyla reklam göstermek için kullandığımı söylersem, verilerini kullanmamı beğenmediğini söyleyerek reddedebilir. Bu nedenle herkes kendi verilerini kontrol edebilmek istiyor ve verilere dahil olan gizlilik derecesini kontrol etmek için anahtar değeri parametresi gibi bir şey olmasını umuyor. Belirli konulara ve hangi garantilerin mevcut olduğuna göre kararlar alın. Dolayısıyla, mahremiyeti göz önünde bulundurmak için, bu tür şeyler veri yığınının yapısının bir parçası olacaktır ve bu kolay değildir.

Aşağıda bazı resimlerle açıklayacağım. Çoğunuzun büyük veri üzerinde çalıştığını biliyorum, bu yüzden aşağıdaki içeriğe devam etmek için büyük veri düşüncesini kullanalım. Veritabanının artık banka verilerini içerdiğini varsayarsak, bazı kişilerin yaşı, boyu, kilosu, adresi ve mevduatlarında ne kadar var bende var Bu çok tipik banka verileri.

Bir "sorgu" şöyle olabilir: En çok para yatıran kim? Veya ortalama depozito nedir? Bir cevap alacağım, tilde ve tilde diyorum. Veritabanındaki kişisel gizlilik sorunlarını göz önünde bulundurursanız, şunları düşünebilirsiniz: insanların gizliliğini korumak için veritabanına nasıl gürültü eklenir, böylece başkaları veritabanındaki orijinal verileri kavrayamaz veya emanetçinin bilgilerini alamaz.

Böylece, özelleştirilmiş bir veritabanı elde etmek için bir kanala veya rastgele bir işlem faktörü Q'ya koyarsınız. Bu veri tabanında aynı soruyu "sorduğunuzda", teori ile kanıtlanabilecek bir güç işareti (^) ile teta adında yeni bir yanıt alacaksınız.

Güç işaretli (^) teta, tilde ile teta'ya çok yakındır.Q üzerinde sonucun hesaplanma olasılığı, tüm "sorular" ve veritabanları gibi çok yüksektir, bu nedenle bu hesaplama teorisinin birçok farklı versiyonu vardır. En popüler olanlardan biri, yaygın olarak kullanılan farklı gizliliktir. Bu, veri tabanındaki faydalı verileri artıracaktır yani bir problem verilip bir algoritma ile çözülür ve ayrıca teorik bir garanti de vardır.

Bu yöntemin çıkarımsal özellikleri var mı? Bu alanla ilk temasa geçtiğimde, veritabanı araştırması yapan meslektaşıma sordum: "Çerçeveyi oluştururken istatistiksel akıl yürütme kullanıyor musunuz?" Tabii ki öyle diyorlar, çünkü "sorgulama" doğası gereği istatistiksel olabilir, örneğin ortalama değer ve standart sapma hesaplanabilir. Ama yanıtladım: "Bu çıkarımsal istatistikler değil, sadece tanımlayıcı istatistikler."

Çıkarımsal istatistiğin ne anlama geldiğini sordu. İletişim kurmamız gerektiğini söyledim. Burada başka bir örnek veriyorum, tıbbi araştırma alanından bir vaka. Veritabanındaki kişiler hakkında yaşları, boyları, ağırlıkları ve ilaçlı ve ilaçsız yaşam beklentileri dahil bazı bilgilerim var Bu tipik tıbbi verilerdir. Tamam, şimdi, mahremiyetlerini korumak istiyor muyum? Elbette! Bu onların tıbbi verileri! Bu nedenle, yukarıda belirtilen veri gizliliğini korumak için aynı yöntemi benimseyeceğim. Ancak banka veritabanı örneğinde, yalnızca veritabanındaki kişilere odaklanıyorum. Veritabanımdaki insanlar. Mevduatlarının miktarını, gelirlerini ve giderlerini bilmek istiyorum.Sadece bankadaki insanlar hakkında araştırma yapıyorum (soruşturma yapıyorum).

Ancak tıbbi durumlarda veri tabanındaki kişilerle hiç ilgilenmeyebilirim aslında veri tabanındaki kişiler ölmüş ya da gitmiş olabilir ... Bu insanlar umurumda değil. Verileri yalnızca bu verilere dayanarak yeni hastaları değerlendirmek ve tedavi etmek için topluyorum, bu nedenle gelecekte veritabanına dahil edilebilecek ancak henüz dahil edilmemiş hastaların verilerini düşünmem gerekiyor. Bu istatistiksel akıl yürütme düşüncesidir - gelecekte veritabanına dahil edilebilecek ancak henüz mevcut olmayanlar. Onları incelemek istiyorum.

Bu düşünce bilgisayar biliminden değil, istatistiksel akıl yürütme düşüncesinden gelir. Yani ben bir doktor olsaydım ve bir hasta ofisime gelseydi, ona yaşına, boyuna ve kilosuna göre ilaç verip vermemeye karar verirdim. Ama sadece tahmin edemem, diğer insanlardan elde edilen eski verilere dayanarak analiz etmem ve karar vermem gerekiyor, bu yüzden sadece zaten veritabanında bulunan insanlarla ilgilenmiyorum.

İstatistikçilerin düşüncesi budur: Bir veritabanı örneğinde yer alan kişi sayısı gibi bir veritabanıyla karşılaştıklarında "sorular" hakkında düşünürler. İnsan sayısı konusunda çok net olmalılar, sadece bir sayı söylememeli ve rastgele, doğrusal veya hiyerarşik olabilen örnekleme modelleri haline gelmeliler ... Bu, düşünmeleri gereken bir soru.

Bunu yapmazsanız, bir algoritma elde edemezsiniz. Bir veritabanına sahip olamazsınız ve sadece hangi algoritmayı ve verileri nasıl işleyeceğinizi kullanmak istiyorsunuz, bu istatistiksel akıl yürütme düşüncesi değildir. Verilerin nasıl düzenlendiğini düşünmelisiniz ve sonra algoritmayı düşündükten sonra elde edebilirsiniz, böylece istatistikçi kişi sayısını (P) soracak ve gelecekte veritabanına dahil olabilecek ancak henüz dahil edilmemiş olanlara soracaktır. Hastanın verileri daha sonra cevaplanacak, biz ona teta diyoruz. İstatistikçi, genel teta ve örnek teta'nın tüm örneklerde (S), tüm sorgularda (sorgu) ve tüm olası dağılımlarda yakın olma olasılığının yüksek olduğunu kanıtladı. Bu, istatistiklerin yaptığı, son 30 yıldır veya daha uzun süredir yaptığımız şeydir.

Yeni sorun, çıkarım ve hesaplamayı birleştiren iki kavramın birleştirilmesinde yatmaktadır. Bir sürü veri topladığımızı varsayalım ve veri tabanındaki kişilerin mahremiyetini korumak, yani verileri toplarken onlara bir garanti vermek istiyorum. Ama aynı zamanda, çıkarımlar yapmak için verileri kullanacak olan uygulama insanları grubunu da düşünmem gerekiyor.Toplam teta'nın örnek teta'ya çok yakın olduğunu ve S ve Q gibi bir dizi açıdan tesadüf olasılığının yüksek olduğunu kanıtlamam gerekiyor. Bu, bu yeni meydan okumadır. Ve bu sadece gizlilik alanında bir mesele değildir. Bu zorluk, (veri) sıkıştırma gibi birçok alanda mevcuttur. Çalışmak isteyebilirsiniz: Sıkıştırılmış bir veritabanı geliştirmek için bir grup veriyi Q kanalına sıkıştırırsanız, çünkü Çok fazla veriye sahibim Veriler sıkıştırıldıktan sonra bile, yine de genel veriler hakkında güvenilir tahminler yapmak istiyorum.

Öğrencilerimden biri, Yuchen Zhang bugün oradaydı, bu araştırmayı yaptı ve "Veri Spekülasyonu ve Sıkıştırma" üzerine çok iyi makaleler yazdı. California Üniversitesi, Berkeley, bu gizlilik sorunu hakkında birçok araştırma yapmıştır. Bugün bundan kısaca bahsedeceğim. Bu tipik bir gizlilik sorunu kılavuz haritasıdır. İşte gizlilik verileri. Bir kanaldan geçtikten sonra, bu istatistikçilere ifşa etmeye hazır olduğunuz Z değeridir. Bunu belirli bir tahmin fonksiyonunu hesaplamak için kullanırlar. Matematiksel yön sadece bir tanesidir. Kaydır, burada ayrıntılara girmeyeceğim, bu yüzden kısıtlayıcı bir optimizasyon problemi yarattık. Bu problem bir eyer noktası hissi ve daha da az.

Bu sadece izleyicideki uzmanları göstermek içindir.Kırmızı alandan başlayarak, kaybın beklenen değerinin sınırına istatistiklerde maksimum risk, mavi bölüm ise minimum maksimum risk olarak adlandırılan tahmin fonksiyonunun alt sınırıdır. Daha sonra tüm kanalların en üstünü ekledik.Alfa olarak adlandırılan bu koruma sınırında, gizlilik derecesine alfa düzeyinde farklı gizlilik denir. Bunu ekledikten sonra, artık belli bir uzay, belirli bir karmaşıklık ve belirli bir matematiksel karakteristiğe sahip büyük bir optimizasyon problemimiz var.Bu problemi çözmek için matematiksel bir hesaplama yaptık ve sonunda birçok cevap aldık, ancak çok basit bir sonuç hesapladık , Gizlilik olmadan istatistiksel bir oran var.

N veri noktalarının sayısını gözlemleyin ve ardından n'yi n çarpı alfa karesinin alfa ile bölünmesi, verilerin boyutluluğu olan diferansiyel gizlilik parametresidir, böylece yeni bir formül elde edilir. Bu yeni formül, orijinal formülün küçük bir dönüşümü ile elde edilebilir. Şu anda, gizlilik ve istatistikleri gerçekten birleştiriyoruz. Bunlar gerçekten tek formüldedir. Bu formül bazı istatistiksel değişkenler içerir: veri noktalarının sayısı, boyutsal parametreler ve diferansiyel gizlilik parametresi olan bir hesaplama değişkeni alfa. Birkaç makalemiz var. Bu tür bir problemle ilgileniyorsanız İlgileniyorsanız kontrol edebilirsiniz.

Yukarıdakiler, mahremiyet meseleleri ile birlikte varsayım oluşturmanın sadece bir örneğidir Daha zor olan problem, varsayım ve hesaplamayı daha geniş şeylerle birleştirmede yatmaktadır.

Hesaplama her şeydir, değil mi? Turing bize bunun her şeye kadir olduğunu ve makine öğreniminin sadece bir bilgi işlem örneği olduğunu söylüyor. Şöyle diyebiliriz: Belli bir süre içinde ve belli bir hafıza limiti, belirli bir tahmin fonksiyonu ve makine öğrenimi algoritması altında belirli bir doğruluk ve belirli problemlere ulaşabilirim, bunların hepsi bilgisayar bilimcilerin yaptığı. Zaman ve uzay hakkında konuşmak gibi, yaptığım şey, bilgisayar ve istatistiği birleştiren bir teori bulmak için hata ve veri risk ve miktarının istatistiksel analizini eklemek. Ama bunun imkansız olduğunu söylemek istiyorum, şu anda bu yeteneğe sahip değiliz ve Turing Karmaşıklığının ilerlemediğini düşünüyorum ve açıkçası bu bir gelişme trendi değil. Optimizasyon alanındaki iletişim karmaşıklığı faydalı olabilir ve bunlardan biri nihai çözüm olabilir. Bu alanın yeni fikirlere ihtiyacı var, yeni bir bilgisayar konseptine ihtiyacımız var. Turingin hesaplama konsepti çok genel, her şey öyle, ancak her şeyi tek bir makinede yapmamıza gerek yok, özellikle operatörlerimizin çoğu için, tarih biraz değiştirilirse çok fazla değişmeyecekler, Çok iyi stabilite veya Lipschitz özelliği (Lipschitz). Lipschitz özellikleriyle ilgili bazı hesaplama teorileri düşünebiliriz Bu teoriler çok fazla değişmeyecek Turing Karmaşıklığı bu özelliğe sahip değildir Küçük bir değişiklik cevabı tamamen değiştirebilir. Bilgisayar alanında bunun için endişeleniyorsunuz, ancak istatistik alanımızda bu kadar endişelenmenize gerek yok!

Bu yüzden belki daha kısıtlayıcı bir "hesaplama" versiyonu geliştirebiliriz, yani istatistiksel "spekülasyon" için daha uygun. Bu ppt, bu sorunla ilgili yaklaşık 10 yıllık bir araştırmayı göstermektedir, hiçbiri çözüm değildir, ancak hepsi hesaplama ve istatistikleri çeşitli şekillerde birleştirme girişimleridir. En eski yollardan biri hesaplama ve geometriyi, sonra geometri ve istatistikleri ve son olarak kombinasyondan spekülasyona birleştirmekti. Bunlar, dışbükey gevşeme ile hesaplama ve geometri arasındaki çalışma süresi arasındaki mevcut ilişkilerdir.Bunlarla ilgili araştırmalar var, bu nedenle bir dizi paralel teori geliştirdik. Geometri ve istatistikleri birleştirin: Basitçe söylemek gerekirse, bir problemi "gevşettiğinizde" çalışma süresi kısalır. Bu bilinir ve sonra problemi daha fazla "gevşettiğinizde" kanıtladık, İstatistiksel risk daha da artar, bu nedenle çalışma süresi ve istatistiksel risk derecesi negatif olarak ilişkilidir. Veritabanı personelinin aşina olduğu bir kavram olan eşzamanlılık kontrolünü de inceledik. Bunu istatistiksel risk ve zaman arasındaki ödünleşimi kontrol etmek için kullanıyorlar. Optimizasyon oranı da dahil olmak üzere Oracle'ın minimum aralığını optimize etme konusunda çok araştırma yaptık ve Pek çok heyecan verici sonuç elde edildi. Alt örnekleme konusunda da çok araştırmamız var. Daha küçük bir veri kümesi alıp onları etkilemeye çalışıyorsunuz ve sonra onları büyük bir veri kümesine yerleştiriyorsunuz.

Bu, bilgisayarlarda böl ve yönet olarak adlandırılan doğal bir kavramdır ve gerçekten zor istatistiklere yol açabilir. Örneğin, güven aralığı, veri miktarını daha büyük bir faktörle azaltırsam, güven aralığı genişleyecektir. Az miktarda veri kullanırsam, yanlış cevap alırım, ölçeği yeniden ayarladığımda bir şekilde hatayı düzeltmem gerekir.Bunu nasıl yapacağımı anlamak kolay değil.

Yukarıdakiler dersin ilk üçte ikisidir, bunlar teori ile ilgilidir. Şimdi sistemden bahsedelim, bu nispeten kısa olacak. Daha önce, veri analizi ve geliştirme sistemleriyle uğraşan bir laboratuvarın yardımcı araştırmacısıydım. İstatistik ve makine öğrenimi fikirlerini birleştirmeye çalışın. Bazı sonuçlar elde ettik, ancak hala ara aşamadayız.AMPLab adlı bu deneysel proje yaklaşık bir ay önce sona erdi. RISE Lab adında yeni bir laboratuvar hazırlıyoruz.Ion Stoica yeni laboratuvarın başı ve ben de şefim. Araştırmacılardan biri.

Yeni laboratuvarı kısaca tanıtacağım. Her şeyden önce, bu laboratuvarın ana sponsoru şirketler. Üniversitemiz bize çok az destek verdi ve temelde hiç destek vermedi. Eyalet hükümeti de, esasen Kaliforniya'daki mali kriz nedeniyle herhangi bir destek sağlamadı. Böylelikle firmalarla iletişime geçip destek aramaya başladık, kaynak yaratmamız çok başarılı oldu, bu firmalar bize bu laboratuvarı işletmemiz için büyük destek verdiler, bu projeyi 5 yıldır işletmemizin nedeni budur. Sponsor firmalarda birkaç Çinli firmanın olduğunu hatırlıyorum.Huawei'nin bir noktada dahil olduğunu hatırlıyorum, bu filmdeki şirketler biz bu filmi yaptığımızda zaten dahil olmuştu. İlk fikir, makine öğreniminde iyi olduğum algoritmanın yanı sıra makine ve bulut bilişim ve meslektaşlarımın iyi olduğu diğer alanları insan verileri ve kitle kaynak kullanımı hakkında birlikte düşünmek için birleştirmekti. Bu bizim temel fikrimiz.

Dağıtık hesaplama yazılımlarının büyümesine katkı sağlayanlardan biriyiz Şimdi bu yöndeki ekosistem büyük ölçüde genişledi ve laboratuvarımızda geliştirilen Spark bu ekosistemin önemli bir parçası. Spark'ın doğumunun gerçek nedeni, grubumdaki makine öğrenimi araştırmacılarının Hadoop'tan çok memnun olmaması ve çok şikayet etmeleridir. Daha büyük ölçekli testler için Hadoop'u kullanmalarına izin vererek başladık. Hadoop'u kullandıktan sonra, araştırmacılar Hadoop'un makine öğrenimi için çok uygun olmadığını düşündüler çünkü çoğu makine öğrenimi (algoritmalar) yineleme, veri girişi, küçük bir veri parçası işleme ve parametreler oluşturma Küçük bir değişiklik yapın, verileri yeniden işleyin ve ardından küçük bir değişiklik yapın Bu işlemin tekrarlanması gerekiyor.

Hadoop için, verilerin sık sık diskten çıkarılması ve ardından geri depolanması gerekir.Her adım, tekrarlanan eşleştirme ve basitleştirme ve ardından verileri okumak için diske geri dönmeyi gerektirir. Bu süreç çok yavaştı. Bir öğrenci araştırma sistemi olan Matei tartışmamızı duydu ve ara sonuçların çoğunu diske yazmak yerine önbelleğe alan yeni bir sistem geliştirmemize yardımcı oldu ve Spark doğdu. Bu, AMPLab yığınının Spark ekosisteminden biridir (Ek Açıklama: Berkeley Veri Analizi Yığını). En altta depolama katmanı ve kaynak sanallaştırma katmanı var, ancak esas olarak üst katmanı inceliyoruz. Spark Streaming, veri akışı işlemeyi, hata hesaplama ve örnekleme işlemlerini ve çeşitli dilleri ve görüntü işlemeyi destekler.

Splash, bugün de burada bulunan ve makine öğrenimiyle ilgili diğer araçları da geliştiren You Chan tarafından geliştirilen paralel bir hesaplama çerçevesidir. Yaklaşık bir yıl önceki bu ekosistemin durumu olan model sunucusu Velox'u da kısaca tanıtacağım ve geçen yıl gelişmeye devam etti ve sonuç çok başarılı oldu. Bunun bir nedeni, bunun akademi tarafından geliştirilmiş olmasıdır. Birçok şirket veri analizi yazılım yığınları yayınladı. IBM, Google ve Microsoft bunları piyasaya sürdü. Temelde, hiçbiri herkesin ilgisini çekmedi. Hiç kimse araçlarını kullanmıyor. Bu yazılım ( Spark) kurumsal araçlardan çok daha yaygın olarak kullanılmaktadır ve Spark'ın geliştirilmesi yalnızca birkaç akademisyen gerektirir, çünkü diğer (bağımsız) araştırmacılar akademik dünyaya güvenirler.

Akademik dünya ansızın yazılım için ödeme yapmasına izin vermeyecek, yazılımı istediği zaman değiştirmeyecek, yazılım için bir iş modeli oluşturmayacak ve araştırmacılar orta kısım olacak, bu nedenle akademik personel kesinlikle büyük şirketlerle rekabet edebilecek. Her türlü kaynağa erişiminiz var Kimse gerçekten büyük şirketlere güvenmiyor, ancak size güvenecekler!

Sonra, bu yineleme problemini kısaca açıklamama izin verin. Birkaç dakika içinde bitireceğim. Az önce tanıttığım şey bu resmin üzerindedir. Bu klasik haritalama / basitleştirme ilkesidir.Umarım hepiniz MapReduce'un veri gireceğini, paralel olarak bir eşleme adımı gerçekleştireceğini, çok iş parçacıklı ve çoklu sunucuda hesaplamalar gerçekleştireceğini ve ardından bir basitleştirme adımı gerçekleştireceğini ve ardından bunu tekrarlayacağını biliyorsunuzdur. Bu yaklaşım maliyetlidir, bu nedenle Spark'ın ilkesi, her aşamanın çıktısını bir önbellek oluşturmak için saklamaktır, böylece her zaman diske kaydedilmesine gerek kalmaz.

Bu fikir kulağa kolay geliyor, ancak ölçeklendirilebilen bir sistem yapmak birçok kişinin çok çalışmasını gerektirir, peki Spark'tan sonraki büyük hamleler nelerdir?

Son birkaç ayda, araştırma sistemindeki öğrenciler tarafından tamamlanmamış yeni bir proje üzerinde çalışıyoruz. Öğrencilerimden ikisi esas olarak bu projeden sorumlu, daha sonra sistemi de inceleyebilirler, Philipp Moritz ve Robert Nishihara, ayrıca meslektaşım Ion Stoica ile işbirliği yapıyorlar. Ion, sistemler alanında uzman bir sistemdir.Bu sisteme Ray adını verdik. Beta sürümü Ocak ayında duyurulacak ve umarım herkes kullanmaya başlayabilir. Bu projeyi neden yapmak istediğimizi kısaca açıklayın - bu projeyle ilgileniyoruz çünkü temelde makine öğreniminde bir araştırmacıyız Makine öğrenimindeki birçok problem veriden çok daha fazlasıdır ve bunların çoğu araştırma, optimizasyon ve doğrusal cebir ile ilgilidir. Spark bu açılardan özellikle doğrusal cebirde çok verimsizdir MPS diğer sistemlerden çok daha hızlı çalışır ancak kimse onu kullanmayı sevmez, üzerinde programlaması çok zordur ve genel paralel donanım için uygun değildir. Çözmeyi umduğumuz sorunlar bunlar. Aynı kodu tek bir makinede ve bir küme üzerinde çalıştırabilmeyi umuyoruz. Bu önemli hususlardan biridir.

Benzer şekilde, kodu dağıtık olarak değiştirmek istemiyoruz.Sistemin çok sayıda küçük görevi destekleyebileceğini umuyoruz, bu da farklı görevler arasında daha fazla veri paylaşımı anlamına gelir. Bu nedenle artık soldaki klasik haritalama / sadeleştirme modelini kullanmıyoruz.Bu daha çok bir veri akışı modeline benziyor.Gerekli tüm bilgileri aldıklarında görev yürütülebilir.Spark PythonPythonstep sizestep size

array.remote

PythonSpark

10

Microsoft, Google ve IBM'den çok farklı olan yeni bir kuantum bilgisayarın oluşturulduğunu duyurdu
önceki
"Sapık baharatlı" ördek boynu "Double 11" e yardım etmek için Zhou Hei Ya iphoneXS Max kazanmak için
Sonraki
Konfederasyon Kupası'nın finali: Almanya'nın büyük galibi! Şampiyonayı ilk kez kazandı ve Altın Küre + Altın Çizme'yi kazandı
Hırsızlık vakaları her zaman "günü yakalar". Tekrarlanan suçlular değerli eşyaları alır ve kümes hayvanlarıyla birlikte yürümeyi unutmayın
Makine öğrenimi seyahati daha iyi hale getiriyor - Didi veri madenciliği mühendisi Zeng Yan ile bir röportaj
Konfederasyon Kupası Finali-Almanya 1-0 Lecto Şili ilk şampiyonluğu kazandı, Stindel topu kazandı
JD.com "Robot Restoran" "İnsansız" Alanlar İçin Çalışmak İçin Açıldı
Tsinghua Büyük Veri Endüstrisi Federasyonu'nun üçüncü konseyi başarıyla gerçekleştirildi
O Çin futbolunun bir numaralı kötü adamı! Sinek kepçesine defalarca bastı ve yabancı yardımın köprüsünü beş parçaya attı
Siçuan'daki 95 ilçe (kentsel bölgeler), il düzeyinde finansal medya merkezlerinin inşası ve geliştirilmesini tartışmak için Zigong'da toplandı
Biyomedikal büyük verinin "hastalık öncüleri" - "hastalıksız" ın nicel tanısı
Emekli üniversite öğretmeni Tian Ronggui Kişisel Sergi
Wu Lei, en iyi iki kadro için daha seçildi! Messi'yi 3-1 önde götüren iki büyük forvetle ortaklık
Deloitte, "High-tech High-growth 500" yayınladı
To Top