g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

200.000, 500.000 ve 1 milyon algoritma mühendisi arasındaki fark nedir?

Yazar: Kuzey Ming deniz alıyor

Bilgi işlem reklamlarından yeniden yazdırıldı

MS yedinci yüzyılda, Chechiguo Ulusal Meteoroloji İdaresi tarafından düzenlenen yağmur arama faaliyetinde, üç büyük ölümsüz Huli, Luli ve Yangli başarılı bir şekilde yağmur için dua ettiler ve Li halkını sudan ve ateşten kurtardılar. Eski kral yerini bilmese de, onlara ulusal öğretmenler olarak saygı duydu ve Taoizm'i standardı olarak izledi.

Bu yüzyılda, algoritma mühendislerinin durumu benzerdir: İlk yıllarda, kaba ve şiddetli doktrine inanan kodamanlar, gün boyu bıktıklarını, yapacak hiçbir şeyleri olmadığını ve işleri olmadığını, oyun oynamak için veri körlüğüne güvenerek okulda doktor olarak çalışmak zorunda olduklarını hissettiler. Bununla birlikte, AlphaGo geçen yıl Li Shishi'yi bozduğunda, kodamanlar kalplerinin derinliklerinden "Beni sikeyim" diye bağırdılar, paniklediler ve her türlü hırsızlık ve yiyecek dağıtım işini yapay zekaya dönüştürdüler ve algoritmaları anlayan birkaç ülkeyi davet ettiler. Öğretmen kutsaması. Ulusal öğretmenlerin yaptıklarının istihbarat bölümünü anlamasalar da, içtenlikle yağmur yağacağını umuyorlar.

Sonuç olarak, algoritma mühendislerinin değeri yükseldi. Geçmişte java, php veya excel uygulamış olup olmadıklarına bakılmaksızın, çeşitli okulların mühendisleri en iyi dil hakkındaki tartışmayı terk ettiler, derin öğrenmeyi kopyaladılar ve tekrar algoritma mühendisleri olmaya söz verdiler. Birkaç gün önce birisi bana Zhihu'da sordu: 200.000, 500.000 ve 1 milyon algoritma mühendisi arasındaki fark nedir?

Bakır kokusuyla dolu böyle bir sorun beni çok memnun ediyor. Pekin'de 200.000 için güvenilir algoritma mühendisleri işe almak neredeyse imkansız olsa da, yukarıdaki sayıları referans olarak kullanalım ve algoritma mühendislerinin üç seviyesinden bahsedelim. (Burada bahsedilen algoritma Bilgisayar Bilimleri Bölümü "Algoritmalar ve Veri Yapıları" lisans dersinde yer alan algoritma değildir. Bu derste sıralama ve arama gibi "deterministik algoritma" dan bahsedilmekte ve burada istatistiklerden bahsedilmektedir. Yöntem, verileri modellemek için "olasılıklı bir algoritmadır".) Aşağıda bazı algoritmalar ve modellerden bahsedilecektir, ancak bunlar sadece kavramı açıklamak için örneklerdir ve onu incelemeye gerek yoktur. Çalışmakla ilgilenen arkadaşlar bilgileri kendi başlarına kontrol edebilirler.

İlk seviye "İşletme": Araçları nasıl kullanacağınızı bilin

Bu seviyedeki mühendisler, yaygın olarak kullanılan modellere aşinadır.Veri geldikten sonra, bir çalışma için uygun olanı seçebilirler.

Bu seviyeye ulaşmak için eşik yüksek değildir. İlk yıllarda, LDA ve SVM'nin ne olduğu konusunda uzmanlaştığınız ve libnear ve mahout gibi birkaç açık kaynak aracı oynadığınız sürece, verileri alabilir ve sonuçları çalıştırabilirsiniz. Derin öğrenme çağında, bu mesele daha da basit görünüyor: Sorun ne olursa olsun, biriktirmek için sadece sinir ağlarını kullanmayın! Son zamanlarda sık sık bazı mühendislerle tanışıyorum Tensorflow demosunu başarıyla tamamladıktan sonra mutlu bir şekilde neşelendiriyorlar: Derin öğrenmeyi öğrendim ve yarın insanlığı yöneteceğim!

Gerçekten bu kadar basit, ben patlıcanım. 18 açık kaynak aracına ne kadar aşina olursanız olun, Ke Jie'yi yenebilecek bir robot bulmak imkansızdır. İşte herkes için bir kap soğuk su: Bu alana giren herkes önce bir " Bedava öğle yemeği teoremi yok "Bu teoremin matematiksel ifadesi çok belirsiz ve biz onu yanlış bir edebi dile çeviriyoruz:

Çok turlu bir yarışmada iki model varsa, her turda farklı bir veri seti kullanılıyorsa ve veri seti önyargılı değilse, o zaman nihai sonuç iki tarafın berabere olmasıdır.

İster sıradan bir model, ister edebi bir model veya bir 2B modeli olun, kimseyi küçümsemeyin. Aşırı bir durumu düşünün: Katılımcı bir model "rastgele tahmin" dir, yani mantıksız bir şekilde yanıt verir Sonuç nedir? Evet, hala berabere! Öyleyse, lütfen "kümeleme için hangi algoritma iyi çalışıyor?" Gibi saçma sorular sormayın.

Bu utanç verici! Çünkü bir sürü modelim var ve koşabiliyorum, aslında işe yaramaz. Tabii ki, gerçek problemlerin veri dağılımı her zaman yüz tanıma gibi belirli özelliklere sahiptir, resmin ortasında büyük bir yuvarlak pasta olmalıdır. Bu nedenle, "yüz tanıma için hangi model iyidir?" Sorusunu sormak mantıklıdır. Bir algoritma mühendisinin gerçek değeri, problemin öncelikli özelliklerine ilişkin içgörü kazanmak ve bunları modelde ifade etmektir.Bu, bir sonraki yetenek seviyesini gerektirir.

Araçların nasıl kullanılacağını bilmek, algoritma mühendisleri arasında sadece bir giriş seviyesidir.Sorunları çözmek için bu iki fırçaya güvenmek, iki tavuğu öldürmek ve karın ameliyatı yapmak istemek gibidir.Güvenilmezlik derecesi oldukça yüksektir. Şiddetli maaş enflasyonunun yaşandığı İnternet endüstrisi olmasaydı, 200.000'in nispeten makul bir fiyat olduğunu düşünüyorum.

İkinci seviye "Optimizasyon": Modeli dönüştürebilir

Bu seviyedeki mühendisler, modeli belirli bir problemin veri özelliklerine göre değiştirebilir ve en iyi sonuçları elde etmek için uygun optimizasyon algoritmasını kullanabilir.

Önceki modellerin modelleri ne kadar harika olursa olsun, hepsi o sırada gözlemlenen verilerin a priori özelliklerine göre tasarlandı. Örneğin, LDA, daha sağlam bir konu elde etmek için külliyatın kalitesi yüksek olmadığında PLSA temelinde Bayes tahminini tanıtmaktır. LDA kullanmak büyük bir hata olmasa da, belirli problemleriniz üzerinde en iyi sonuçları çalıştırmak ve verilerin özelliklerine göre modelde hassas değişiklikler yapmak kaçınılmazdır.

İnternet verisi olgusu daha da belirgindir çünkü iki şirkette benzer veriler yoktur. Baidu'nun tıklama oranı modeli milyarlarca özelliğe, büyük ölçekli özelleştirilmiş bir bilgi işlem kümesine ve benzersiz bir derin sinir ağı yapısına sahiptir. Kopyalayabilir misiniz? Kopyalamak işe yaramaz. Değişikliklere ayak uydurmak için ders kitabındaki modeli kullanarak, sonuç ancak bir kılıç olabilir.

Modeli dönüştürme yeteneği, okuryazarlığın iki yönünü gerektiren birkaç açık kaynak aracı kullanmak kadar basit değildir:

Bir, daha derin anlamak Makine öğreniminin ilkeleri ve bileşenleri. Makine öğrenimi alanında, daha az doğrudan yararlı görünen birçok temel ilke ve bileşen vardır. Örneğin, düzenleme nasıl yapılır? Hangi temel dağıtımı ne zaman seçmeliyim? (Aşağıdaki tablo) Bayes öncesi nasıl ayarlanır? İki olasılık dağılımı arasındaki mesafe nasıl hesaplanır? Kıdemli ustaların bu malzemeleri LDA ve CNN gibi bitmiş yemeklere dönüştürmek için birlikte pişirdiğini gördüğünüzde, malzemeleri bilip bilmediğinizi ve kendi başınıza pişirirseniz bunları seçip eşleştirip seçmeyeceğinizi de düşünmelisiniz. Sadece birkaç yemek yiyin ve tadı ne olduğunu söyleyin, ki bu iyi bir aşçıdan uzaktır.

2. Optimizasyon yöntemlerinde yeterlilik. Makine öğrenimi uygulayıcıları, yalnızca rutinleri oynayabilen bir dövüş sanatçısına eşdeğer olan optimizasyonu anlamıyor. Bu Lei Gong Tai Chi ve Usta Yan Fang ile aynıdır.Gerçek dövüşte mavi burnu ve yüzü şişmiş olmalıdır. Güçlü bir model tasarlamış olmanıza rağmen, sınırlı bilgi işlem kaynakları altında en uygun çözümü bulamıyorsanız, o zaman bu sadece bir vazodur.

Optimizasyon, makine öğreniminin en, en ve en önemli temelidir. Amaç işlevinin ve türevlerinin çeşitli durumlarında optimizasyon yöntemini nasıl seçeceğinizi; çeşitli yöntemlerin zaman ve alan karmaşıklığını ve yakınsamasını ve dışbükey optimizasyonun veya diğerlerinin kullanımını kolaylaştırmak için amaç işlevinin nasıl oluşturulacağını bilmeniz gerekir. Çözülecek çerçeve. Bu yönlerdeki eğitim, makine öğrenimi modelinden daha sağlamdır.

Örneğin, herkesin "aynı şekilde değiştiğini" düşündüğü derin öğrenmeyi ele alalım. Konuşma tanımayı, doğal dil işlemeyi ve zaman serisi verilerinin modellenmesini işlemek için sinir ağlarını kullanmak, RNN (yukarıya bakın) doğal bir seçimdir. Bununla birlikte, pratikte herkes, RNN'nin "gradyan kaybolması" olgusunun varlığından dolayı uzun menzilli bağlam bağımlılığını modellemesinin zor olduğunu buldu. Doğal dilde, örneğin, aşağıdaki fiilin "eşittir" mi yoksa "var mı" olduğunu belirlemek için, belirleyici konuyu bulmak için birçok kelimeyi ileriye doğru çevirmek mümkündür. Nasıl yapılır? Dahi J. Schmidhuber, verilerin hangi bilgilerin saklanıp hangilerinin unutulacağına karar vermesine olanak tanıyan kapı yapısına sahip bir LSTM modeli tasarladı (aşağıdaki şekle bakın). Bu şekilde, doğal dilin modelleme etkisi büyük ölçüde geliştirildi. İlk olarak aşağıdaki iki RNN ve LSTM yapısının karşılaştırmasına bir göz atalım. Havadan çıkan birkaç ekstra kapı yapısıyla karşı karşıya kaldığınızda, bir kayıp yaşayabilirsiniz. Yalnızca makine öğrenimi ve optimizasyonunda kapsamlı bir metodolojiye ve sağlam bir temele sahip olduğunuzda kademeli olarak anlayabilir ve Bu fikri öğrenin.

Tabii ki, LSTM modeli bir dahidir ve bunun için sabırsızlanıyorum. Bununla birlikte, bu örnekte gösterilen temel yetenek: modeli problemin özelliklerine göre ayarlamak ve optimizasyon engellerini çözmek, nitelikli bir algoritma mühendisinin izlemesi gereken beceridir. Yıllık maaşı 500.000 olan böyle bir insan bulmaya değer.

Üçüncü seviye "Amaç": Problemi tanımla

Bu seviyedeki bir mühendis (oh, bir mühendis çağırmak uygun değil gibi görünüyor), ona yeni bir pratik problem fırlatır ve ona ölçülü bir amaç işlevi verebilir.

O zamanlar Ford, motoru elden geçirmesi için birini tuttu.Steinmenz motor kabuğuna bir çizgi çekti ve personelden arızayı hızla gidermek için motoru burada açmasını istedi. Ödeme sırasında Steinmenz 10.000 $ istedi ve bir liste yaptı: bir çizgi çizin, 1 $; çizgiyi nereye çekeceğinizi bilin, 9999 $.

Aynı şekilde algoritmalar alanında da en zor şey, çizginin nereye çekileceğini bilmektir.Bu, yeni bir problem için objektif bir fonksiyon oluşturma sürecidir. Açık bir nicel amaç fonksiyonuna sahip olmak, bilimsel yöntemi metafizik yöntem ve teolojik yöntemden ayıran önemli bir işarettir.

Amaç işlevi bazen analitik bir biçimde yazılabilir ve bazen yazılamaz. Örneğin, web araması problemi için iki amaç işlevi vardır: biri, etiketli veri kümesi üzerinde açıkça hesaplanabilen bir gösterge olan nDCG; diğeri ise, manuel olarak yapılamayacak şekilde kötü durumların oranıdır. Formüle göre hesaplanır, ancak sonuç aynı zamanda niceldir ve aynı zamanda objektif bir fonksiyon olarak da kullanılabilir.

Amaç işlevini tanımlamak ilk başta o kadar zor gelmiyor, sadece bir KPI geliştirmek değil mi? Aslında, aksi takdirde, bunu iyi yapmak için, bilinç ve teknolojide yüksek bir eşik vardır.

1. "Her şeyin daha aşağı olduğu, sadece hedefin yüksek olduğu" bilincini yerleştirmek gerekir. İster ekip ister proje olsun, doğru ve ölçülebilir bir hedef belirlendiği sürece, bu hedefe ulaşmak yalnızca bir zaman ve maliyet meselesidir. NDCG'nin arama için doğru amaç işlevi olduğunu varsayarsak, Microsoft veya Yahoo! Er ya da geç Google'ı yakalayabilecektir. Ne yazık ki, nDCG'nin amacı biraz sorunludur, bu nedenle bu iki şirket daha da uzaklaşmıştır.

Sözde "vakıf ve Tao'ya dayalı olma": Bir projenin başlangıcında, her zaman önce iki şey yapmalısınız: biri açıkça tanımlanmış ve niceliklendirilmiş bir amaç işlevi tartışmak; diğeri ise hedef işlevin çevrimiçi A / B testini gerçekleştirebilecek deneysel bir çerçeve oluşturmaktır. Ne tür verilerin toplanacağı ve hangi modelin kullanılacağı ikinci sırada.

2. Doğru (sadık), çözülebilir (ulaşılabilir) ve zarif (zarif) nesnel bir işlev oluşturabilir. Amaç işlevi, gerçek iş hedeflerini olabildiğince yansıtmalıdır ve aynı zamanda uygulanabilir optimizasyon yöntemleri vardır. Genel olarak, optimizasyon hedefleri ve değerlendirme hedefleri farklıdır. Örneğin, konuşma tanımada değerlendirme hedefi "kelime hata oranı" dır, ancak bu doğrudan değildir, bu nedenle doğrudan optimize edilemez; bu nedenle, çözmek için olasılık veya son olasılık gibi bir "aracı hedefi" bulmamız da gerekir. Model parametreleri. Değerlendirme hedefinin tanımı genellikle sezgiseldir, ancak onu son derece alakalı ve çözmesi kolay bir optimizasyon hedefine dönüştürmek önemli ölçüde deneyim ve beceri gerektirir. Konuşma modellemede, olasılık değerinin hesaplanması bile Baum-Welch gibi daha karmaşık algoritmalar gerektirir ve net bir şekilde tanımlamak basit bir mesele değildir.

Zarafet daha yüksek düzeyde bir gerekliliktir; ancak, büyük sorunlarla karşılaşıldığında, zarafet genellikle tek yoldur. Çünkü çoğu zaman sadece güzel çerçeveler sorunun özüne daha yakındır. Bu bağlamda, son yılların en ilham verici şaheseri olan Generative Adversarial Networks (GAN) 'dan bahsetmeliyiz.

GAN'ın çözmek istediği şey, makinenin verilere dayalı makaleler çizmeyi ve yazmayı öğrenmesine izin vermektir. Makine çiziminin amaç işlevi nasıl belirlenir? Kafası karışmış görünüyor. İlk yıllarda benzer konuşma sentezi problemleri yaptığımızda, iyi bir yol yoktu, oy verecek birini bulmalıydık. Şaşırtıcı olan, Ian GoodFellow'un bu sorunu tanımlarken aşağıdaki resmin ustaca çerçevesini benimsemiş olmasıdır:

Böyle bir hedef felsefi bir soru kadar zariftir, ancak gerçekten takip edilebilir. Bu formülü gördüğümde, makineye resim yapmayı öğretmenin çok da uzak olmadığını hissettim. Bu problem tanımıyla kendinizi rahat ve mutlu hissediyorsanız, bunun neden en zor adım olduğunu anlayabilirsiniz.

Bir ekibin zirvesi, açık kaynaklı araçları kullanmasa bile sorunları nesnel işlevlere dönüştürebilen kişidir. Böyle bir insanı bulmak 1 milyon gerçekten büyük bir mesele.

Makine öğrenimi alanında, algoritma mühendisleri için ilerleme yolu açıktır: Araçlarda ustalaştığınızda, modeli dönüştürebilir ve ardından yeni problemlerin modellemesini kontrol edebilirseniz, en iyi yeteneklere dönüşebilirsiniz. Bu yoldan istikrarlı bir şekilde geçmek, 1 milyon sorun değil. ne? 3 milyon daha var demiştin? Göz alıcı olmanıza gerek yok, insanlar sadece iş atlamak için kod yazarak zamanınızı harcıyorlar.