Makine öğrenimi istatistik değildir! Bu makale nihayet gerçek farkı açıklığa kavuşturuyor

Xin Zhiyuan Rehberi İstatistikler ve makine öğrenimi arasındaki gerçek fark. İstatistikler ve makine öğrenimi çoğu durumda karıştırılır ve çoğu insan ikisini çok iyi ayırt edemez. Bu bağlamda, bu makale ikisi arasındaki gerçek farklılıkları ayrıntılı olarak açıklıyor ki bu çok öğretici.

Pek çok kişi istatistikleri ve makine öğrenimini birbirinden iyi ayırt edemez çünkü aralarında gerçekten çok fazla benzerlik vardır. Popüler bir söz, makine öğrenimi ile istatistik arasındaki temel farkın amaçlarında yattığıdır: makine öğrenimi modelleri mümkün olan en doğru tahminleri yapmak için tasarlanmıştır; istatistiksel modeller değişkenler arasındaki ilişkileri çıkarmak için tasarlanmıştır.

Bu ifade teknik olarak sorun değil, ancak özellikle net veya tatmin edici bir cevap vermiyor. Söyle Makine öğrenimi, doğru tahminlerle ilgilidir, istatistiksel modeller ise muhakeme için tasarlanmıştır Bu kavramlarda yetkin değilseniz, neredeyse anlamsız ifadeler.

Çünkü istatistik ve istatistiksel modeller aynı değil. İstatistik, verilerin matematiksel çalışmasıdır ve istatistikler, veriler olmadan gerçekleştirilemez; istatistiksel modeller, verilerdeki ilişkileri çıkarmak veya gelecekteki değerleri tahmin edebilen modeller oluşturmak için kullanılan veri modelleridir. Genellikle ikisi birbirini tamamlar.

Aslında iki şeyi tartışmamız gerekiyor: Birincisi, istatistiklerin makine öğreniminden farkı nedir? İkinci olarak, istatistiksel modelin makine öğreniminden farkı nedir? Öyleyse bugün, ikisi arasındaki farkı ayrıntılı olarak yorumlayalım.

Doğrusal regresyonda istatistiksel model ve makine öğrenimi arasındaki fark

Belki de istatistiksel modelleme ve makine öğreniminde kullanılan yöntemlerin benzerliğinden dolayı, insanlar aynı şey olduğunu düşünüyor. Anlaşılabilir, ama hiç de değil.

En bariz örnek, bu yanlış anlamanın ana nedeni olabilecek doğrusal regresyondur. Doğrusal regresyon istatistiksel bir yöntemdir.Doğrusal regresyonu eğitiriz ve veri noktaları arasındaki kare hatasını en aza indirmeyi amaçlayarak istatistiksel regresyon modelleriyle aynı sonuçları elde ederiz.

Bir durumda, verilerin bir alt kümesini kullanmayı içeren modelin "eğitimini" yaptık. Eğitim sırasında var olmayan test seti adı verilen diğer verileri "test edene" kadar modelin nasıl çalışacağını bilmiyoruz. Bu durumda, makine öğreniminin amacı test setinde en iyi performansı elde etmektir.

İstatistiksel modeller için, eğitim veya test yapmadan, yalnızca tüm verileri en aza indirebilecek ortalama kare hatasını bulmamız gerekir (verilerin doğrusal bir regresyon ve ayrıca doğası gereği genellikle Gauss olan bazı rastgele gürültü olduğunu varsayarak).

Genel olarak konuşursak, özellikle araştırmada (aşağıdaki sensör örneği gibi), modelin amacı, gelecekteki verileri tahmin etmek değil, veriler ile sonuç değişkeni arasındaki ilişkiyi karakterize etmektir. Bu sürece tahmin değil istatistiksel çıkarım diyoruz. Ama yine de bu modeli tahminler yapmak için kullanabiliriz, ancak modeli değerlendirmenin yolu test setini değil, model parametrelerinin önemini ve sağlamlığını değerlendirmeyi içerir.

Makine öğreniminin (denetimli) amacı, tekrarlanabilir tahminler yapabilen modeller elde etmektir. Genellikle modelin yorumlanabilir olup olmadığı umurumuzda değil, makine öğrenimi yalnızca sonuçlara değer veriyor. İstatistiksel modelleme daha çok değişkenler arasındaki ilişkiyi ve bu ilişkilerin önemini keşfetmekle ilgilidir ve aynı zamanda tahmin için de uygundur.

Bu iki prosedür arasındaki farkı göstermek için bir örnek verin. Bir çevre bilimcisi çoğunlukla sensör verilerini inceler. Sensörün bir uyarana (gaz konsantrasyonu gibi) yanıt verebileceğini kanıtlamaya çalışırsanız, sinyal yanıtının istatistiksel olarak anlamlı olup olmadığını belirlemek için istatistiksel bir model kullanılır.

Bu ilişkiyi anlamaya ve tekrarlanabilirliğini test etmeye çalışacak, böylece sensör tepkisini doğru bir şekilde karakterize edebilecek ve verilere dayanarak çıkarımlar yapabilecektir. Test edilebilecek bazı şeyler, aslında yanıt doğrusal mıdır? Yanıt, sensördeki rastgele gürültü yerine gaz konsantrasyonuna atfedilebilir mi? ve daha fazlası.

Aynı zamanda, yeni karakterize edilmiş sensörlerin tepkisini tahmin etmeye çalışmak için kullanılabilecek 20 farklı sensör dizisi elde edebiliriz. Sensör sonuçlarını öngören 20 farklı değişkenli bir modelin çok fazla yorumlanabilirliğe sahip olduğunu düşünmüyoruz. Kimyasal kinetik ile fiziksel değişkenler ve gaz konsantrasyonu arasındaki ilişkinin neden olduğu doğrusal olmama nedeniyle, bu model sinir ağlarından daha ezoterik olabilir. Umarım bu model mantıklıdır, ancak doğru tahminler yapabildiğim sürece harika olacak.

Veri değişkenleri arasındaki ilişkinin belirli bir istatistiksel öneme ulaştığını kanıtlamaya çalışırsanız, makaleyi yayınlarken makine öğrenimi yerine istatistiksel modeller kullanmalısınız. Bunun nedeni, tahminlerde bulunmaktan çok değişkenler arasındaki ilişkiye önem vermemizdir. Tahminlerde bulunmak hâlâ önemlidir, ancak çoğu makine öğrenimi algoritmasının yorumlanabilirlik eksikliği, verilerdeki ilişkiyi kanıtlamayı zorlaştırır (bu aslında akademik araştırmada büyük bir sorundur ve araştırmacılar anlamadıkları algoritmaları kullanır ve yanıltıcı çıkarımlar elde eder ).

Kullanılan yöntemler benzer olsa da, iki yöntemin hedefleri farklıdır. Makine öğrenimi algoritmalarının değerlendirilmesi, doğruluklarını doğrulamak için test setlerini kullanır. İstatistiksel modeller, modelin geçerliliğini değerlendirmek üzere regresyon parametrelerini analiz etmek için güven aralıklarını, anlamlılık testlerini ve diğer testleri kullanabilir. Bu yöntemler aynı sonuçları verdiğinden, neden aynı olduklarını düşündüklerini anlamak kolaydır.

Doğrusal regresyonda istatistikler ve makine öğrenimi arasındaki fark

10 yıldır var olan bir yanlış anlama var: Her ikisinin de aynı temel olasılık kavramını kullandığı gerçeğine dayanarak iki terimi birbirine karıştırmak mantıksız.

Bazıları, bu gerçeğe dayanarak makine öğrenimi yapmanın sadece istatistikleri yücelten bir ifade olduğunu söylüyor. Ayrıca şu ifadeyi de yapabiliriz:

  • Fizik sadece matematiği güzelleştirir
  • Zooloji pul koleksiyonunu güzelleştirir
  • Bina sadece kumdan kale binasını güzelleştiriyor

Bu ifadeler (özellikle üçüncüsü) çok saçma ve hepsi benzer fikirlere dayanan bu kafa karıştırıcı terimler fikrine dayanmaktadır (mimari örnekler için kelime oyunları).

Aslında fizik, gerçekte var olan fiziksel olayları anlamak için matematiğin uygulaması olan matematiğe dayanır. Fizik aynı zamanda istatistiğin tüm yönlerini içerir.Modern istatistiğin biçimi genellikle Zermelo-Frankel küme teorisi ile ölçüm teorisini olasılık uzayları oluşturmak için birleştiren bir çerçeve tarafından oluşturulur. Hepsinin pek çok ortak noktası var çünkü hepsi benzer kökenlerden geliyor ve mantıklı sonuçlara ulaşmak için benzer fikirleri uyguluyorlar. Benzer şekilde, mimari ve kumdan kale mimarisinin pek çok ortak noktası var, ancak bu ikisi açıkça aynı konsept değil.

Makine öğrenimi ve istatistiklerle ilgili düzeltmemiz gereken iki yaygın yanlış anlama vardır: Biri veri bilimi ile istatistiği karıştırmak, diğeri ise makine öğrenimi ile yapay zekayı karıştırmaktır. Bunlar, yapay zeka ile makine öğrenimi ile veri bilimi ve istatistik arasındaki farklardır. Bunlar oldukça tartışmasız konulardır, bu yüzden hızlı olacaktır.

Veri Bilimi ve İstatistik

Veri bilimi, temelde verilere uygulanan hesaplama ve istatistiksel yöntemlerdir. Bu yöntemler, küçük veya büyük veri kümeleri veya keşif amaçlı veri analizi olabilir. Veriler, bilim insanlarının verileri daha iyi anlamalarına ve ondan çıkarımlar yapmalarına yardımcı olmak için kontrol edilir ve görselleştirilir. Veri bilimi ayrıca veri çekişmesi ve ön işleme gibi içerikleri de içerir, bu nedenle kodlama, veritabanları, web sunucuları vb. Arasında bağlantı ve kanal oluşturma gibi bir dereceye kadar bilgisayar bilimini de içerir. İstatistik yapmak için bilgisayar kullanmanız gerekmez, ancak bilgisayarlar olmadan gerçekten veri bilimi yapamazsınız. Bu nedenle, veri bilimi istatistiksel verileri kullanır, ancak ikisi açıkça farklıdır.

Yapay zeka ve makine öğrenimi

Makine öğrenimi, yapay zekadan farklıdır. Aslında, makine öğrenimi yapay zekanın bir alt kümesidir, çünkü biz bir makineyi önceki verilere dayanarak belirli veri türleri üzerinde genelleştirilebilir çıkarımlar yapmak için "eğitiyoruz".

Makine öğrenimi istatistiklere dayanır

İstatistikler ve makine öğrenimi arasındaki farkları tartışmadan önce, önce benzerlikleri tartışalım. Bunu önceki bölümlerde tartıştık.

Makine öğrenimi, istatistiksel bir çerçeve üzerine inşa edilmiştir. Bu açık olmalıdır, çünkü makine öğrenimi verileri içerir ve verileri açıklamak için istatistiksel çerçeveler kullanılmalıdır. Bununla birlikte, istatistiksel mekanik aynı zamanda çok sayıda parçacığın termodinamiğine de uzanır ve ayrıca istatistiksel bir çerçeveye dayanır. Basınç kavramı aslında bir istatistiktir ve sıcaklık da bir istatistiktir. Bunun saçma olduğunu düşünüyorsan, ama aslında öyle. Bu yüzden saçma olan molekülün sıcaklığını veya basıncını tarif edemezsiniz. Sıcaklık, moleküler çarpışmaların ürettiği ortalama enerjinin bir tezahürüdür. Yeterince çok sayıda molekül için, sıcaklığı bir ev veya dış mekan gibi tanımlayabiliriz.

Termodinamik ve istatistiğin aynı olduğunu kabul eder misiniz? Hayır, termodinamik, ulaşım fenomeni biçiminde iş ve ısının etkileşimini anlamamıza yardımcı olmak için istatistikleri kullanır.

Aslında termodinamik istatistikten çok maddeye dayanır. Benzer şekilde, makine öğrenimi matematiğin ve bilgisayar biliminin diğer birçok alanını kullanır, örneğin:

  • Makine öğrenimi teorisi matematik ve istatistik gibi alanlardan gelir
  • Makine öğrenimi algoritmaları optimizasyon, matris cebiri, hesaplama ve diğer alanlardan gelir
  • Makine öğrenimi uygulaması, bilgisayar bilimi ve mühendislik kavramlarından (çekirdek becerileri, özellik karması gibi) gelir

Python'da kodlamaya başladığınızda, sklearn kitaplığını ortadan kaldırıp bu algoritmaları kullanmaya başladığınızda, bu kavramların çoğu soyutlanır, bu nedenle bu farklılıkları görmek zordur.

İstatistiksel öğrenme teorisi: makine öğreniminin istatistiksel temeli

İstatistikler ile makine öğrenimi arasındaki temel fark, istatistiklerin yalnızca olasılık alanlarına dayalı olmasıdır. Küme teorisinden tüm istatistiksel verileri türeterek, sayıları kümeler adı verilen kategoriler halinde nasıl birleştirdiğimizi ve ardından bu kümeye, olasılık uzayları adını verdiğimiz toplamın 1 olmasını sağlamak için bir metrik empoze ettiğimizi tartışır.

Bu kümeler ve ölçütler kavramları dışında, istatistikler evren hakkında başka herhangi bir varsayımda bulunmaz. Bu nedenle olasılık uzaylarını çok katı matematiksel terimlerle belirlediğimizde 3 şey belirtiyoruz.

Olasılık uzayı, bunu şu şekilde temsil ederiz, (, F, P) üç bölümden oluşur:

  • Olası tüm sonuçların kümesi olan örnek alan
  • Her olayın sıfır veya daha fazla sonuçtan oluşan bir koleksiyon olduğu bir dizi olay F
  • P olasılığını olaya atayın; yani, olaydan olasılığa fonksiyon

Makine öğrenimi, istatistiksel öğrenme teorisine dayanır. Halen bu aksiyom olasılık uzayı kavramına dayanmaktadır. Bu teori 1960'larda geliştirildi ve geleneksel istatistiklere kadar genişletildi.

Birkaç tür makine öğrenimi vardır. Burada esas olarak denetimli öğrenmeden bahsediyoruz çünkü açıklaması en kolay olanıdır.

Denetimli öğrenmenin istatistiksel öğrenme teorisine göre, bir veri seti, onu S = {(x, y)} olarak temsil ediyoruz. Bu, n veri noktasına sahip bir veri kümesidir, her veri noktası, bir fonksiyon dediğimiz başka bir değerle tanımlanır, bu değerler x tarafından sağlanır ve bu özellikler, y değerini vermek için bir fonksiyon tarafından eşlenir.

Bu verilere zaten sahip olduğumuzu varsayarsak, amacımız x değerlerini y değerlerine eşleyen bir işlev bulmaktır. Bu eşlemeyi tanımlayabilen tüm olası işlevler kümesine hipotez uzayı denir.

Bu işlevi bulmak için, algoritmanın sorunu çözmenin en iyi yolunu bulması için bazı yöntemleri "öğrenmesine" izin vermeliyiz Bu işlem, kayıp işlevi tarafından gerçekleştirilir. Bu nedenle, sahip olduğumuz her hipotez (önerilen işlev) için, tüm veriler için beklenen risk değerine bakarak işlevin performansını değerlendirmemiz gerekir.

Beklenen risk, temelde kayıp fonksiyonunun toplamı ile verilerin olasılık dağılımının toplamıdır. Haritalamanın birleşik olasılık dağılımını bilirsek, optimum işlevi bulmak kolaydır. Bununla birlikte, bu genellikle bilinmemektedir, bu nedenle en iyi seçimimiz tahmin etmek ve sonra deneysel olarak kayıp fonksiyonunun daha iyi olup olmadığını belirlemektir. Biz buna deneyim riski diyoruz.

Ardından, farklı işlevleri karşılaştırabilir ve beklenen en küçük riski veren hipotezi arayabiliriz, yani hipotez verilerdeki tüm hipotezlerin minimum değerini verir (alt sınır olarak adlandırılır).

Bununla birlikte, bu algoritmanın hile yapma eğilimi vardır ve verilere fazla uyarak kayıp işlevini en aza indirebilir. Bu nedenle, eğitim seti verilerine dayalı bir işlevi öğrendikten sonra, işlevin test veri setinde doğrulanması gerekir ve doğrulama verileri eğitim setinde görünmez.

Açıktır ki, bu istatistiksel olarak önemli bir nokta değildir, çünkü istatistiklerin ampirik riski en aza indirmesi gerekmez. Ampirik riski en aza indiren işlevi seçen öğrenme algoritmasına ampirik risk minimizasyonu denir.

Örneğin

Örnek olarak basit doğrusal regresyon durumunu ele alalım. Geleneksel anlamda, verileri tanımlamak için kullanılabilecek bir işlev bulmak için belirli veriler arasındaki hatayı en aza indirmeye çalışırız. Bu durumda, genellikle ortalama kare hatası kullanılır. Olumlu ve olumsuz hataların birbirini iptal etmemesi için ayarlıyoruz. Daha sonra regresyon katsayılarını kapalı bir biçimde çözebiliriz.

Kayıp fonksiyonu, istatistiksel öğrenme teorisi tarafından desteklenen ampirik risk minimizasyonunu gerçekleştirmek için ortalama kare hatası olarak kullanılırsa, nihai sonuç geleneksel doğrusal regresyon analizi ile aynıdır.

Bunun nedeni, iki durumun eşdeğer olmasıdır, tıpkı aynı veriler üzerinde gerçekleştirilen maksimum olasılık tahmininin aynı sonucu alması gibi. Maksimum olasılık aynı hedefe farklı şekillerde ulaşabilir, ancak hiç kimse maksimum olasılığın doğrusal regresyonla aynı olduğunu söylemez, değil mi?

Unutulmaması gereken bir diğer nokta da, geleneksel istatistiksel yöntemlerde eğitim ve test setleri kavramı olmamasıdır. Bunun yerine, modelin nasıl performans gösterdiğini kontrol etmek için metrikleri kullanın. Değerlendirme prosedürleri farklı olsa da, her iki yöntem de istatistiksel olarak sağlam sonuçlar verebilir.

Dahası, geleneksel istatistiksel yöntemler optimal bir çözüm sağlar çünkü çözüm kapalı bir forma sahiptir, başka hipotezleri test etmez ve çözüme yaklaşır. Makine öğrenimi yöntemi, bir dizi farklı modeli denemek ve son hipoteze yaklaşmaktır.

Farklı bir kayıp işlevi kullanırsak, sonuç yakınsamaz. Örneğin, menteşe kaybını kullanırsak (türevlenemez olmak için standart gradyan inişini kullanırsak, problemi çözmek için yakın uç gradyan inişi gibi diğer tekniklere ihtiyaç vardır), o zaman sonuçlar aynı olmayacaktır.

Elbette, son karşılaştırma, bu varsayımların önceki kayıp fonksiyonumuz için daha uygun olup olmadığını görmek için doğrusal modelleri, polinom modellerini, üstel modelleri vb. Test etmek için makine öğrenimi algoritmalarının gerekli kılınması gibi modelin sapması dikkate alınarak yapılabilir.

Bu, ilgili hipotez alanını genişletmeye benzer. Geleneksel istatistiksel anlamda, bir model seçerek doğruluğunu değerlendirebiliriz, ancak 100 farklı model arasından en iyi modeli otomatik olarak seçemeyiz. Çünkü modelde her zaman ilk algoritma seçiminden bazı sapmalar vardır. Bu gereklidir, çünkü veri seti için optimal keyfi fonksiyonu bulmak NP zordur.

sonuç olarak

İstatistikler olmadan, makine öğrenimi olmazdı, ancak makine öğrenimi bugün çok yararlı çünkü insanlar bilgi patlamasından bu yana çok fazla veri üretti.

"Makine öğrenimi mi yoksa istatistiksel modeller mi seçmelisiniz?" Sorusu büyük ölçüde amaca bağlıdır. Sadece konut fiyatlarını yüksek doğrulukla tahmin edebilen bir algoritma oluşturmak veya birisine belirli hastalık türlerinin bulaşıp bulaşmadığını belirlemek için verileri kullanmak istiyorsanız, makine öğrenimi daha iyi bir yöntem olabilir; değişkenler arasındaki ilişkiyi kanıtlamaya çalışırsanız Veya verilerden çıkarsama, istatistiksel modeller daha iyi bir yöntem olabilir.

Ayrıca, güçlü bir istatistiksel arka planınız olmasa bile, makine öğreniminde ustalaşabilir ve bunu pratik problemlere uygulayabilirsiniz. Ancak, modelin gereğinden fazla uyum sağlamasını ve yanıltıcı çıkarımlar yapmasını önlemek için temel istatistiksel düşünme hâlâ gereklidir.

Makine öğrenimi ve istatistikleri hakkında size daha net bir anlayış sağlamak için önerilen birkaç iyi kurs:

9.520 / 6.860: İstatistiksel Öğrenme Teorisi ve Uygulamaları Bu kurs, makine öğrenimini bir istatistikçinin bakış açısından açıklar ECE 543: İstatistiksel Öğrenme Teorisi

Referans bağlantısı:

https://towardsdatascience.com/the-actual-difference-between-statistics-and-machine-learning-64b49f07ea3

Bayern Inter oyuncuları Dünya Kupası finallerinde tekrar buluşuyor, Inter Milan'ın kahramanları şahsen 36 yıllık hukuka devam ediyor
önceki
Ünlüler Hırvatistan'ın finale ilk katılımını takdir ediyor, kadın muhabirler izleyip ağlıyor, Zhan Jun Mutlu Futbolu övüyor
Sonraki
Yeni yıl: 12 dilek ve 12 şiir hangisisin?
Hyundai Festa: Geleneksel bir Kore arabası, 280TGDi spor versiyonunu seçmeniz önerilir.
Ren Zhengfei ABD medyasına tekrar konuştu: 5G bir atom bombası değil, Trump yönetimine Huawei'yi tanıttığı için teşekkürler
En güvenilir 10 model, 7 üniteli Toyota modelleridir ve Amerikan ve Avrupa modellerinin hiçbiri kısa listeye alınmamıştır.
İngiliz "Yeni Beckham" harika bir dolunay pala sundu, Pickford tutkuyla kutladı
Bu paket servisi polisin gözlerini yaşarttı!
Ağır! Google Daniel Ian Goodfellow, özel projelerden sorumlu Apple'a katıldı
Chery eQ'nun bazı öznel değerlendirmeleri: Bu aşamada nitelikli, saf elektrikli bir scooter mı?
Formayı yakın + Messi'ye bağırın! Ronaldo Real Madrid'i yeni terk etti ve bazı aşırı hayranlar kahramanlarına böyle davrandı
Çin Bilim ve Teknoloji Yatırım Teşvikinin "Öncü": İkincil piyasada daha fazla işaret olmayacak!
Kamkat çaldıktan sonra adam 2 metre yüksekliğindeki meyve ağacını eve çekmeye devam etti!
Hibrit çağı yaklaşıyor Herkesin endişesi turbo mu yoksa kendinden emişli mi?
To Top