Makine öğrenimi ve istatistik arasındaki tartışma mantıklı mı?

(Leifeng.com tarafından üretilmiştir)

İstatistikler ve makine öğrenimi arasında net bir ayrım olup olmadığı her zaman akademik tartışmanın odak noktası olmuştur.

Bazı akademisyenler, makine öğreniminin istatistik konusunda sadece göz alıcı bir görünüm olduğuna inanıyor. Diğer tartışmalar, lojistik regresyon veya genelleştirilmiş doğrusal modellerin (GLM) kullanılmasını içeren şeyin makine öğrenimi olarak adlandırılabileceğini savunuyor; aksi takdirde öyle değildir.

Meta-analiz yapıp yapmamanın iki alanı ayırt etmek için bir kriter olabileceğine dair bazı görüşler de vardır.

Ama ikisi arasındaki sınır hakkında tartışmak gerçekten mantıklı mı? Bu konuyu ciddiye alırsak belki cevabın hayır olduğunu görebiliriz.

Massachusetts Teknoloji Enstitüsü'nden Dr. Sam Finlayson, "makine öğrenimi ve istatistik arasındaki geçmiş tartışmaların büyük ölçüde bu noktayı ıskaladığını çünkü bu tartışmalar ya tarihsel arka planı görmezden geliyor ya da" regresyon yöntemi "belirsiz." Bu nedenle, bu argüman doğrudur. Hiç bir anlamı yok.

1. Geçmişi göz ardı edin: "makine öğrenimi" terimi istatistikleri ayırt etmemek için doğdu

Dartmouth Konferansı sırasında grup fotoğrafı Araştırmacılar binlerce yıldır "akıllı" cihazlar yapmayı hayal ettiler, ancak "yapay zeka" terimi 1956'ya kadar görünmedi. John McCarthy bu terimi o sırada Dartmouth Konferansı'nda önerdi ve yapay zekayı şu şekilde tanımladı: akıllı makineler yapma bilimi ve mühendisliği.

O zamandan beri, yapay zeka terimi bu güne kadar kullanıldı ve popüler oldu.

McCarthy, katılımcıları bu terimi konferansta kullanmaya ikna edebildi çünkü tanımın kendisi çok belirsiz.

O dönemde, "zekaya" adanmış bilim adamlarının araştırma perspektifleri henüz "veriye dayalı" değil, otomata teorisine, biçimsel mantığa ve sibernetiğe odaklanmıştı.

Başka bir deyişle, McCarthy belirli bir yönteme yönelmek yerine, tüm bu paradigmaları barındıracak bir terim yaratmak istedi.

Bu durumda Arthur Samuel (Dartmouth Konferansı'nın katılımcılarından biri) 1959'da "makine öğrenimi" terimini önerdi ve açık programlamayı içermeyen bir araştırma alanı olarak tanımladı Bilgisayarların öğrenebileceği araştırma alanı.

Bu tanımın nedeni, Samuels ve meslektaşlarının, bilgisayarların tanıma yeteneklerine sahip olmasına izin vererek ve bu yeteneği zaman içinde sürekli geliştirerek bilgisayarları daha "akıllı" hale getirmeyi ummalarıdır.

Bugünün bakış açısından, bu araştırma yöntemi tanıdık geliyor, ancak öncülerin onu AI araştırması için baskın paradigma haline getirmesi onlarca yıl aldı.

O zamanki araştırmacıların niyetinden, makine öğrenimi, performansı artırmak için istatistiksel yöntemler kullanan bilgisayarların tasarım sürecini tanımlamak için oluşturuldu. Başka bir deyişle, terimin istatistiklerle değil, veriye dayalı olmayan akıllı makineler inşa etme yöntemleriyle tezat oluşturması amaçlanmıştır.

Sonuçta, istatistikler insanlara etkili bilgi sağlamak için veriye dayalı yöntemleri kullanmaya odaklanır.

Makine öğreniminin yaygın olarak tanınan bir başka tanımı, 1997'de Tom M. Mitchell tarafından yayınlanan bir ders kitabından gelmektedir. Kitapta bahsetti: "Makine öğrenimi alanı, bilgisayar programlarının deneyim yoluyla otomatik olarak nasıl iyileştirileceğini içerir."

Ayrıca kitapta yarı-biçimsel bir tanım vardır: Belirli bir T görevi ve performans ölçümü P için, bir bilgisayar programı E deneyiminden öğrenir ve daha sonra E görevindeki performansı P, E deneyiminin artmasıyla artar.

2. Geri dönüşün "sahibinin" kim olduğu konusundaki tartışma, noktayı kaçırıyor

Pek çok insan şu anda istatistiksel yöntemler ve makine yöntemleri arasında güçlü bir çizgi çekmek için bir ikilemi kullanmaya çalışıyor, ancak bu açıkça bir diktatörlük.

Bazı insanlar, gerilemeye dayalı araştırma yöntemlerinin istatistiksel olarak dışlayıcı olduğu ve hiçbir durumda makine öğrenimi olarak adlandırılamayacağı inancında özellikle ısrarcıdır.

Bu tür bir görüş aslında şu anki "lojistik regresyon eşittir ekonometri" görüşünden daha aptalca ve her ikisi de şiddetli tartışmalara neden oldu.

Makine öğrenimi topluluğu altmış yıldır "daha iyi bilgisayarlar" üzerinde çalışıyor ve bunun fantastik bir yöntem mi yoksa daha iyi olan istatistiksel veri mi olduğunu umursamıyor.

Bu nedenle, çoğu profesör makine öğrenimi derslerini öğretirken genelleştirilmiş doğrusal modelleri ve bunların çeşitlerini öğretmek için çok zaman harcıyor.

Bu nedenle istatistik, makine öğrenimi ve yapay zeka bağlamında çok anlamlıdır Makine öğreniminin terminolojisi farklı yöntemler içerir ve "programları" akıllı hale getirmeye adanmıştır. Açıkçası, herhangi bir dereceden hiçbir istatistikçi "gerçek araştırma geçmişinin dışında kalan istatistiksel yöntemlerin yararlı olduğunu" iddia edemez.

Regresyon yöntemlerinin sahipliği konusundaki anlaşmazlık, aslında hem makine öğrenimini hem de istatistikleri büyük ölçüde küçümsüyor. Sebepler kabaca aşağıdaki dörtte özetlenebilir:

1. Klasik istatistiksel yöntemlerin bilgisayar programlarının oluşturulmasında oynayabileceği temel rolü sınırlar;

2. Makine öğreniminin istatistik üzerindeki etkisini görmezden gelin Aslında, yapay zeka ve bilgisayar bilimi, istatistiklerin yeniden canlanmasını büyük ölçüde destekledi. Örneğin, Judea Pearl'ün nedenselliği yeni bir istatistiksel paradigma açtı;

3. İstatistikler ve makine öğrenimi arasındaki "zorlu" ikilik, kararların modellemesinde önemli bilgileri bir dereceye kadar zayıflatır ve bu sınıflandırma bazen anlamsızdır.

4. Makine öğrenimi ve istatistik alanındaki en üst düzey araştırmacıların çoğu aynı anda bu iki alana aittir.

Aslında, birçok güncel çalışma, istatistikçiler ve makine öğrenimi araştırmacıları arasındaki zengin etkileşimi vurgulamıştır.Örneğin, tanınmış akademisyenler Rob Tibshirani ve Trevor Hastie metodolojinin sınırlarıyla mücadele etmediler, bunun yerine makine öğrenimi araştırmacıları tarafından geliştirilen araçları yardımcı olmak için kullandılar. İstatistik alanındaki araştırmaları geliştirin. Hastie ve Tibs yeni yöntemler icat etmiş değil, ancak bu yöntemler istatistikçilerin ve makine öğrenimi araştırmacılarının günlük çalışmalarını etkilemiştir.

3. Pek çok "tartışma" başlamadan önce başarısız olmaya mahkumdur

Hedeflerdeki farklılık, yöntemlerde ve kültürlerde farklılıklara yol açar, bu nedenle "makine öğrenimi" teriminin anlamı, başlangıcından bu yana çok değişmiştir.

Dildeki kopukluk, başlamadan önce birçok "argümanı" mahkum ediyor.

Yukarıda bahsedildiği gibi, makine öğreniminin araştırma alanı, bilgisayar bilimcileri akıllı bilgisayar sistemlerini yaratmaya ve anlamaya çalıştıkları için yaratıldı, ki bugün hala durum böyle.

Ana makine öğrenimi uygulamaları arasında konuşma tanıma, bilgisayarla görme, robotik / otomatik sistemler, hesaplamalı reklamcılık, gözetleme, sohbet robotları ve daha fazlası bulunur. Bu sorunları çözmeye çalışma sürecinde, makine öğrenimi araştırmacıları temel olarak görece basit genelleştirilmiş doğrusal model (GLM) gibi klasik istatistiksel yöntemleri deneyerek işe başlarlar.

Elbette, yıllar içinde bilgisayar bilimcileri, makine öğrenimi araçlarını giderek daha güçlü hale getirmek için sürekli olarak yeni yöntemler önerdiler.

Diğer herhangi bir bağlamdaki evrim gibi, makine öğreniminde kullanılan istatistiksel yöntemlerin evrimsel tarihi de "doğal seleksiyon" baskısı altında oluşur. İstatistikçilerle karşılaştırıldığında, makine öğrenimi araştırmacıları şunlara daha az dikkat etme eğilimindedir: algoritmanın arkasında gerçekleştirilen tüm belirli eylemleri anlamak. Bu aslında çok önemli ve giderek daha önemli hale geliyor.

Lei Feng Net Haritalama

Genellikle en çok model hatalarıyla ilgilenirler. Sonuç olarak, makine öğrenimi araştırmacıları tarafından geliştirilen yöntemler, daha yüksek esneklik elde etmek için yorumlanabilirlik pahasına bile daha esnek olma eğilimindedir. Bu farklı evrim, makine öğrenimi ile tamamen yöntemlere dayalı istatistiksel araştırma arasındaki sınırı kolayca bulanıklaştırabilir.

Ek olarak, birçok istatistikçi makine öğreniminin tarihini anlamıyor. Dolayısıyla, bu yaklaşım gereksiz olsa bile, makine öğrenimi alanını tanımlamak için başka bir terminoloji kullanmaya istekli olmaları şaşırtıcı değil. Aynı nedenden ötürü, "kullanıma" dayalı katı ayrım çok karmaşık hale geldi.Aslında, günümüzde birçok makine öğrenimi uygulayıcısı, bilgisayar programlarını yönlendirmek yerine salt veri analizi için yalnızca makine öğrenimi yöntemlerini uygularken bile. O zamanlar, yine de makine öğrenimi yaptıklarını iddia ediyorlardı.

Bu ifade, tam anlamıyla tarihsel anlamda doğru olmasa da, bu yaklaşımı suçlamanın gerekli olduğunu düşünmüyorum, çünkü bu, alışkanlık, kültürel arka plan veya "bu ifadenin havalı geldiğini düşünme" birleşimi olabilir. etkiler.

Dolayısıyla gerçekte, insanlar "makine öğrenimi" terimini kullandıklarında, genellikle makine öğreniminin kendisinden çok farklı olan diğer şeylere atıfta bulunurlar. İnsanlar bunu şunları ifade etmek için kullanabilir: "Tasarladığım programlardan öğrenmek için istatistiksel yöntemler kullanıyorum" veya "Otomatikleştirilmiş sistemlere yerleştirilebilecek veri analizi tasarlıyorum."

Veya şu anlama gelir: "İstatistiksel veri analizi için rastgele orman gibi makine öğrenimi topluluğu tarafından orijinal olarak geliştirilen bir yöntemi kullanıyorum." Daha genel olarak, şu kelimeyi kullanırlar: "Ben bir makine öğrenimi araştırmacısıyım ve verileri makine öğrenimi araştırması yapmak için kullanıyorum. Mutlu olduğum her şeyi söyleyebilirim."

Aslında, bu terimin farklı kullanımları şaşırtıcı veya sorunlu değildir, bu nedenle bu yalnızca dilin evriminin sonucudur. Bununla birlikte, başka bir grup insan-veri bilimcisi, "belirli bir projenin yalnızca makine öğrenimi veya istatistik olarak adlandırılıp adlandırılamayacağını, ikisinden birini seçip" tartışmak için bir araya geldiğinde, bu çok komik.

Bana göre, "veri bilimcisi" terimi, başlangıçta makine öğrenimi ve istatistiğin kesişmesiyle oluşturulmuştu. Bu ihtilaf ortaya çıktığında, genellikle herkes farklı, belirsiz bir şekilde tanımlanmış ve net olmayan varsayımlarla tartışmaya katılır ve bu kelimelerin anlamı başlangıçta tartışılır. Ve sonra bu kelimelerin kökenini anlamak ya da diğer kişinin gerçekten ne ifade etmek istediğini dinlemek için neredeyse hiç zaman harcamıyorlar, ancak aralarında belli bir mesafeden bağırıyorlar, ses yüksek ama net değil.

4. Tüm bu "tartışma" neredeyse bir zaman kaybı

Şimdi, bu gerçek sorunları masaya koyarak konuşalım: Günümüzde birçok makine öğrenimi araştırmacısı (veya en azından makine öğrenimi meraklıları) hala istatistik konusunda yetersiz bilgiye sahip. Bazı insanlar gerçekten makine öğrenimi araştırmacılarıdır, ancak bazen kendilerini makine öğrenimi araştırmacısı olarak düşünen birçok profesyonel istatistikçi de vardır.

Daha ciddi gerçek şu ki, makine öğrenimi araştırmasının gelişimi o kadar hızlı gelişti ve şu ana kadar kültürel olarak istatistik alanından kopuk, bence çok seçkin makine öğrenimi araştırmacıları için bile İstatistiklerin belirli bölümlerini "yeniden keşfetmek" veya "yeniden icat etmek" çok yaygındır.

Bu bir problem ve israf! Son olarak, çok sayıda üçüncü taraf uygulama araştırmacısı "makine öğrenimi" terimini çok fazla kullanmayı sevdiği için: Kağıdı daha moda hale getirmek için, gerçekte "makine öğrenimi" dedikleri şey otomatikleştirilmiş bir sistem oluşturmasa bile, bu terimi kağıtta çok kullanıyorlar Makine öğrenimi alanında önerilen yöntemleri de kullanmaz.

(Lei Feng.com) Tüm bu sorunların çözümünün, insanların makine öğrenimine yönelik çoğu veri yönteminin gerçekte istatistikte var olduğunun farkına varmasını sağlamak olduğunu düşünüyorum. Bu yöntemlerin veri analizinde veya akıllı sistemlerin tasarımında kullanılıp kullanılmadığına bakılmaksızın, ilk görevimiz, makine öğrenimi ve istatistik bölümünün doğru mu yanlış mı olduğu konusunda takıntılı olmak yerine, istatistik ilkelerini derinlemesine anlamaktır.

Çok fazla işin makine öğrenimi mi yoksa istatistik mi olduğu konusundaki bitmek bilmeyen tartışma, sonunda yalnızca insanların dikkatini dağıtacak ve "sorunu nasıl doğru bir şekilde eşleştireceklerine ve işi iyi yapmak için belirli araçlara" daha fazla enerji harcamalarını engelleyecektir. Gerekli diyalog ve görüş alışverişi - göreceli olarak, bu daha önemlidir. Aynı zamanda, insanların istatistik ve makine öğrenimi yöntemleri arasında yanlış düşündükleri ikilem, birçok araştırmacının karmaşık yöntemleri kullanmama alışkanlığını daha da geliştirmesine neden olacak, sadece kendilerini "gerçek Makine öğrenme".

Bu aynı zamanda, çalışmalarını metodolojide daha moda kılmak için işlerini vicdansız bir şekilde makine öğrenimi olarak adlandıran insanlara doğrudan yol açacaktır.

İstatistiksel hesaplamanın altın çağı, makine öğrenimi ve istatistik alanını her zamankinden daha yakın olmaya zorluyor. Elbette, makine öğrenimi araştırması bilgisayar bilimi sisteminde doğdu ve çağdaş istatistikçiler, onlarca yıldır bilgisayar bilimi topluluğunda oluşturulan algoritmalara ve yazılım yığınlarına giderek daha fazla güveniyor. Ayrıca, özellikle hesaplamalı biyoloji alanına yansıyan yüksek boyutlu regresyon gibi makine öğrenimi araştırmacıları tarafından önerilen yöntemlerin yararlılığını da giderek daha fazla keşfediyorlar.

Öte yandan, makine öğrenimi topluluğu da yorumlanabilirlik, adalet ve doğrulanabilir sağlamlık gibi konulara giderek daha fazla önem veriyor. Bu aynı zamanda birçok araştırmacının makine öğrenimi çıktı değerlerini daha doğrudan ve geleneksel hale getirmeye öncelik vermesini sağlıyor. İstatistiksel değerler tutarlıdır. En azından, mümkün olan en karmaşık mimariye sahip sistemleri dağıtırken bile, insanlar genellikle makine öğrenimi modellerinin performansını ölçmek ve değerlendirmek için klasik istatistiklerin kullanılması gerektiğinin farkındadır.

5. Özet

Sonuç olarak, makine öğrenimi ve istatistik hakkındaki akademik tartışmalar yanlış, insanlar ilgili terimlerle aşırı yüklenmiş ve metodolojik ikilem doğru değil.Makine öğrenimi araştırmacıları istatistiklere ve istatistiklere giderek daha fazla önem veriyor. Evler ayrıca bilgisayar bilimlerine ve makine öğrenimi topluluklarına giderek daha fazla bağımlı hale geliyor.

Geri dönüş ve birleşme komplo teorileri yok.

Şu anda çok fazla aldatmaca var, ancak değiştirilemeyecek gerçek şu ki, başkaları sizden farklı terimler kullandıklarında, bunun nedeni farklı geçmişlerden gelmeleri ve farklı hedeflere sahip olmalarıdır, sahtekâr veya aptal oldukları için değil.

Bu karşılaştırma fotoğrafı interneti süpürdükten sonra, anne kızının salgının ön saflarına gittiğini biliyordu.
önceki
Guangdong: İlk ve orta dereceli okullar, en az bir ay boyunca çevrimiçi öğretim planları ve ortaokul mezuniyet dereceleri için çevrimiçi öğretim geliştiriyor
Sonraki
Today Paper | El ve nesne rekonstrüksiyonu; 3D insan pozu tahmini; görüntüden görüntüye dönüşüm vb.
Salgın ciddi, neden hala Çin ekonomisine güveniyoruz
"Salgınla" savaşmak için acele | Yaklaşık 200.000 N95 maskesi Wuhan'a ulaştı! Qia Qia, malzemeleri ön cepheye tahsis ediyor
En tehlikeli yer benim! Teşhisten önce büyük risklerle karşı karşıyalar
`` Yeni Yılda tabana gitmek '', rüzgâr ve karla savaşmak ve Pekin demiryolunu hareket halinde tutmak için salgınla mücadele ediyor
Yazar Wang Lin ve Cui Wei arasındaki ilişki günlükten kurtarıldı
İç Moğolistan'da yaşayan doğrulanmış vakaların ve üst katta enfekte vakaların illüstrasyon
Çin Halk Bankası Jieyang Şehir Merkezi Şubesi: Salgın önleme yönetimi ve yeniden çalışmadan sonra finansal hizmet garantisinde iyi bir iş çıkarmak için her türlü çabayı gösterin
Cep telefonlarındaki virüs miktarı tuvaletlerin 18 katı! Bu dezenfeksiyon güven verici ...
"Önlenebilir ve iyileştirilebilir, korkmayın"! Dongguan'da taburcu edilen ilk hasta oyun yememeye çağırdı
1995 doğumlu ikinci sınıf öğrencileri sokaktaki "savaşa" katılırlar ve Baiyun'da genç bir öncü vardır.
Yılbaşı hediye paketi! Shanghai Shenhua, Zengcheng ve diğer 3 kişinin katılacağını duyurdu
To Top