Bir kişinin intihar etme olasılığı "rastgele orman" yoluyla nasıl tahmin edilir?

Veri bilimi alanındaki en popüler tahmin algoritmalarından biri olan "Random Forest", 1990'larda istatistikçi Leo Breiman tarafından önerilmiş ve sadeliği ile oldukça kabul görmüştür.

Rastgele orman bazen en doğru tahmin yöntemi olmasa da, makine öğrenimi alanında özel bir yere sahiptir çünkü veri bilimindeki yeni başlayanlar bile bu güçlü algoritmayı kullanabilir ve anlayabilir.

2017 yılında intihar tahmini üzerine yapılan bir çalışmada rastgele orman kullanılmıştır. Araştırma, Vanderbilt Üniversitesi'nde biyomedikal-bilişim uzmanı olan Colin Walsh ve Florida Eyalet Üniversitesi'nden Jessica Ribeiro ve Joseph Franklin adlı iki psikolog tarafından gerçekleştirildi. Joseph Franklin), 5.000 kendine zarar veren hastanın verilerini, bu hastalar için intihar olasılığını tahmin etmek için kullanıp kullanamayacaklarını görmek istediler.

Bu geriye dönük bir çalışmadır (Ek Açıklama: Sonuç olarak şimdiyi alan ve geçmişe giden bir çalışmayı ifade eder). Ne yazık ki, çalışma henüz bitmedi ve yaklaşık 2.000 hasta intihar etti.

Genel olarak, araştırmacılar yaş, cinsiyet ve kişisel tıbbi kayıtların çeşitli yönleri dahil olmak üzere tahminlerde bulunmak için 1.300'den fazla farklı özelliği kullanabilirler. Random Forest tarafından yapılan tahminin doğru olduğu kanıtlanırsa, o zaman teoride bu algoritma, yüksek intihar riski taşıyan kişileri belirlemek ve onlara hedefe yönelik tedavi sağlamak için de kullanılabilir. Bu bir iyilik olacak.

Günümüzde tahmin algoritmaları her yerde.

Günümüzün zengin veri, güçlü bilgi işlem gücü ve ucuz çağında, veri bilimcileri geleceği tahmin etmek için kişisel, kurumsal ve piyasa bilgilerini (ister gönüllü ister gizli olarak) giderek daha fazla kullanıyor. Algoritmalar sadece hangi filmleri izlemek istediğimizi ve hangi hisse senetlerinin fiyatının artacağını tahmin etmekle kalmaz, aynı zamanda sosyal medyada hangi reklamlara yanıt verme olasılığımızın en yüksek olduğunu da tahmin edebilir. Yapay zeka (AI) araçları, otomatik pilot sistemleri gibi kararlar almak için genellikle tahmin algoritmalarına güvenir.

Tahmine dayalı algoritmaların belki de en önemli ve kişiselleştirilmiş uygulaması tıbbi alandadır.

Algoritma odaklı AI, istisnasız olarak depresyon ve gripten kanser ve akciğer yetmezliğine kadar hastalıkları teşhis etme ve tedavi etme şeklimizi tamamen değiştirebilir. Bu nedenle, tahmin algoritması belirsiz ve ezoterik görünse de, bilgimize ve anlayışımıza layıktır. Aslında, çoğu durumda, anlaşılması nispeten kolaydır.

Rastgele ormanları anlamanın ilk adımı, karar ağaçlarını anlamaktır. Sonuçta orman ağaçlardan oluşuyor.

Karar ağaçları, bir dizi doğru ve yanlış soru sorarak tahminlerde bulunabileceğimiz fikrine dayanır. Örneğin, intihar tahmini açısından, elimizde sadece üç parça bilgi olduğunu varsayalım: depresyon tanısı alıp almadığımıza, bipolar bozukluk tanısı alıp almadığımıza ve son bir yıl içinde acil servise üç kereden fazla gidip gitmediğimize.

Karar ağaçlarının bir avantajı, diğer yaygın tahmin yöntemlerinden (istatistiksel regresyon gibi) farklı olarak, karar ağaçlarının insanların tahmin yapma şeklini simüle etmesidir. Bu onların anlaşılmasını nispeten kolaylaştırır. Gizlilik sorunları göz önüne alındığında, araştırmacılar gerçek verileri yayınlamayacaklardır.Aşağıda, bir kişinin intihar edip etmeyeceğini tahmin etmemiz gereken yukarıdaki üç bilgiyi kullanan varsayımsal bir karar ağacı verilmiştir.

Karar ağacının çatallanma noktaları, yanlış tahminleri en aza indirecek şekilde tasarlanmıştır. İnsanların doğru çatallanma noktasını hesaplaması mümkün olsa da, veri bilimcileri neredeyse her zaman bilgisayarın yapmasına izin verir.

Karar ağaçlarının dezavantajı, doğru tahminlerde bulunmak için tek bir karar ağacına güvenememenizdir. Birçok farklı karar ağacı oluşturmanız ve ardından tüm bu karar ağaçlarının tahminlerinin ortalamasını almanız gerekir. Komplikasyon şu: Yalnızca bir veri seti varsa (yukarıdaki örnekte depresyon / bipolar bozukluk / acil servis ziyareti), farklı karar ağaçları nasıl oluşturulur? Aynı verileri kullanırsanız, her karar ağacı aynı olmaz mı?

Bu, bizi modern makine öğreniminin önemli bir anlayışına götürür. Bir veri kümesi aslında birçok farklı veri kümesine yeniden örneklenebilir. Yeniden örnekleme, yeni bir veri kümesi oluşturmak için bazı verilerin rastgele şekilde dışlanmasını ifade eder.

Örneğin, intihar olasılığını tahmin eden bir araştırmacının 5.000 kişiye ait verileri içeren bir veri seti vardır. Yeniden örnekleme yoluyla "yeni" bir veri seti oluşturmak için, araştırmacılar rastgele 5000 kişiden birini seçecek ve bu işlemi 5000 kez tekrarlayacaktır. Ortaya çıkan veri seti, kaynak veri setinden farklıdır çünkü aynı kişi birden fazla kez seçilebilir. Olasılık yasası nedeniyle, herhangi bir yeniden örnekleme veri seti, kaynak veri setindeki 5000 kişiden yalnızca yaklaşık 3200'ünü kullanacak ve diğer 1800 kişi rastgele seçilmeyecektir. Yeniden örneklenen veri seti ile araştırmacılar, kaynak verilerden oluşturulan karar ağacından biraz farklı olabilecek yeni bir karar ağacı oluşturabilir.

Rastgele yeniden örnekleme nadir durumları (yani, "aykırı değerleri") dışlarsa, doğruluk artacaktır; tüm aykırı değerleri içerecek ve bazı daha tipik durumları hariç tutacaksa, doğruluk azalacaktır. Ancak önemli olan, birden fazla yeni karar ağacınızın olmasıdır. "Rastgele orman" açısından, çok sayıda yeni karar ağacı oluşturursunuz. İntihar olasılığını tahmin eden araştırmacılar, 500 farklı karar ağacı oluşturdu. Tüm işi bilgisayarlar yaptığından, araştırmacılar bazen binlerce hatta milyonlarca karar ağacı oluşturur. Genel olarak, 500 karar ağacı yeterlidir ve rastgele ormanın doğruluğunun bir üst sınırı vardır.

Rastgele orman oluşturulduktan sonra, araştırmacılar genellikle araştırma sonuçlarının olasılığını elde etmek için tüm karar ağaçlarının ortalamasını alır. Örneğin 40.000 dolar geliri olan ve depresyon öyküsü olan 40 yaşındaki bir erkek için, 500 karar ağacından 100'ü intihar edeceğini öngörüyorsa, araştırmacılar bu özelliklere sahip bir kişi için intihar olasılığının% 20 olduğunu söyleyebilir.

Yeniden örneklemenin neden önemli olduğunu anlamak için bir örneğe bakalım.

Sıradan insanların boyunu yaş, cinsiyet ve gelire göre tahmin etmek istediğinizi varsayalım. Profesyonel basketbolcular LeBron James (boy 2,03 metre / erkek / yıllık maaş 35,65 milyon ABD doları) ve Kevin Durant (boy 2,08 metre / erkek / 26.54 milyon dolarlık yıllık maaş) bir şekilde 100 kişilik örnekleminize girdi. Bir karar ağacı, bu süper zengin basketbol yıldızlarına dayanarak yüksekliği tahmin ederse, yıllık maaşı 25 milyon dolardan fazla olan insanların uzun olduğuna inanarak yanlış bir tahmin yapabilir. Yeniden örnekleme, nihai analize dahil edilen bazı karar ağaçlarının James ve Durant'tan birini veya her ikisini dışlamasını ve böylece daha doğru tahminler sağlamasını sağlayabilir.

Ayrıca rastgele ormanın rastgeleliği gerçekten yansıtması için başka bir şey yapmamız gerekiyor.

Yeniden örneklenen veri kümesinden oluşturulan 500 karar ağacı farklı olsa da, her yeniden örnekleme için veri noktalarının çoğu aynı olduğundan, fark çok büyük değildir. Bu bizi rastgele ormanlar hakkında önemli bir anlayışa götürür: sizin (veya bilgisayarın) herhangi bir çatallanma noktasından seçebileceğiniz değişkenlerin sayısını sınırlarsanız, tamamen farklı bir karar ağacı elde edebilirsiniz.

İntihar tahmini ile ilgili çalışmalarda, araştırmacıların tahmin yapmak için kullanılabilecek yaklaşık 1.300 değişkeni vardır. Tipik bir karar ağacında, bu 1300 değişkenden herhangi biri, karar ağacının çatallanma noktasını oluşturmak için kullanılabilir. Ancak rastgele ormanın karar ağacı şu şekilde değildir: Değişkenlerin 1,300'ün tümü yerine bilgisayar tarafından seçilebilecek yalnızca bir kısmı vardır ve bunlar rastgele seçilir.

Bu rastgelelik, rastgele ormandaki her karar ağacını farklı kılar. İntihar tahmini çalışmasında, bazı karar ağaçları depresyon teşhis edilip edilmediğini belirleyen değişkenler içerebilirken, diğer karar ağaçları bu tür değişkenleri içermeyebilir. Bir anlamda, karar ağacını "süsledik". Ardından, rastgele ormanın nihai tahmin sonucu olan bu ilintisizlik karar ağaçlarının (intihar tahmin çalışmasında 500) tahmini ortalamasını alın.

Her karar ağacından bazı değişkenler kaldırılır, böylece her bir karar ağacı o kadar doğru olmaz, ancak nihai tahmin daha iyidir Neler oluyor? Yukarıdaki yükseklik tahmin örneğinde, yüksekliği tahmin etmek için geliri kullanan tüm karar ağaçları, yüksek gelirli insanların çok uzun olduğunu düşüneceklerdir. Ancak yükseklik değişkeni bazı karar ağaçlarından rastgele çıkarılırsa, bu karar ağaçları sıradan insanların boylarını daha doğru tahmin edecektir.

İyi bir intihar tahmin algoritmasının iki özelliği olmalıdır: Birincisi, birisi intihar etmeyeceği zaman bu kişinin intihar edeceğini nadiren tahmin etmesi; diğeri ise intihar edeceği zaman bunu nadiren gözden kaçırmasıdır. insanlar. Vanderbilt Üniversitesi ve Florida Eyalet Üniversitesi'ndeki araştırmacılar tarafından geliştirilen rastgele orman algoritması her iki açıdan da iyi performans gösterdi.

Test etmek için gerçek sonuçları kullanırız. Algoritma bir kişinin intihar olasılığının% 50 veya daha yüksek olduğunu öngörürse, vakaların% 79'unda kişi gerçekten intihar edecektir. Algoritma intihar olasılığının% 50'den az olduğunu öngörürse, zamanın sadece% 5'inde intihar davranışı meydana gelecektir.

Rastgele ormanın bir avantajı, tahmin yapmamaya ek olarak bir olasılık da sağlamasıdır. Rastgele ormanın bir kişinin% 45 intihar olasılığına ve% 10'luk bir intihar olasılığına sahip olduğunu öngördüğünü varsayalım. Algoritma, bu iki kişi için intihar etmeme ihtimalinin daha yüksek olduğuna inanıyor. Ancak karar vericiler, algoritmaya göre intihar olasılığı% 30'dan yüksek olan herkesi hedef alan bir plan yapmak isteyebilir.

İstatistikçiler ve bilgisayar bilimcileri pek çok tahmin algoritması geliştirdiler ve rastgele orman bunlardan sadece biri. Bazı durumlarda, rastgele ormanlar en iyi şekilde kullanılır.

Örneğin, intihar tahmini çalışmasında, rastgele ormanın tahmin doğruluğu, daha basit regresyon algoritmalarından çok daha yüksektir. Ancak diğer durumlarda, diğer algoritmalar daha iyi tahminler verebilir. En popüler olanları destek vektör makineleri ve sinir ağlarıdır. Birçok olası öngörücünüz varsa, örneğin, genetik verilere dayanarak belirli bir hastalığın kalıtımını tahmin etmek istiyorsanız, destek vektör makineleri çok kullanışlıdır. Sinir ağı algoritmaları genellikle çok doğrudur, ancak kullanımı son derece zaman alır.

Ne yazık ki, yukarıda belirtilen intihar tahmini araştırması bir norm değildir. Şu anda algoritmalar, kamu politikasını iyileştirmek yerine en çok hedefli reklamcılık ve sahtekarlığı belirlemek için kullanılıyor. Bununla birlikte, bazı kuruluşlar, kamu refahı için algoritmalar kullanmaya çalışıyor. Örneğin DataKind, mezun olacak olsalar bile okuldan ayrılma riski taşıyan öğrencileri belirlemelerine yardımcı olmak için New York City'deki John Jay Ceza Adaleti Koleji için birkaç öngörücü model geliştirdi. Bu modeller 2017 yılında geliştirilmiştir. 10 yılı aşkın öğrenci verilerine dayanmaktadır ve yardımcı projeler için hedefler belirlemek ve okulu bırakma riski olan öğrencilere yardımcı olmak için kullanılacaktır.

Bu veri modelleri belirsiz görünebilir, ancak değiller. Matematiksel bir zihniniz varsa, algoritmaları nasıl anlayacağınızı ve kullanacağınızı bileceksiniz. Bu araçlarda ne kadar çok insan ustalaşırsa, sadece ticari amaçlar için değil, çeşitli sosyal sorunları çözme olasılıkları o kadar artar.

Çeviri: Yu Bo

Editör: Li Li

Kaynak: QUARTZ

Japon samurayları savaşmak için gerçekten paspas kullanıyor mu? Eski bambu zırhı hakkında konuşun
önceki
Gölgelere bak, modeli tahmin et! Sadece 4 anahtar kelime ile eski sürücünün tahmin edebileceği söyleniyor!
Sonraki
İPhone'un sırrı, Jobs'un geçmişi, bir binanın Apple'ın tüm tarihini nasıl taşıdığı
Arabayı almak için 4S mağazasına gidin, eve acele etmeyin, önce bunları yapın
İyi şans, iyi oynamaktan daha mı iyidir? Bir koi fiziğiniz varsa, bir savaşı kaybedip esir olsanız bile ulusal bir kahraman olabilirsiniz.
stil! Bu 2.200.000 sınıf orta büyüklükteki SUV'lar, 7 koltukluk alanda sadece 5 koltuğa sahip!
Yerli yöneticiler lütfen kendinizi kontrol edin! Tang zırh geleneği gerçekten Japonya'da değil
Fakir öğrenciler için dört çeşit "yaşamı sürdüren yiyecek", Şekil 1 sadece midelerini doldurmakla kalmaz, aynı zamanda çok para tasarrufu da sağlar
Neden 82-jin Qinglong Yanyue Kılıcı Guan Yu'nun standart silahı oldu?
KFC'nin en çok çekirdeksiz 4 yemeği gerçekten siyah değil, kimin sipariş verdiğini kim bilebilir! Katılıyor musun?
100.000 yılın başındaki 4 SUV açıkça görünüşlerine bağlı olabilir, ancak güçlerine bağlılar!
Erkekler paraları olduğunda bu cipi satın almak istiyor, bana inanmıyorsanız bir göz atın!
O yıllarda insanların özlediği halk atıştırmalıklarının hepsi klasik, kaç tane yedin?
Eski zamanlara seyahat etmek ve emrinizde on sekiz silahla bir general olmak, birlikleri silahlarla nasıl donatmak mantıklı?
To Top