Nedensel çıkarımı anlamak için bir makale, eğilim modeli (örneklerle birlikte)

Orijinal başlık: Eğilim Modellemesi, Nedensel Çıkarım ve Büyümenin Etkenlerini Keşfedin

Yazar: Edwin Chen

Çeviri: Zhang Yi

Redaksiyon: Lu Miaomiao

Bu makale var 5400 kelime Önerilen Okuma 9 dakika .

Bu makale, örnekler aracılığıyla nedensel çıkarım yöntemlerini, eğilim modellemesini ve büyüme itici güçlerini tanıtmaktadır.

Metinden önce böyle bir sahne hayal edin.

Yeni bir işe başladınız ve son zamanlarda "Zombie World War" filmini izlediniz, hayatınızdan şüphe duyuyorsunuz. Ayrıca, kısa bir süre önce, veri eksikliği nedeniyle iki girişiminiz devam edemedi, bu yüzden gözlerinizi hoşnut edecek bir şey görmediniz.

Önce satış ekibinin etkisini düşünmeye başlarsınız. Şirkete ne kadar ek gelir getirdiler? Tanıştığınız satış görevlileri, tanıtımını yaptıkları müşterilerin% 90'ının şirketin ürünlerini satın aldığını söyledi, ancak hala bir sorunuz var: Bu müşterilerden kaçı satış görevlisinin kredisi nedeniyle satın almaya karar veriyor?

İş günlüğünü kontrol ettiniz ve ilginç bir şey fark ettiniz: Geçen hafta hack haftasıydı, satış görevlilerinin yarısı bilgi toplamak için aramak zorunda kaldıkları için yer açamadı, ancak bu hafta müşteri dönüşüm oranı Değişiklikler.

Kafası karıştığında bir meslektaşı masaya geldi. Soylent içkisinden bahsetti ve senin tadına bakmanı istedi. Bu içecek iyi görünmüyor, bu yüzden meslektaşınıza bu kadar iyi olanı sorun.İş arkadaşı, arkadaşının birkaç ay sonra bu içeceği içtikten sonra maraton koşabileceğini söyledi. Yani? Koşmaya yeni mi başlıyorlar? --Tabii ki hayır, geçen yıl bir maraton koşmayı başardılar!

Nedensel Çıkarım (Nedensel Çıkarım)

Şeyler arasındaki nedensel ilişki şüphesiz çok önemlidir, ancak zorluk bu ilişkinin nasıl belirleneceğidir.

Aşağıdaki soruları düşünün:

  • Yeni bir ilaç aldıktan sonra belli bir hastanın fiziksel durumu düzeldi Bu ilacın etkisiyle mi düzeliyor yoksa vücudu iyileşiyor mu?

  • Satış ekibiniz gerçekten bir rol oynuyor mu, yoksa sadece ürün satın alacak müşterilere mi satış yapıyorlar?

  • Soylent içeceği içmeye değer mi (veya şirketinizin büyük reklam yatırımı)?

İdeal bir dünyada, istekli olduğumuz sürece, doğrulamak için deneyler yapabiliriz --- deneyler nedenselliği test etmek için en iyi standarttır. Ama gerçek şu ki, bunu yapamayız. Örnekleri şimdi ele alın. Hastaların plasebo veya denenmemiş ilaçları almasına izin veremezsiniz. Bu etik değildir. Şirket yöneticileri, potansiyel kısa vadeli kazançlar için rastgele müşterilere odaklanmak istemeyebilir. Aynı şekilde, ikramiye almak için satışa güvenen satış ekipleri de buna karşı çıkacaktır.

Öyleyse, A / B testi olmadan nedenselliği nasıl anlamalıyız? Eğilim modellemesi ve diğer nedensel çıkarım tekniklerinin devreye girdiği yer burasıdır.

Eğilim Modellemesi

Soylent içeceği örneğine devam ederken, soyalent içeceği içmenin etkisini analiz etmek için eğilim modelleme tekniğini kullanıyoruz. Bu kavramı net bir şekilde açıklamak için bundan sonra bir düşünce deneyine başlayacağız.

Diyelim ki Brad Pitt'in bir ikiz kardeşi var Her iki kardeş de her yerde aynı: Brad1 ve Brad2 birlikte kalkıyor, aynı şeyleri yiyor, aynı yoğunlukta fiziksel egzersizler yapıyor, vb. Bir gün Brad 1, son düzine Soylent içkisini sokaktaki bir organizatörden aldı, ancak Brad 2'nin o kadar da şansı yoktu. Yani Soylent yalnızca Brad1'in yemek kitabında yer aldı. Bu durumda, o zamandan beri ikizler arasındaki herhangi bir davranış farklılığının bu içkiden kaynaklandığı varsayılabilir.

Bu senaryoyu gerçek dünyaya getirmek için Soylent'in sağlık üzerindeki etkisini tahmin etmek için aşağıdaki yöntemi kullanıyoruz:

  • Soylent içen herkes için ona her yönüyle yakın olan ve bu içeceği içmeyen birini bulun. Örneğin, Soylent içen Jay-Z ve grup olarak Soylent içmeyen Kanye'yi veya Soylent içen Keira'nın Soylent içmeyen Knightley ile eşleştiğini düşünürüz.

  • Sonra, soylent'in etkisini ölçmek için ikisi arasındaki farkı inceleyeceğiz.

Ancak pratikte birbirine çok benzeyen iki ikiz bulmak zordur.Jay-Z ortalama olarak Kanye'den bir saat daha fazla uyursa, ikisinin gerçekten yakın olması nasıl sağlanabilir?

Eğilim modellemesi, bu ikiz eşleştirme sürecinin basitleştirilmesidir. İki kişiyi tüm değişkenlere göre eşleştirmiyoruz, ancak tüm kullanıcıları basit bir sayıya göre eşleştiriyoruz ----- soylent içme olasılıkları ("eğilim")

Eğilim analizi oluşturmanın ayrıntıları:

  • Her şeyden önce, Bazı değişkenleri seçin Özellik olarak (yenen yemeğin türü, uyku süresi, ikamet yeri vb.)

  • Bu değişkenlere göre Bir olasılık modeli oluşturun (Lojistik regresyon) insanların Soylent'i içip içmeyeceğini tahmin ediyor. Örneğin eğitim setimiz, bazıları Mart 2014'ün ilk haftasında Soylent'i sipariş eden bir grup insandan oluşuyor. Soylent'i içecek model için bir sınıflandırıcı eğiteceğiz.

  • Model, kullanıcının Soylent'i içmeye başlama olasılığını ifade eder: "Eğilim Puanı"

  • Toplam on seviye gibi belirli sayıda "kova" oluşturun (ilk kova içecek içme eğilimini temsil eder, 0,0-0,1, ikinci kova 0,1-0,2 vb.), Tüm deneysel verileri içine koyun Karşılık gelen "kova".

  • Son olarak, Soylent'in nedensel etkisini tahmin etmek için her bir fıçıdaki içme ve içmeme örnek verilerini (sonraki fiziksel uygunluk, kilo veya diğer sağlık göstergelerini ölçmek gibi) karşılaştırın.

Örneğin burada Soylent içen ve içmeyenlerin hayali bir yaş dağılımı haritası var. Soylent içicisinin yaşının biraz daha yaşlı olduğunu görebiliyoruz. Bu karışık gerçek, basitçe korelasyon analizi gerçekleştiremememizin nedenlerinden biridir.

Soylent eğilim tahmin modelini eğittikten ve kullanıcıları ilgili kovalara atadıktan sonra, aşağıdaki resim Soylent'in bir kişinin haftalık egzersiz kilometre üzerindeki etkisini göstermektedir.

Yukarıdaki çizelgede (varsayımsal), her sıra farklı eğilim seviyelerine sahip insanları temsil etmektedir Başlangıç, kontrol grubuna Soylent içkisini aldığı Mart ayının ilk haftasını temsil etmektedir. Bu haftadan önce, iki grubun veri yörüngelerinin çok farklı olmadığını görebiliyorduk, ancak kontrol grubu planlandığı gibi Soylent'i içmeye başladığında haftalık koşu mesafelerinin artması, içeceğin nedensel etkisine ilişkin tahminimizi oluşturdu.

Elbette başka nedensel çıkarım yöntemleri de var. İşte favorilerimden ikisi:

Regresyon Süreksizliği (Kesme Noktası Regresyon Yöntemi)

Bu örnek şuna benzer:

Quora kısa süre önce en iyi yazarlar ana sayfasında rozetleri görüntülemeye başladı ve bu özelliğin ne gibi bir etkisi olacağını bilmek istiyoruz. (İşlevin artık çevrimiçi olduğunu varsayarsak, A / B testi mümkün değildir). Daha spesifik olarak, ana sayfada rozet görüntüleme özelliğinin kullanıcıları daha fazla takipçi artırıp artırmayacağını bilmek istiyoruz.

Analizi basitleştirmek için 2013 yılında 5.000'den fazla beğeni alan kullanıcıların rozet almaya uygun olduğu varsayılmaktadır. Daha sonra kesme noktası regresyonunun odak noktası, rozeti yeni alan kullanıcılar (yani 5000 beğeni) ve neredeyse kalifiye olanlar (4999 beğeni alan) Aralarındaki fark az çok rastgele. Nedensel etkileri tahmin etmek için bu eşiği kullanabiliriz.

Örneğin, aşağıdaki hayali grafikte 5.000 beğeni sınırındaki süreksizlik, ortalama madalya kazanan yazarın yaklaşık 100 hayranının daha olacağını gösteriyor.

Doğal deney

Ancak, en iyi yazar rozetinin rolünü anlamak anlamsızdır, kavramı açıklamak için sadece basit bir örnektir. Daha derinlemesine tartışmaya değer şudur: Bir kullanıcı favori bir yazarı yeni keşfettiğinde ne olur? Yazarlar onlara kendi içeriklerinden bazılarını yazmaları, aynı içeriği daha fazla keşfetmeleri ve siteye daha fazla dahil olmalarını sağlamaları için ilham veriyor mu? Başka bir deyişle, rastgele gönderilere göz atan kullanıcılara kıyasla, kullanıcıların bu güçlü yazarlarla bağlantı kurması önemli mi?

Daha fazla tartışmak için, bu kurgusal Quora olayını şimdilik bir kenara bırakalım. Google'da çalışırken okuduğum benzer bir soruna bakalım.

Örneğin, birçok kişi Pazar gecesi ev hanımlarının güncellemelerini takip etmek için evde kalmayı tercih ediyor. Gösteriyi izledikten sonra, insanlar başka şovları aramak için bu kanalda durabilir.

Soru şudur: Artık kullanıcıları "mükemmel bir YouTube kanalı" ile eşleştirdikten sonra ne olacağını bilmek istiyoruz. Bu tavsiyenin değeri nedir?

  • Kullanıcının yeni bir kanala olan sevgisi, kanala kendisinin ötesinde bir miktar dikkat çekecek mi? Çünkü kullanıcılar özellikle YouTube'a dönebilir ve daha fazla program izlemek için yeni kanalda kalabilir. (Çarpma etkisi)

  • Yeni bir kanalı beğenmek bu kanaldaki etkinliği artırır mı? (Olumlu etki)

  • Yeni kanal, YouTube'daki mevcut etkileşimin yerini alacak mı? Sonuçta, kullanıcıların sitede geçirecek fazla zamanı yok (tarafsız etki)

  • Perfect Channel, kullanıcıların sitede geçirdiği zamanı gerçekten düşürüyor mu? Çünkü görmek istediklerini hızlı ve doğrudan bulmayı öğrendiklerinde, web sitesinde uzun süre takılmayacaklar (olumsuz etki).

Benzer şekilde, bu durumda A / B testi yapmak gerçekçi değildir, çünkü kullanıcılar belirli bir kanalı beğenmeye veya göz atmalarını engellemeye zorlanamaz (önerilerde bulunabiliriz, ancak kullanıcıların onu satın alacağını garanti edemeyiz).

Bir çözüm kullanmaktır Doğal deney (Bu senaryoda, deneyimin kendisi rastgele bir atama üretir.) Bu etkiyi inceleyelim. Aşağıdakiler özel yöntemdir:

Bir kullanıcının her Çarşamba yeni bir video yüklediğini hayal edin. Bir ay sonra, seyahat edeceği için, bu kanalı izleyen diğer kullanıcılara önümüzdeki birkaç hafta içinde hiçbir video yüklenmeyeceğini bildirdi.

Bu kullanıcılar şu anda nasıl tepki verecek? YouTube'a yalnızca bu kanal erişebildiğine göre, Çarşamba günü YouTube'a gitmeyi bırakacaklar mı? Yoksa hiçbir etkisi yok mu, çünkü bu kullanıcılar bu videoları sadece ana sayfada göründüklerinde izlemek için tıklayacaklar mı?

Bu kanalın her Cuma video yükleyecek şekilde değiştiğini hayal edin, bu kullanıcılar onu izlemeye devam edecek mi? YouTube'u ziyaret ettikleri için, sadece yeni videolar istiyorlar, belki de bir dizi aramaya ve ilgili içeriğe yol açan sadece ziyaretleri olabilir mi?

Gerçekler, bunun sık sık gerçekleştiğini kanıtladı. Örneğin, aşağıdaki popüler bir kanal tarafından yüklenen videoların bir takvimidir. Gördüğünüz gibi 2011'de videoları Salı ve Cuma günü yüklemeyi seviyordu, ancak yıl sonunda Çarşamba ve Cumartesi olarak değişti.

Bu geçişi doğal bir deney olarak ele almak, popüler bir kanalı belirli bir zamanda başka bir güne "rastgele" aktarmak gibidir. Bundan iyi bir tavsiyenin önemini anlayabiliriz.

Yukarıdaki örnek, doğal bir deney olarak biraz fazla karmaşıktır.Bu bakış açısını daha net bir şekilde açıklığa kavuşturmak için, gelirin ruh sağlığı üzerindeki etkisini anlamamız gerektiğini varsayalım.Bazı insanları bununla bağlantılı olarak zengin ya da fakir olmaya zorlayamayız. Araştırmada belli ki eksiklikler var. Bu makale (bağlantı: https://opinionator.blogs.nytimes.com/2014/01/18/what-happens-when-the-poor-receive-a-stipend/) doğal bir deneyi, yani bir grup Cherokee Kızılderilileri kumarhane karlarını üyelerine dağıttığında, bazılarını rastgele yoksulluktan kurtaracaklardı.

Yukarıda bahsettiğim senaryoda, programlama haftasında özel bir şey olmadığını varsayarak, başka bir örnek, programlama haftasını benzer şekilde rastgele bir şekilde satış ekibinin çalışmalarını tamamlamasını "engelleyebilecek" bir araç olarak kullanmaktır.

İtici güç keşfi

Eğilim modelleme sorununa dönelim.

Artık şirketin geliştirme ekibinin bir üyesi olduğumuzu varsayarsak, şimdi görev rastgele kullanıcıları nasıl normal müşterilere dönüştürebileceğimizi bulmaktır.

Şu anda, eğilim modelleme yöntemi benimsenebilir. Bazı özellikleri (mobil uygulama, giriş bilgileri, belirli bir kullanıcıya dikkat, vb.) Seçer ve her özellik için bir eğilim modeli oluştururuz. O zaman yapabiliriz Nedensel tahminde yer alan tüm özellikleri sıralayın , Bir sonraki hedef grubumuzu belirlemek için bu sıralı özellikler listesini kullanın. (Veya bu verileri, yönetim ekibine daha fazla kaynağa ihtiyacımız olduğunu söylemek için kullanırız). Bu, bir katılım regresyon modeli (veya bir kayıp regresyon modeli) oluşturmanın ve her özelliğin ağırlığını kontrol etmenin biraz daha karmaşık bir yoludur.

Ancak bu yazıyı yazdıktan sonra bile, teknik alandaki birçok uygulamada trendleri modellemeye meraklı değilim. (Tıp alanında çalışmadım, bu yüzden pratikliğini garanti edemem, ancak bu alanda model olmaya daha meyilli olabileceğini düşünüyorum), bir dahaki sefere benzer bir sahne ile karşılaşsam bile, daha fazlasını tutacağım Görüntüleme. Sonuçta, nedensel çıkarımlar yapmak çok zordur, tüm potansiyel etkileyen faktörleri kontrol edemeyiz ve bu faktörler deneysel sonuçlara önyargı getirecektir. Ek olarak, yapmalıyız Modele dahil edilecek özellikleri seçin (Unutmayın, özellikler inşa etmek çok zaman alır ve zordur). Bu, bu özelliklerin yararlı olup olmadığına dair net bir yargıya sahip olduğumuz anlamına gelir, ancak asıl yapmak istediğimiz şey bu gizli nedenleri keşfetmek.

Peki bundan sonra başka ne yapabiliriz?

Örneğin, neden bazı kullanıcıların sitenin derin kullanıcıları olduğunu bilmek istiyorsak, neden onlara sormuyoruz?

Özellikle şunu yapabiliriz:

  • Önce araştırmak için yüzlerce kullanıcı grubu seçin

  • Ankette, kullanıcılara, geçen yıla kıyasla, belirli bir web sitesine katılımları arttı mı, azaldı mı veya temelde değişmeden mi kaldı? Ardından, kullanıcılara bu değişikliğin neden olduğunu sorun, siteye en son ne zaman göz attıklarını açıklamalarını veya onlardan bazı ayrıntıları (demografik bilgileri gibi) eklemelerini isteyin.

  • Son olarak, geçen yıl katılımlarını önemli ölçüde artıran kullanıcılardan gelen geri bildirimleri inceledik (aksi durumda önemli bir düşüş yaşayan kişileri seçtik) ve verdikleri nedenleri analiz ettik.

Örneğin aşağıdaki, YouTube'da bu araştırmayı yaparken aldığım ilginç bir geri bildirimdir.

"Büyük bir müzik hayranıyım ve son zamanlarda gitar çalmaya bağımlıyım, bu yüzden bu süre zarfında YouTube'da daha fazla konser ve müzikle ilgili diğer videoları izleyeceğim. Elbette, birçok gitar eğitim videosu da dahil (web sitesi www.justinguitar .com) "

Bu geri bildirimden, kullanıcıların yeni bir çevrimdışı hobisi olduğunu gördük ve ardından bu hobiyi YouTube'a aktardık. Anlaşılması kolaydır.Örneğin, evde yemek pişirmeye başlamak isteyenler YouTube'da yemek pişirme dersleri arayacak, tenis veya diğer sporları oynamaya başlamak isteyen kullanıcılar eğitici videolar bulacak ve üniversite öğrencileri yardım için Khan Academy gibi bazı kanallar bulacak. Öğrenin. Başka bir deyişle, çevrimdışı etkinlikler çevrimiçi davranışı etkileyecektir. Bu durumda, kullanıcıların hangi içerikle ilgilendiklerini tahmin etmemize gerek yok (örneğin, Facebook'ta hangi makaleleri sevdiklerini, Twitter'da kimi takip ettiklerini, Reddit'teki hangi makaleleri sevdiklerini), ancak takip edecekler Önemli olan, bu gerçek yaşam tercihlerinin dijital dünyaya nasıl dönüştürüleceğidir.

Bu tür bir "çevrimdışı hobi" fikri, sadece bu özelliği oluşturmak zor olduğu için olsa bile, kesinlikle herhangi bir katılım moduna koyduğum bir özellik haline gelmeyecek. (Hangi videoların gerçek dünya tercihlerine karşılık geldiğini nasıl bilebiliriz?)

Ancak bunun potansiyel bir büyüme itici gücü olduğundan şüphelendiğimiz için ("potansiyel" çünkü anketin temsili olması gerekmez), bu derinlemesine inceleyebileceğimiz bir konudur.

Sonuç

Özetlemek gerekirse: rastgele denemeler yapmak için hiçbir koşul olmadığında, eğilim modellemesi nedensel etkileri yargılamak için güçlü bir teknik araçtır.

Ancak, gözlemsel araştırmaya dayalı bu saf korelasyon analizi yanıltıcı olabilir. İşte benim en sevdiğim örneklerden biri: Belirli bir şehirde ne kadar çok polis varsa, o kadar çok suç olabileceğini görüyoruz - ama bu her zaman suçların sayısını azaltmak için polis gücünü azaltmamız gerektiği anlamına gelmez mi?

Başka bir örnek daha var: Gelman bir keresinde Harvard Hemşireler Sağlık Araştırması'nda hormon replasman tedavisi çalışmasından çıkan çelişkili sonuçlar üzerine bir gönderi yaptı (ilgileniyorsanız, ayrıntılı olarak okuyabilirsiniz ve burada tartışmayacağım) (http: // andrewgelman. com / 2005/01/07 / can_propensit /)

Başka bir deyişle, Yalnızca veriler yeterince yüksekse, model daha iyi olacaktır . Ancak tüm gizli değişkenleri hesaba katmak bizim için zordur.Sonuç olarak beyninizle tasarladığınız model pratikte rastgele modelden çok daha iyi değildir. Bu nedenle, anlaşılması kolay nedensel analiz teknikleri olup olmadığını veya sadece kullanıcıları araştırmak için ya da şu anda uygulaması daha zor olan rastgele denemeler olup olmadığını düşünebilirsiniz. Bunlar sonunda araştırmanızı etkileyecektir. Yardım.

Orijinal bağlantı:

Çevirmen Profili

Zhang Yi , Çin İletişim Üniversitesi'nde dijital medya teknolojisi alanında uzman. Veri bilimine merak doluyum ve onun yarattığı yeni dünya ile iç çekiyorum. Şu anda keşfediyorum ve öğreniyorum.Umarım cesur ve hevesliyimdir, en ilginç bilgileri öğrenirim ve en çok benzer düşünen arkadaşlar edinirim.

Royce'un 92 dakikalık hikâyesi! Bu gol Dortmund'u Bundesliga'nın zirvesine koydu ve Bayern'i 3 puanla önde götürdü.
önceki
İngiltere'de bir başka kör hakem! Manchester City flop noktası + ofsayt yapmıyor, süper üzüntüyü yok ediyor
Sonraki
Xi'an'da Du Fu ile karşılaşıldı
Premier Lig'de bir başka klasik dönüş! 15 dakikada 1-3'ten 4-3'e, eski Manchester United forvet 91 dakikalık bir hikaye yaptı
Seq2seq modeliyle veri ürünlerini nasıl oluşturacağınızı öğretin (kod ekli)
Hindistan'a mı gidiyorsunuz? Gerçek sandığınızdan çok daha acımasız!
Uluslararası Şampiyonlar Kupası-Edel iki gol attı, Ribery sakatlıktan emekli oldu, Inter 2-0 Bayern
AI yargıcın yerini mi alıyor? Akıllı adaletin inşasını ve uygulamasını biliyor musunuz
Uluslararası Şampiyonlar Kupası-Tenten üç gollü Stirling golü attı, Oscars World Bo Manchester City 4-1 Real Madrid
AI'nın gelişimi: finans endüstrisindeki uygulamalar ve fırsatlar (video PPT ile)
2017 sağlık yönetimi hizmeti risk sermayesi trendinin yorumlanması
2017 yılında, otonom sürüş için temel bileşenlerin maliyeti düştü ve engelleyiciyi bulduk
2-0 iyi bir başlangıç! Real Madrid 3 kahramanı Solari'yi deli ediyor, Zidane 3 hemen değişiyor
Uluslararası Şampiyonlar Kupası-Higuain iki kez Marchisio, Juventus Paris'te 3-2 gol attı.
To Top