P değerlerinin yeniden tanımlanmasını talep eden bir makale, yüzlerce bilim insanı arasında bir tartışmayı ateşledi.

Yazar: Jop de Vrieze

Derleme: Jinyi Reload

72 akademik uzman birlikte bir makale yayınladı ve 87 yazarın imzaladığı karşı makaleleri çekti. Bilim adamları, istatistiksel olarak etkili P değerinin ne kadar küçük olduğu konusunda büyük çaplı bir tartışma başlattılar ve hatta Google'ın paylaştığı belgeleri kullandılar.

Hollanda'daki Eindhoven Teknoloji Üniversitesi'nde psikolog olan Daniël Lakens, açık sözlülüğüyle tanınıyor. 22 Temmuz 2017'de "İstatistiksel Önemi Yeniden Tanımlamak" başlıklı basılı bir makaleyi okuduktan sonra, durmaksızın Twitter'a tükürdü: "Bir grup zeki insan böylesine korkunç ve korkunç tavsiyeler verdi. Bu konuda çok hayal kırıklığına uğradım. Dökülen makale 70 ünlü bilim insanı tarafından tamamlandı ve iki ay sonra ünlü" Doğa-İnsan Davranışı "dergisinde yayınlandı.

Çürütmeyi başlatan yazar Daniel Lykens. Resim kaynağı: BART VAN OVERBEEKE FOTOGRAFIE

Ve Lykens'i çıldırtan şey: Bu makale, birçok deneyde kullanılan anlamlılık eşiğinin düşürülmesini önermektedir, böylece p değeri, anlamlı kabul edilmesi için mevcut 0,05 yerine 0,005'ten küçüktür. . Bilim adamları azaltmayı umuyor Yanlış pozitif oran Bilimsel deneyi geliştirmek için Tekrarlama oranı .

Ancak 37 yaşındaki Lykens bunun felaket bir fikir olduğunu düşünüyor. Daha düşük bir anlamlılık eşiği gerekliliği altında, istatistiksel sonuçları anlamlı hale getirmek için daha büyük bir örneklem boyutuna ihtiyaç vardır, bu da birçok deneyi çalışmaz hale getirecektir. Ayrıca, " Bilim çok çeşitliyken, neden tek bir p-değeri standardını sınırlayalım? "

O ve meslektaşları da bu yılın başında "Doğa-İnsan Davranışı" tarafından kabul edilen kısasa bir kağıt dağıttılar. Farklı olan, bu makalenin Google Dokümanlar'da dünyanın her yerinden yüzlerce bilim insanı tarafından birlikte yazılmış olmasıdır.

P değeri nedir?

P değeri, anlaşılması çok zor bir kavramdır. Şimdi, önce p değerlerini ayırt etmenin çeşitli kavramlarını basit ve kaba bir şekilde anlayalım:

Sıfır hipotezi : Varsayılan konum veya iki istatistiksel fenomen A ve B birbiriyle ilişkili değildir.

Hipotez : Bilim adamının ortaya koyduğu ve ispatlamak istediği bakış açısı, boş hipotezle çelişiyor. Örneğin: A ve B'nin bağlantılı olduğunu varsayalım. İspat, saçmalığa indirgeme mantığına dayanır.Eğer boş hipotez yanlışsa, boş hipotezin aksine sonuç geçerli olabilir.

P değeri : Basitçe ifade etmek gerekirse, P değeri ne kadar küçükse, sıfır hipotezinin sorunlu olma olasılığı o kadar artar ve hipotezinizin geçerli olma olasılığı o kadar yüksektir. Eğer P = 0.05 ise, şu anda boş hipotezi reddedin, doğru boş hipotezi "yanlış" olarak "yanlış" yapma ihtimaliniz% 5 vardır; eğer P = 0.01 ise, boş hipotezi reddedin, sadece% 1'iniz yanılıyor olabilir.

Önem eşiği () : P değeri ne zaman bu kadar küçük olacak ki boş hipotez akademik camia tarafından reddedilip tanınabilecek? Herkese uyan bu tek beden eşiği, tamamen yapay olarak ayarlanan anlamlılık eşiğidir. Bu akademik çevrenin tanıdığı mevcut eşik yüksekliği 0,05'tir, yani p değeri 0,05'ten küçük olduğunda deneysel sonuçların istatistiksel olarak anlamlı olduğu söylenebilir.

P değeri yöntemi, yaygın olarak kullanılan bir istatistiksel yöntemdir, ancak kendi eksiklikleri nedeniyle tartışmalıdır. Akademik çevreler p-değeri tartışmaları konusunda çok hevesliydi ve bir grup bilim insanı, 0.05'in altındaki p değerinden elde edilen sonuç, insanların düşündüğü kadar güvenilir değildir ve deneyde kullanılan anlamlılık eşiğinin düşürülmesi gerekir. .

Google Dokümanlar'da yoğun tartışma

Makalenin revizyon eşiğini çürütmek istiyorsanız, sadece Twitter'ı kullanamazsınız.

Sonuçta, Twitter bir genişletmeden sonra yalnızca 280 karakter yayınlayabilir. Lykens, P değeri revizyonu konusunu derinlemesine tartışmak için Google'da başlıkla paylaşılan bir belge oluşturdu " Alfa değerinizi adlandırın: 'istatistiksel önemi yeniden tanımlama' yanıtına "Likens, belgede" Bu teklifi değerlendirmeli miyiz yoksa görmezden mi gelmeliyiz "ve" İstatistiksel önemi bu şekilde yeniden tanımlamanın olası olumsuz etkisi nedir "dahil olmak üzere 12 tartışma noktası listeledi.

Lykens, bu planın herkesin fikirlerini olabildiğince dikkate almasını istediğini, böylece katılmak isteyen herkesin katılmayı beklediğini ve ünlü bilim adamlarını bulmak için inisiyatif almadığını söyledi. Bu durumda, tartışmaya yaklaşık 150 bilim adamı katıldı ve belge 100 sayfaya patladı.

Tartışmadaki katılımcılar çok çeşitliydi, çoğu tanınmayan okullardan geldi ve çoğu kişisel deneyimlerini paylaştı. . Çünkü p değeri ve Örnek boyut Alakalı, yani 0.005'ten düşük bir p değeri elde etmek için daha fazla örnek gerekebilir . Bazı katılımcılar, bu kadar büyük ölçekli bir deneyi karşılayamayacaklarını veya yeterli denek alamadıklarını söylediler. Bazı insanlar, bu düşük eşiğin, araştırmacıların lisans öğrencileri bulmak veya çevrimiçi araştırma kullanmak gibi "uygun örneklere" dönmesine neden olacağına işaret ediyor. Eleştirmenler ayrıca, gereksinimleri karşılayan büyük ölçekli deneylerin tekrarlanmasının daha zor olduğuna ve bu da yeni standartlar önermenin asıl amacını ihlal ettiğine dikkat çekti. Aynı zamanda, daha katı bir önem eşiği, araştırmacıların risklerden kaçınmasına ve zor konuları daha az incelemesine olanak sağlayabilir.

Eşiği değiştirmenin bilimsel araştırma üzerindeki olumsuz etkisine ek olarak, katılımcılar En büyük soru Hala yatıyor: 0,005 aslında 0,05 kadar rastgele Gerçek eşik aslında bir konu hakkındaki bilgimize ve bu konu hakkında yanlış cevap alma riskimize bağlıdır. . Örneğin, ön deneyler yanlış pozitif sonuç riskini daha yüksek kabul etmelidir ve ilaç deneyleri daha düşük bir p değeri gerektirebilir.

Lykens, Google Dokümanlar'daki tartışmayı bir makaleye dönüştürmeyi umuyor, ancak bu sefer işler o kadar da pürüzsüz değil.

Başı belada çok fazla insan var

Daniel Bradford, Wisconsin-Madison Üniversitesi'nde klinik psikoloji alanında doktora öğrencisidir. Bradford, "Uzun süredir istatistik öğrencisiyim ve psikolojinin deneysel yöntemlerini geliştirmek için birçok tartışmaya katıldım." Tezine katkıda bulunmaktan çok mutluydu. Ancak, başlangıçta bu birlikte yazma yönteminden şüpheliydi. Çalışmıyor, "Sadece beş yazarlı makaleyi bitirdiğimde, her zaman daha az insan olsaydı daha verimli olacağını düşündüm."

Lykens, makaleyi başarılı bir şekilde yazmak için tartışmadan ana noktaları çıkardı ve makalenin temeli olarak yeni bir Google belgesine koydu.

"Bu belgenin gelişimi inanılmaz. İnsanlar ekler, siler ve ekler ve görenler yeni fikirler üretir. Bu model işe yaradı. İnsanlar, referansları gözden geçirmek, paragrafları kontrol etmek ve noktalama işaretleri gibi belirli görevleri üstlenmeye isteklidir. Makaleyi sıkıştırmamız gerektiğinde, bazı yazarlar piranha oldu ve gereksiz tüm içeriği eledi. Lykens dedi.

Yazarlar samimiyetle işbirliği yapıyor olsalar da, Lykens'e bırakılan birçok görev var - özellikle Lykens'in rutin işleri tamamlaması gerektiğinde. Boş zamanını yalnızca sabah veya gece gibi görevleri tamamlamak için kullanabilir.

"Bir an için delirdiğimi sandım," dedi Lykens.

Makalenin son halini alma sürecinde, birkaç katılımcı, kısmen makalenin bazı kısımlarına katılmadıkları için geri çekilmeyi seçti. Sonunda 87 kişi makalenin ortak yazarları olmayı kabul etti.

Düzeltilmiş eşik pastasının yanıtı

Lykens ve arkadaşlarının makalesi, "istatistiksel anlamlılık" etiketinin tamamen atılmasını önermektedir. . Bunun yerine araştırmacı, Deneysel tasarımlarını ve veri işleme yöntemlerini tanımlayın ve açıklayın ,Dahil etmek Seçili istatistiksel eşik . Lykens, "Bazen önem seviyesi 0.05, bazen 0.005 veya 0.10 olabilir." Dedi.

Lykens'in bakış açısına göre, önem eşiğinin revizyonunu savunan bilim adamları da yanıt verdi.

"İstatistiksel Önemi Yeniden Tanımlamak" adlı orijinal makalenin ilk yazarı, Texas A&M Üniversitesi'nden Valen Johnson (Valen Johnson) Lykens'in yönteminin işe yaramayacağına inanıyordu. " Her makalenin yazarlarının kendi önem düzeylerini belirlemesi mümkün değildir. "," "Science" a bir e-postada yazdı, "Nedeni basit. Önerilen her bir önem eşiğinin ayrıntılı ve noter tasdikli incelemesini yapmak için yeterli kaynak yok. Makalenin ortak yazarı olan Amsterdam Üniversitesi'nden Eric-Jan Wagenmakers, "Aynı zamanda," 'nın rasyonelliğini kanıtlamanın "pratikte nasıl işe yaradığı net değil.

Bir başka önemli ortak yazar daha ılımlı bir tutuma sahip. Virginia Üniversitesi'nde psikolog olan Brian Nosek'e göre, " Lykens'in makalesinin ilettiği mesaj çok iyi, aslında bizim makalemizin bir eleştirisi değil . Nosec, "İstatistiksel Önemi Yeniden Tanımlamak" başlıklı makalede verilen ana mesajın çok sınırlı olduğunu söyledi: Şu anki 0.05 olan anlamlılık eşiği, insanların kanıtların güvenilirliğini abartmasına neden oluyor. Bu eşiğin düşürülmesi gerekirse, 0.005 makul. İkame değeri.

"Tüm anlamlılık testlerinin atılması, seçilen 'nın açıklanması, Bayesci çıkarımın birleştirilmesi, daha fazla tekrarlanan deneyler vb. Gibi diğer önem sorunları önerileri de çok iyi gelişmelerdir." Seke dedi.

Bu tartışma devam edecek, ancak konum Google Dokümanlar olmayabilir. Google Dokümanlar'da yaşanan hikayeler "inanılmaz" ama çok verimli değil. Lykens, "Zamanınız kısıtlı olduğunda bunu yapmamalısınız" dedi.

"Tartışma çok yoğundu. Birleşik bir görüşe ulaşamadığımız için bazı tartışmalardan vazgeçtik. Tek yazar ben olsaydım, bunları eklerdim." Lykens ekledi.

Görünüşe göre istatistiksel anlamlılık hakkında hala tartışılacak çok şey var. Ve her tartışma, bilimsel yöntemi mükemmelleştirmek için bir kıvılcım olabilir.

İnceleme: vicko238, Ent

Derleme kaynağı: Bilim, Yaklaşık 100 bilim insanı, p değerini yeniden tanımlamak için Google Dokümanlar'da 2 ay geçirdiler. İşte buldukları şey.

Başlık görselinin kaynağı: EMCrit

Bireyler arkadaş çevresine iletebilirler

Bu makale Guo kabuk ağından geliyor

Lütfen yeniden basım için yetki ile iletişime geçin: sns@guokr.com

Başvuru için lütfen bilimselguokr@163.com ile iletişime geçin.

Büyük şehirlerdeki kızların cildi neden zayıf?
önceki
Science Cover: Memelileri giderek daha "tembel" yapan nedir?
Sonraki
Duygular uyumlu değilse kararlı bir şekilde ayrılın! Cesaretin var mı?
Kocamın iki et ve iki vejeteryan yemeği pişirip pişirmesi ender rastlanan bir durum ... Bu dört yemeği gördükten sonra arkadaşlarım şikayet ettiler.
Gökyüzünden daha şişman olan kara delikler nasıl böyle yer?
AIDS'i tedavi etmek için, neden ilacı "küçük bir yıldız" haline getirmeye çalışalım?
Ağır! Dünyanın ilk somatik klonlanmış maymun kız kardeşleri Çin'de doğdu!
Burada bir atadan kalma DNA parçam var. Bunu size robot olmanız için vereceğim
Neden "Bugünün örtü tüyleri yarın yok olacak" diyorsunuz?
Tsinghua öğrencilerinden nihai not dökümü: kuantum dünyasında yeni bir rekor!
1 kase un ve birkaç kaşık şeker, karıştırın ve altın rengi bir kahvaltıda kızartmak için karıştırın, bir ısırık kokulu ve gevrektir
İşte bu Bay Dinozor için bir menü!
Paddington, bu ne tür bir ayı?
Ding Wenjiang: Çin ulusunun şarkısını bestelemek için bir harita kullanın
To Top