Derinlemesine yüksek enerjili parçacık çarpışması izleme: Kaggle TrackML parçacık izleme yarışmasının ikincisi ile röportaj

AI Technology Review Press: Kaggle TravML Particle Tracking Challenge'ın ödül töreni, NIPS 2018 konferansında yapılacak. Bu yarışma, yalnızca diğer alanlarda bilimsel araştırmalara yardımcı olan klasik bir makine öğrenimi örneği değil, aynı zamanda Tayvan, Çin'den Pei-Lien Chou da yarışmada ikinci oldu.

TrackML Particle Tracking Challenge'a Giriş

CERN bilim adamları, evrenimizin neyden oluştuğunu keşfetmek için protonlarla çarpışıyor, aslında küçük büyük patlamaları yeniden yaratıyor ve bu çarpışmaları karmaşık silikon dedektörlerle dikkatle izliyorlar.

Çarpışmaların ve gözlemlerin düzenlenmesi halihazırda büyük bir bilimsel başarı olsa da, deneyler tarafından üretilen büyük miktarda veriyi analiz etmek en ciddi zorluklardan biri haline geliyor.

Deneylerin oranı saniyede yüz milyonlarca çarpışmaya ulaştı, bu da fizikçilerin her yıl onlarca gigabayt veriyi taraması gerektiği anlamına geliyor. Dahası, dedektörün çözünürlüğü arttıkça, en yararlı verileri gerçek zamanlı olarak önceden işlemek ve filtrelemek için daha iyi bir yazılıma ihtiyaç duyulur, böylece daha fazla veri oluşturulur.

Bu sorunu çözmeye yardımcı olmak için, CGRN'de (dünyanın en büyük yüksek enerjili fizik laboratuvarı) çalışan bir grup makine öğrenimi uzmanı ve fizikçi bu soruyu yanıtlamak için kaggle ve ünlü sponsorlarla birlikte çalıştı: makine öğrenimi Yüksek enerjili fiziğin yeni parçacıkları keşfetmesine ve tanımlamasına yardımcı olur mu?

Spesifik olarak, bu yarışmada yarışmacılar, silikon detektörde kalan 3B noktalardan parçacık yörüngelerini hızlı bir şekilde yeniden oluşturabilmesi gereken bir algoritma oluşturmak için bir zorlukla karşılaştı. Bu zorluk iki aşamadan oluşur:

  • Kaggle'da doğruluğu ayarlama aşaması Mayıs 2018'den 13 Ağustos 2018'e kadardır (kazananlar Eylül sonunda açıklanacaktır). Bu aşamada organizatör sadece en yüksek puana dikkat eder ve bu puanı almak için gereken süreyi önemsemez. Bu aşama, resmi bir IEEE WCCI yarışmasıdır (konferans adresi, Temmuz 2018'de düzenlenen Rio de Janeiro'dadır).

  • Üretim aşaması Eylül 2018'de başlayacak ve katılımcılar, yazılımlarını platform tarafından değerlendirilmek üzere gönderecekler. Teşvikler, sistem iyi bir puana ulaştığında değerlendirilen işleme (veya hıza) bağlıdır. Bu aşama resmi bir NIPS yarışmasıdır (konferans adresi Aralık 2018'de düzenlenen Montreal'dedir).

Kaggle yarışmasının resmi sayfası:

https://sites.google.com/site/trackmlparticle/

Doğruluk ayarlama aşaması için gerekli tüm bilgiler resmi sayfadan edinilebilir.

Challenge ikincisi Pei-Lien Chou ile röportaj

Pei-Lien Chou, TrackML parçacık izleme mücadelesinin ikincisi. Bu yarışmaya katılmak için görüntüyle ilgili sorunları çözmek için derin öğrenme yöntemlerinin kullanımını inceleyen bir ekibe liderlik etti. Pei-Lien Chou, video gözetimi alanında 12 yıllık deneyime sahiptir. Ulusal Tayvan Üniversitesi'nden matematik alanında lisans derecesi ve Tayvan, Çin'deki National Tsing Hua Üniversitesi'nden konuşma sinyali işleme alanında yüksek lisans derecesi aldı.

Bu yarışmada, kaggle yarışmacılarından silikon dedektörde kalan 3B noktalardan parçacık yörüngelerini hızla yeniden oluşturabilen bir algoritma oluşturmaları istendi. Bu, bu yarışmanın iki aşamalı mücadelesinin bir parçasıdır. Mayıs'tan 13 Ağustos 2018'e kadar olan doğruluk ayarlama aşamasında, değerlendirme için gereken çalışma süresi dikkate alınmadan yalnızca en yüksek puana odaklanıldı. İkinci aşama resmi NIPS yarışmasıdır.Bu aşama, doğruluk ve algoritma hızı arasındaki dengeye odaklanır.

Yarışma sonuçlarının açıklanmasının ardından Kaggle Ekibi, Leifeng.com tarafından düzenlenen Pei-Lien Chou ile aşağıdaki gibi bir röportaj gerçekleştirdi.

Temel bilgi

Bu yarışmaya katılmadan önce geçmişiniz neydi?

Matematik alanında lisans ve elektronik mühendisliği alanında yüksek lisans derecem var. Geçen yıldan beri görüntü tabanlı derin öğrenmede mühendisim.

Kaggle'da rekabet etmeye nasıl başladınız?

Yaklaşık 1,5 yıl önce, işimde bana çok yardımcı olan derin öğrenme pratiği yapmak için Kaggle'a katıldım. İlk maçta ilk% 1'e girdim ve bir sonraki maçta kazandım. Kaggle yarışmasına katılmak gerçekten heyecan verici.

Bu yarışmaya katılmanız için sizi ne motive etti?

Bu yarışmada bazı nokta bulutu yöntemlerini denememe rağmen ilk başta bu rekabeti görsellere dayalı olmadığı için fark etmedim. Ama organizatörün kara deliği yaratan CERN olduğunu anladığımda hiç tereddüt etmeden katıldım.

İlgili teknoloji

Yönteminiz nedir?

Yaklaşımım basit bir fikirle başladı. Diğer sorunları çözmek için DL kullandığımız gibi, her olayın tüm izlerini (model çıktısını) dedektöre (model girdisi) eşleyebilen bir model oluşturmak istiyorum.

Bir olayda N isabet varsa (genellikle N, 100k civarındadır), çıktı bir NxN matrisi ile kolayca temsil edilebilir. İ ve j aynı iz üzerindeyse, Mij = 1, aksi takdirde 0'dır. Ancak model çok büyük, bu yüzden onu en küçük birime böldüm: iki tıklama girin ve ilişkilerini çıkarın (Şekil 1). Yalnızca bitişik noktaları birbirine bağlayan gerçek bir "bağlantı noktası" oyununun aksine, aynı yola ait tüm noktaları sağlamlık için bağladım. Bu noktada bu yarışmaya katılmaya hazırım.

Bunu nasıl yapıyorsun?

Her şeyden önce, girdi olarak vuruş pozisyonunu (x, y, z) kullanıyorum ve 10 eğitim maddesi sayesinde% 99 doğruluk elde etmek kolaydır. Ancak kısa süre sonra bunun parçayı yeniden inşa etmek için yeterli olmadığını keşfettim. Sorun, hata oranı 0.01 olsa bile, belirli bir isabet için, negatif çiftlerin sayısı 0.01 * 100k = 1000'e ulaşabilirken, gerçek negatif çift sayısı 10 civarındadır (yolun gerçek ortalama uzunluğu). Ancak puan alabilmek için gerçek veriler ile model arasında% 50'den fazla örtüşmeye ihtiyacımız var.

Sonra ne yapacağız?

Bilgisayarımda ilk kez çalıştırmayı denediğimde, o zamanki genel çekirdek ile aynı olan 0,2 puan aldım. Sanırım 0.6 farkla kazanabilirim ve umarım benim yöntemimle yapılabilir. Tanrı bilir!

Nasıl daha iyi tahmin sonuçları elde ettiniz?

Birçok yöntem denedim ve ilerlemem beklentilerimi fazlasıyla aştı.

  • Daha büyük bir model, daha fazla eğitim verisi kullanın.

4k-2k-2k-2k-2k-1k nöronlu 5 gizli katmanlı MLP, toplam 3 set eğitim, 5310 olay, yaklaşık 2,4 milyar pozitif çift ve daha fazla negatif çift vardır.

  • Daha iyi özellikler seçin

Bir çift 27 özellik: x, y, z, sayım (hücre), toplam (hücre.değer), iki birim vektör, eğitim sırasında vuruş yönünü ve rastgele ters çevirmeyi tahmin etmek için kullanılan sinirsel birimden gelir (Şekil 2), Ve iki isabetin doğrusal veya spiral (0, 0, z0) olduğunu varsayarsak, abs (cos) hesaplamak için ilk iki tahmini vektörü ve eğrinin tanjantını kullanın ve sonuncusu z0'dır.

  • Daha iyi negatif örnek

Pozitif çiftlere yakın birden fazla negatif örnek çifti örneklendi (yani odak, modelin benzer pozitif ve negatif örnekleri ayırt etme yeteneğini geliştirmeye odaklanıyor) ve negatif örneklere göre zor olan bazı madencilik yaptım.

Son olarak, 0.97TPR'de, belirli bir isabet için ortalama 80 negatif çift alıyorum ve yalnızca 6 yanlış pozitif çift, ortalama gerçek pozitif çiftten daha büyük bir olasılığa sahip. Ve sadece 6 negatif çift, pozitif çiftlerin ortalamasından daha büyük olasılığa sahiptir.

Yörüngeyi nasıl yeniden inşa ettiniz?

Şimdiye kadar, hatalı bir NxN ilişki matrisim var, ancak hepsini kullanırsam, iyi bir yörünge elde edebilirim.

Yeniden yapılandırma: N parça bulundu

1. Bir etkiyi çekirdek olarak kullanarak (örneğin, i-inci vuruş), en yüksek olasılığa sahip P (i, j) çiftini bulun (bu olasılık eşikten büyüktür) ve ardından j'inci darbeyi yörüngeye ekleyin.

2. Maksimum P (i, k) + P (j, k) değerini bulun.İki olasılık çifti eşikten büyükse, k'inci darbeyi yörüngeye ekleyin.

3. Yeni isabetin x-y düzlemindeki daireyle eşleşip eşleşmediğini test edin Daire, yörüngenin arkasındaki iki veya üç isabetli çemberdir. (Bu cümleyi çok iyi anlamıyorum) (Bu adım olmadan sadece 0,8 puan alabilirim). Yörünge iki veya üç isabet aldıktan sonra, x-y düzleminde mevcut isabetlere göre bir daire oluşturun ve ardından yeni isabetin bu daire içinde olup olmadığına bakın

4. Daireye uyan daha fazla etki kalmayıncaya kadar bir sonraki etkiyi bulun.

5. Döngü adımı 1, tüm n vuruşlar için kullanılır (Şekil 3).

Uzantıyı birleştir

1. Tüm yörüngelerin benzerliğini yörüngelerin kütlesi olarak hesaplayın; bu, tüm çarpmaların (çekirdek olarak) aynı yörüngeye karşılık gelmesi durumunda yörünge birleştirme önceliğinin daha yüksek olacağı anlamına gelir. (Resim 6)

2. Önce yüksek öncelikli yörüngeyi seçin ve ardından yeniden yapılandırma adımındaki kısıtlamaları gevşeterek onu genişletin.

3. Döngü

Diğer işler

Sonunda z ekseni kısıtlamasını ve iki modelin entegrasyonunu ekledim ve 0,003 iyileştirme elde ettim.

Ayrıca tahmin edilen örneklerdeki yörüngeyi bulmak ve izlemeyi iyileştirmek için PointNet'i uygulamaya çalıştım. Her iki yöntem de iyi performans gösterdi, ancak hiçbir şey daha iyi değildi.

Şekil 3: 6 isabetli bir olayı yeniden oluşturma örneği

Şekil 6: Konsolidasyon önceliğinin belirlenmesine bir örnek

Şekil 4: x-y düzlemindeki tohumlar (büyük daireler) ve bunlara karşılık gelen adaylar (eşleşen renkler). Belli ki tohumlar bir yolda.

Şekil 5: Her isabetin çapı, dokuz gerçek isabetin (kırmızı) tahmin edilen olasılıklarının toplamıyla orantılıdır.

İşte bir referans çekirdek:

https://www.kaggle.com/outrunner/trackml-2-solution-example

Bu sürece sonsuz bir döngü diyorum, bu benim orijinal fikrimden çok uzak. Yine de, doğruluk oranım 0,9'u aştığında, yine de çok mutluyum.

Kazanan planın eğitimi ve tahmini için çalışma süresi nedir?

Biliyorsunuz, eğitim verilerimde 5 bin olay var ve yine de zor olumsuz örneklere ihtiyacım var. Her test olayı için 100k * 100k çift tahmin etmem, 100k orbitalleri yeniden oluşturmam (kazanan çözümde aslında 800k +), onları birleştirmem ve 10k orbitallere genişletmem gerekiyor. Yani çalışma süresi astronomiktir. Bu işi bilgisayarda tekrar yapmak birkaç ay sürebilir.

Maçtan sonra düşünceler

DL bu tema için uygun mu?

Bence hedefin iyi tanımlanıp tanımlanamayacağına bağlı. Hedef tanımlanabiliyorsa, kurala dayalı bir yaklaşım daha iyi olmalıdır. Başka bir deyişle, bu tür bir rekabette, kümeleme yöntemini kullanmak 0,8'lik bir doğruluk elde edebilir, bu nedenle bunu yapmak için derin öğrenmeyi kullanmak sadece sorun istemektir. Ama bu yine de ilginç.

Veri bilimine yeni başlayan insanlar için herhangi bir tavsiyeniz var mı?

Henüz Kaggle'a katılmadıysanız, o saniyeyi geciktirmeyin, şimdi katılın!

Kaggle sınıflandırmasını gerçekleştirmek ve ünlülerin yüzlerini tanımak için geçiş öğrenme / veri büyütme yöntemlerinin kullanımı hakkında bilgi edinmek için orijinal metni okumak için tıklayın

Yeni Changan PSA DS 5LS, 168.800 yuan'dan başlayan fiyatlarla satışa sunuluyor
önceki
Bir zamanlar Edison Chen ile "dövüşmek" için bir kadın için, onun "deformasyon ölçer" realite şovundan daha iyidir!
Sonraki
Yu Dong ile röportaj | 150 milyon dolarlık fon, CAA yeni bir baba bulmak için "büyük altı" dan fırlıyor?
Yeni Changan PSA DS 4S 171.900 ila 229.900 arasında satışa sunuldu
TVB yine bir şeyler mi yapıyor? "Önemsiz Dosya" aslında Shidishi'nin böyle bir mikro tiyatroda oynamasını sağlıyor!
Xiaomi'nin birkaç yeni ürünü piyasaya sürüldü ve 100.000'den fazla kitle fonlaması içeren Mijia otomatik telefon çamaşır makinesi resmi olarak piyasaya sürüldü.
2018 Changan PSA DS 6206.900'den satışa sunuluyor
Kanye West bu sefer Yeezy değil! Bu üst marka ...
2 milyon hissenin% 45'i devredilecek, Bilibili Pictures bunu yapmaya neden devam edemiyor?
4D transkript diyaloğu Tom Mitchell: Lisans, şimdiye kadar bir bilgisayar uzmanlığı diploması olmadan, ana dallarını dört kez değiştirdi, ancak "makine öğreniminin vaftiz babası" oldu
Eskiden annesinin borçlarını ödedi ve çöktü, ama şimdi kızı için multimilyoner oldu!
Chongqing altını paylaşıyor | Watson Pharmaceuticals dikkatimizden bu yana% 30 arttı! Chongqing Hong Kong ve Kowloon sağlam kalmaya devam ediyor!
Araba birden alev almıyor mu? Belki elektrik çalıyor
Sektörde 16 yılın ardından kariyerinizin yeniden sıçrama yapması bekleniyor mu? TVB, izledikten sonra film keskin nişancı ödüllerine girdi!
To Top