Özel PHM veri yarışmasının ilk Çin şampiyonası takım deneyimi paylaşımı (ortak model yarışması sorularının ayrıntılı açıklaması

Tsinghua büyük veri "rekabet deneyimi paylaşımı" ders serisi Büyük veri alanındaki önemli etkinliklerde kazanan takımların ve bireylerin katılım geçmişini ve kazanılan deneyimlerini yurtiçi ve yurtdışında paylaşmayı hedefler. Tamamen Çinli yerel veri seçkinlerinden oluşan on yıllık PHM Data Challenge yarışmasının tarihindeki ilk şampiyonluk takımı - Kunlun Data K2 temsilci ekibi Kunlun Data Baş Veri Bilimcisi Tian Chunhua Doktora ve ekip üyesi temsilcileri Liu Jiayang , İki misafir sizinle paylaştı Endüstriyel büyük veri analizinin mekanizma modeli ve istatistiksel öğrenme modeli organik olarak nasıl entegre edilir ve 2017 PHM Data Challenge'ın ayrıntılı açıklaması.

Sonraki olay önizlemesi: 29 Kasım'da davet ettik CIKM AnalytiCup 2017 yarı finallerinde, Tsinghua Üniversitesi'nden Marmot ekibi, "radar görüntülerine dayalı gelecekteki yağışları tahmin etme" modeliyle mutlak bir avantajla birinci oldu. ( Yao Yichen, Li Zhongjie ), Yapacaklar İzleyici ile rekabete giriş, algoritma mimarisi, model eğitimi vb. Konularda detaylı paylaşım ve yorum. Etkinlik ayrıntılarını öğrenmek ve kaydolmak için şu bağlantıyı açın: Kaydol | CIKM AnalytiCup 2017 - gelecekteki yağış katılımı deneyimi paylaşımının radar görüntüsü tahminine dayalı.

Aşağıdaki içerik THU tarafından derlenmiştir:

Tian Chunhua, Baş Veri Bilimcisi, Kunlun Data

1. Endüstriyel büyük veri geçmişi bilgisi ve rekabet geçmişi

Tian Chunhua: Rekabet, araştırma ve iletişimi teşvik eden bir mekanizmadır ve her yarışmanın farklı odak noktaları vardır. KDD-CUP yarışmasında, sorular nispeten yaygındır ve katılımcılar için eşik düşüktür, bu nedenle çok sayıda takım katılacak ve sondaki en iyiler temelde iki veya üç ondalık basamaktır. PHM, endüstriyel sektöre odaklanır ve genel olarak görece spesifik bir sorunu tanımlar ve katılımcıların ilgili endüstri mekanizmasını anlamaları gerekir.

2008'den günümüze, PHM'nin sorunları temelde endüstrideki bazı temel bileşenlere odaklandı. Geçen yıl söz konusu olan yarı iletken ürünlerin üretim sürecinde gofretlerin kimyasal ve mekanik düzlemselleştirilmesi gibi bazı atölyelerde ekipman arıza teşhisi dahil olmak üzere havacılık türbin motorları, dişli kutuları, işleme merkezi aletleri, rüzgar ölçüm kapları ve rüzgar enerjisi kulelerindeki yataklar gibi Anormal sınıflandırma, bu yılın başlığında raylı taşıt amortisör (süspansiyon) sisteminin arıza teşhisini de içerir.

Bu yarışma, özellikle ekipman arıza teşhisi ve üst düzey ekipman üretimi olmak üzere endüstriye odaklanmaktadır. Geçmişteki yarışmacılar temelde iki gruba ayrılmıştır: Bir grup, Maryland Üniversitesi, Cincinnati Üniversitesi vb. Dahil olmak üzere kolejler ve üniversitelerdir. Son yıllarda, Seul Ulusal Üniversitesi olağanüstü bir performans sergiledi ve bu yıl da üçüncü oldu. Buna ek olarak, Rock Martin, NASA, vb. Gibi birçok askeri sanayi şirketinin yanı sıra SAS ve yazılım araştırma ve geliştirmeye adanmış diğer şirketler var. Genel olarak, PHM etkinliğine katılanların yarısı temelde üniversitelerden ve yarısı sektörden.

Bu olaya neden dikkat ediyoruz? Bu, ulusal endüstriyel üretim 2025 hedefi ile ilgilidir. Made in China 2025'te, üst düzey ekipman üretim endüstrisi önemli bir rol oynamaktadır. Bir ülkenin imalat endüstrisinin güçlü olup olmadığı, ağırlıklı olarak hassas makine aletleri, denizcilik ekipmanları, demiryolu taşımacılığı, havacılık uyduları, havacılık uçakları vb. Dahil olmak üzere ileri teknoloji ekipman imalat endüstrisine yansır, Kunlun ve diğer arkadaşlar her zaman bu sektöre dikkat ediyor ve yardım ediyor. geliştirilmesi.

Bu rekabete dikkat etmenin bir diğer amacı da genç veri analizi ekibimizi çalıştırmak ve sektördeki rekabetteki herkesle bazı tartışmalar ve paylaşımlar yapmalarına izin vermektir. Deneyimlerden, endüstriyel büyük veri analizi üç ana problem türünü çözebilir. İlk kategori, aşağıdaki sorun kategorilerine ayrılabilen üst düzey ekipman ve imalat endüstrisinden gelir: kalan ömür, makinenin ne kadar dayanabileceği ve bakım için ne kadar süreceği; arıza uyarısı, arızadan önce erken tespit Ve ekipman anormallik tespiti de dahil olmak üzere erken uyarı; arıza teşhisi, ekipman anormalliklerinin yerini belirleme; operasyon araştırmasının bazı optimizasyon yöntemleri gibi veri analizi yoluyla operasyon ve bakım optimizasyonu, işi gerçekten gönderirken operasyon ve bakım verimliliğini artırır.

Atölye içerisinde üretim verimliliğini ve üretim kalitesini artırmayı umuyoruz. Tıpkı kimya endüstrisinde olduğu gibi, veri analizi yoluyla etkin gaz çıkış oranını nasıl artırabiliriz ve parametre optimizasyonu yoluyla tüm sistemin çalışma verimliliğini nasıl iyileştirebiliriz.

Üçüncü parça, hükümetin sözleriyle İnternet + olan endüstriyel İnternet'tir. Endüstriyel İnternet de dahil olmak üzere İnternet kavramı, iş süreçlerindeki değişiklikleri içeren bir iş modeli dönüşümüdür, veri analizi ise arkasında destekleyici bir rol oynar. Buradaki veriler, arıza teşhisi ve operasyon optimizasyonunda olduğu için baskın bir rol oynamaz. Esas olarak yardımcı bir rol oynar. Yeni enerji üretimini ve tüketimini daha iyi tahmin etmek ve programlama optimizasyonunu daha iyi gerçekleştirmek için enerji İnternetinde yardımcı olur. .

Aşağıdakiler bazı özel durumlardır:

İlk vaka, bu yılki Çin Endüstriyel Büyük Veri Yarışması-Dişli Kayışı Kırılmasının Erken Uyarısı'nın konusu olan rüzgar enerjisinden geliyor. Dişli kayış, fanın üç kanadına bağlanır.Rüzgâr kuvvetli olduğunda kanatlar tamamen rüzgara karşı gelemez, aksi takdirde jeneratörün nominal gücü aşılır ve jeneratör veya hat yanar, bu nedenle değiştirilmesi gerekir. Hamuru değiştirme işlemi, dişli kayışını tahrik eden ve ardından bıçakları tahrik eden transmisyon motoru ile tamamlanır.Dişli kayışının kırılması durumunda bıçaklar serbestçe hareket ederek kulenin yanmasına ve ikincil felaketlere neden olabilir. Bu nedenle rüzgar türbini üreticileri ve sahipleri, dişli kayış kırılmadan önce erken uyarı sağlayıp sağlayamayacakları konusunda çok endişelidirler.

Dişli kayışının hasar görmesinin temel nedeni kauçuğun yorulması veya eskimesidir. Bunu mekanik yorgunluk prensibine dayanan kalan bir ömür sorunu olarak düşünebiliriz Maalesef ülkedeki bir rüzgar türbini üreticisinin ürettiği yaklaşık 20.000 rüzgar türbini arasında bir yıl içinde büyük sorun yaşayan rüzgar türbinleri sadece tek bir tane olabilir. Aynı zamanda, her rüzgar türbininin baştan sona veri alması imkansızdır, bu nedenle tüm yaşam döngüsünün verilerini yapmak imkansızdır.

Dikkate alınacak bir diğer husus da semptomlara bakıp bakamayacağınızdır Dişli kayış kırılmadan önce, genellikle bir gevşeklik olgusu olacaktır Bu fenomene dayanarak bir ölçüde kırılma riski olup olmadığını tahmin edebiliriz. Ancak bu süreçte çok karmaşık durumlar vardır: rüzgar ve kontrol mantığı rüzgar türbininin en önemli etkileyen faktörleridir ve rüzgar dışsal bir değişkendir. Dışsal değişken en önemli faktör olduğunda nasıl bir yargıya varılır? Belirli bir göstergenin çok büyük olduğunu söylemek bir anormalliktir. Yüksek endeks, yüksek rüzgar hızından kaynaklanıyor olabilir veya zayıf kontrol mantığından kaynaklanıyor olabilir, bu nedenle bazı erken uyarılar yapmak için çeşitli çalışma koşullarını ayrı ayrı ele almalıyız.

Bu durumda nihayet üç gün önceden erken uyarı aldık. Sunulan eğride, yatay eksen zamandır ve dikey eksen risktir. Teorik olarak, risk yükseldikten sonra nispeten istikrarlı bir yüksek risk eğilimi olmalıdır, ancak gerçek eğri yine de kısmen düşecektir, çünkü rüzgar küçük olduğunda dişli kayış neredeyse hiç çalışmaz. Ön ve arka düzeltmenin etkisi dikkate alınsa da, yine de ayırt edemiyoruz çünkü bu değişiklik diğer bazı faktörlerin etkisini de içeriyor. Bir proje üzerinde gerçekten çalışırken, pozitif ve negatif örnekler arasında ciddi bir dengesizlik vardır. Ne kadar dengesiz? Üç ila beş yıldır on binlerce rüzgar türbini biriktirildi ve bunlara karşılık gelen sorun verilerini ancak 10'dan azı bulabilir. Dolayısıyla, sektörde gördüğümüz veri miktarı çok büyük olsa da, gerçekte veri madenciliği yaparken pek çok yararlı pozitif örnek yoktur. Büyük miktarda normal veri, pozitif ve negatif örnekler arasında ciddi bir dengesizliğe neden olmuştur, bu da yanlış uyarıların varlığını bile içerir.

İkincisi, petrol sahasındaki bir örnektir. Çözmek istediğimiz sorun şu: bir petrol boru hattı yer altına gömülmüş Bu boru hattının ortasında bir petrol sızıntısı meydana gelirse bunu zamanında tespit edebilir miyiz? Doğalgaz boru hattı ise sızıntı patlamaya bile neden olabilir, şu anda zamanında tespit edip yerini belirleyebilir miyiz? Bu sorunu çözmenin bir yolu, negatif basınç dalgaları prensibini uygulamaktır.Elbette, optik fiberleri veya diğer yöntemleri de kullanabiliriz. O zamanlar, Güney Koreli petrol operatörleri, sensörler zaten yerleştirildiği için ek sensörler kurmak istemediler ve optik fiberleri döşemek için hendek kazmak imkansızdı. Negatif basınç dalgaları prensibini kullanarak sadece mevcut basınç sensörlerini kaçak tespiti için kullanabilirdik.

Negatif basınç dalgasının prensibi, bir sızıntı meydana geldiğinde, anlık bir basınç düşüşü olacağıdır Bu basınç düşüşü meydana geldiğinde, negatif bir basınç dalgası (enine bir dalga) oluşur ve saniyede yaklaşık 1,2 kilometre hızla her iki uca yayılır. İki sensör arasındaki mesafe 10 kilometreden fazlaysa, on saniyeden fazla bir sürede aktarılacaktır. Sızıntı noktası iki sensör arasında değilse, iki sensörün ölçülen değerleri arasında nispeten sabit bir zaman farkı olacaktır, çünkü yayılma hızı aynı havacılık gazyağı gibi aynı ortamda nispeten sabittir. Bu nedenle, sızıntının yerini hesaplamak için sensörler arasındaki basınç düşüşü tepkisinin zaman aralığını bilmemiz yeterlidir.

Tabii bu sorunun da iki zorluğu var. Biri konumlandırma doğruluğu. Aslında elde ettiğimiz şey bazı orijinal sinyal verileridir. Sinyali aldığımızda, önce onu filtrelemeliyiz. Filtre çok güçlüyse, konumlandırma doğruluğunu kaybedeceğiz; filtre çok hafifse, yanlış bilgiler içinde karışacaktır. Daha. Uygun filtre frekansı nedir? Konumlandırmadaki gereksinimlere göre, bir destek ortamının frekansı 0,4 Hz ise, filtreyi 0,8 Hz olarak ayarlıyoruz. Daha sonra, bu nokta doğru bulunduğu sürece, doğrusal filtre kullanmanın etkisinin çok iyi olacağını ve dalgacıkların karşılaştırılmasının benzer olacağını buldum. Tarla kullanım durumu dikkate alınarak, sonunda lineer bir filtre kullanıldı. Sektörde ana çelişki kavrandığı sürece algoritmanın doğruluğu fena olmayacak.

İkincisi, üstesinden gelinmesi daha zor olan problem yanlış uyarılardır. Negatif basınç dalgası kullanmanın bir dezavantajı, dağıtım basıncından etkilenmesidir Dizel, benzin ve uçak yakıtının dağıtım basıncı bu koşullar altında farklıdır ve bu tür yağların bazıları kabarcıklar içerir. Basınç dalgalanmasını etkileyecektir ve bu dalgalanmanın kendisi normaldir. Ek olarak, bazen tank devrilme olacaktır.Bir tank dolduğunda, boş bir tanka geçtikten sonra basınçta anlık bir düşüş olacaktır.Normal çalışma koşullarında böyle bir değişiklik, sızıntının neden olduğundan çok daha büyük bir basınç düşüşüne neden olacaktır. Basınç önemli ölçüde düşer ve bu da çok rahatsız edici bir duruma neden olur - her gün alarma. Yerinde personel tarafından böyle bir sistem kullanılıyorsa, kesinlikle kimse onu kullanmaya cesaret edemez.

Bu proje için harcadığımız en büyük çaba, yanlış uyarıyı nasıl kıracağımızdır.Bir yol, daha fazla sensör kurmaktır, çünkü ışık sinyaline ve basınç sinyaline aynı anda müdahale etme olasılığı çok düşüktür, bu nedenle bir anda çözülebilir, ancak bu şekilde Müşteriler için kabul edilemez. Peki veri analizi ile başka ne yapabiliriz? Aslında, farklı nedenlerden kaynaklanan basınç düşüşünün sinyal şekli biraz farklı olacaktır.Örüntü madenciliği ve eşleştirme ile yanlış uyarılar bir ölçüde azaltılabilir. Gerçek veri analizinde, modelin gerçekten kullanılabilir olmasını istiyorsak, bizim için sert olan genellikle bu algılama algoritmaları, tahmin algoritmaları ve hata madenciliği algoritmaları değil, yanlış uyarıları nasıl filtreleyeceğimizdir ve bazı sinyal verileri mevcut değilse, Esnek bir şekilde çözülüp çözülmeyeceği.

Bir veri analizi problemini çözmenin genellikle iki yolu vardır; biri tamamen veriye dayalı bir yoldur, diğeri veri ve mekanizmayı eşleştirmenin bir yoludur ve sektörde esas olarak kullandığımız şey ikinci düşünme biçimidir.

Genellikle, örnekler yeterince büyükse ve yeterince eksiksizse, verileri önce derin öğrenmeye atabiliriz, temel olarak ondan bir kesinlik alabilir ve ardından özellikleri daha fazla keşif için işleyebiliriz. Çünkü problem veri örneklem büyüklüğü göreceli olarak büyük ve tanımlaması daha kolay ise derin öğrenme yöntemi görece basittir ve modele getirilerek sonuç elde edilecek ve aynı zamanda görece hızlı bir sonuç elde edilecektir.

Kömür kimya endüstrisinde bir örnek verin. Metan veya diğer endüstriyel olarak etkili gazları üretmek için karbon monoksit ve hidrojen üretmek üzere gazlaştırıcıyı yüksek sıcaklıkta başlatmak için oksijen ve kömür külü (veya kömür bulamacı) koyduk. Hammadde olarak (yakıt değil) kömürü kullanan hemen hemen tüm kimya endüstrileri, ön işlem olarak böyle bir gazlaştırma işlemine ihtiyaç duyar. Daha sonra gazlaştırma işleminin işlem parametrelerinin optimizasyonu çok hevesli bir araştırma yönü haline geldi.

Gazlaştırma işlemi, bazı kimyasal reaksiyon denklemlerini içeren termodinamik denklemler gibi bir mekanizmaya sahiptir. Peki pratikte kullanılamayan bir mekanizma neden var? Bu mekanizma bir yandan çok basitleştirildiği için ve hatta basitleştirmeden sonra bile, içindeki bazı katsayılar gerçekte çok çok nadirdir. Bu nedenle, hiçbir şirket kimya endüstrisini kontrol etmek için mekanizma kullanmaya istekli olmamıştır. Bu tür veri madenciliği problemlerinde, süreci yalnızca bir kara kutu olarak ele alabiliriz, ancak önemli faktörleri mekanizma yoluyla, girdi ve çıktı yoluyla, derin öğrenme yoluyla, bazı model madenciliği yoluyla sıralayacağız ve bazı bilgileri özetleyeceğiz. Daha sonra bu yöntemin efektif gaz üretim oranını yaklaşık% 1,4 veya% 2 artırabileceği kanıtlandı. % 1.4 ne anlama geliyor? Bu, bir kömür kimya şirketinin yıllık kârının neredeyse% 10'u, hatta% 20'si.

Biyoloji alanına gelince, bu daha da zahmetlidir.Sadece bu bakterilerin filamentlere mi yoksa taçyapraklara mı dönüşeceğini biliyoruz.Şimdi xx sıcaklık ve xx nem koşulları altında anaerobik veya aerobik reaksiyonlar yapıp yapmamayı araştırmamız gerekiyor. Veri analizi yaptığımızda, en önemli şey birkaç faktörü, hangi faktörlerin kontrol edilebilir faktörler olduğunu ve hangi faktörlerin eksojen değişkenler olduğunu (yani, bu değişkenler cevabı büyük ölçüde etkileyecektir, ancak kontrol edilemez) ayırmaktır. Ana faktörler temelde ölçülebilirse ve doğruluk kabul edilebilirse, sorun çözülebilir. Bir sektörün verilerine dokunmadan önce etkili ya da tamamen çözülemeyeceğini söylemek zor ama yapmazsak sınırın ne olduğunu asla bilemeyeceğiz. Yani yapabileceğimiz tek şey, veri keşfi ve mekanizmayı anlama yoluyla ana değişkenleri kavramak ve ayırmaktır.

Günümüzde geleneksel veri madenciliği genellikle satış analizi, müşteri profili veya bazı belirleyici problemler gibi iş alanında yoğunlaşmaktadır. İşte iş makinesi üreticilerinin karşılaştığı bir sorun olan yedek parça talep tahminine bir örnek. Üreticilerin hizmet kalitesini arttırmak için çeşitli yerlerde stokları olacak, şu anda bölge şubeleri aktif olarak malları basacaklar, ne kadar çok baskılarlarsa o kadar iyi olacak, zaten tükenmezlerse size iade edilecekler. Bir inşaat makinesi üreticisinin işletme merkezi, her bir bölge şubesinin satış hacmini önümüzdeki ay veya on gün içinde doğru bir şekilde tahmin edip edemeyeceği, 1,5 ile çarpılan bir katsayı bırakıp bırakmayacağı ve ardından yıl içindeki bölge şubesinin envanterini değerlendirip değerlendiremeyeceği konusunda endişelidir. , Ona en uygun miktarı verebilirsin, o daha fazla uygulasa bile, bunu onaylamayabilirim.

Aslında endüstriyel bir problemi incelerken önemli olan, vakaların% 80'inde modelin kullanımını kolaylaştırmak değil, modelimizin hangi koşullarda kullanılamayacağını anlamaktır? Bu problemde pek çok etkileyen faktör vardır. Bahar Bayramı faktörleriyle nasıl başa çıkılacağı gibi tatillerin etkisi gerçekçi bir sorundur. Başa çıkması daha zor olan, kargo basıncı gibi bazı bilinmeyen durumlardır. Bu faktörlerin tüm etkilerini filtreleyemeyiz, ancak bunları tutarsak etkileneceğiz. Ve bu durum normal bir olay olarak kabul edilirse, bir sonraki tahminde öngörüyü artıracağız, şu anda algoritmamızın değerdeki küçük dalgalanmalardan dolayı kontrol edilemez hale gelmemesi gerekiyor.

Daha zor olan bir diğer problem ise, tahminin ilerlemesinin nasıl iyileştirileceğidir.Birçok tahmin algoritması geçmiş eğilimlere dayalı tahminler yapar, ancak bazen tarihsel verilerde belirgin eğilimler göstermezler. Elbette, algoritmada uyarlanabilir bir süreç olmalı, ancak soru aynı zamanda biraz daha erken olup olamayacağı ve önceki zaman noktasının göreceli olarak doğru bir şekilde ayarlanabilmesi için iki veya üç ay olmamalı, bu tahmin için önemlidir. Artık büyük değil.

Ek olarak, birçok sorun müşteri tarafından değil, her iki tarafça tanımlanır.Örneğin, konteynerin varış tahmini, neyin tahmin edildiği ve hangi granülerliğin tahmin edildiği, her iki tarafın da tartışabileceği konulardır. Birbirini izleyen her bir varış turunun hacmini tahmin edebilirsek, temelde tersane düzenlemesini optimize edebiliriz (hangi gemiler birlikte ve nasıl düzenlenir). Bu, yuvarlak kargo hacmi tahmininin doğruluğuna bağlıdır.% 90 elde edilebilirse, tersane optimizasyonu yapılabilir,% 80 elde edilebilirse, insanlar sadece yapılabiliyorsa, sahayı düzenlemeye yönlendirilebilir. % 60 ise, bu yöntemin dikkate alınmasına gerek yoktur, çünkü temelde fiili operasyonda mevcut değildir.

Gerçekte, iş analizi yapmak bazen çok basittir, ana çelişki kavrandığı ve ilaç tedavi edildiği sürece, bazen çok zahmetlidir.İş senaryosuna hedeflenmeli ve aynı zamanda tanecikliği hedeflemelidir. Mevcut endüstriyel büyük veri her yönden ilerliyor ve gelişiyor, ancak durum herkesin düşündüğü kadar ideal değil. Çoğu durumda, büyük veri teknolojisi de ticari şirketler tarafından fazlasıyla lanse edildi ve bu da herkesin beklentilerini çok yüksek ve gerçekçi hale getirdi.

Şimdi iç geliştirme araçlarımızdan birini gösteriyoruz.Bu araç sayesinde, geçmişte yaptığımız bazı vakalar biriktirilebilir ve herkes benzer sorunlarla karşılaştığında hızlı bir şekilde nispeten yüksek bir başlangıç noktasına sahip olabilir. Ar-Ge yinelemelerinin nasıl oluşturulacağı, gerçek gözlemsel veriler aracılığıyla Ar-Ge'ye nasıl rehberlik edileceği, gerçek verilerde Ar-Ge sonuçlarının nasıl doğrulanacağı, sonraki yüksek kaliteli ekipmanların çalıştırılması, bakımı ve planlanması, ürün kalitesi dahil olmak üzere gelecekteki bazı endüstriyel iyileştirmeler vb. Dahil. Bekle.

Endüstriyel büyük veri yapmak için bir yandan anlamak, ikincisi veri analizini uygun bir konuma koymaktır.Tüm sorunlar veri analizi için uygun değildir.Pozisyon çok düşük, sorunu çözemiyoruz ve konum çok yüksek. Doğruluk yüksek olmasına rağmen, iş değeri gitti.

2. PHM problem çözme süreci ve fikirleri

Konuşmacı: Kunlun Data K2 ekibinin bir üyesi olan Liu Jiayang.

İyi: sezgisel matematiksel modelleme, yöneylem araştırması optimizasyonu, makine öğrenimi algoritmaları, R dili programlama

Şu anda Kunlun'da Data sorumlu: endüstriyel büyük veri platformu analiz algoritması kütüphanesi ve paralel analiz çerçevesi geliştirme, (operasyon araştırması) optimizasyon analizi projesi.

Soru arka planı:

Raylı taşıt üç katmana bölünmüştür, birinci katman dört tekerlek takımı, ikinci katman iki boji ve üçüncü katman araba gövdesidir. Raylı taşıtların süspansiyon sistemi iki seviyeye ayrılmıştır.Tekerlek takımı ile boji arasındakine helezon yaylar ve sönümlemeden oluşan birincil süspansiyon sistemi, boji ile araba gövdesi arasındakine ise hava yaylarından oluşan ikincil süspansiyon sistemi denir. Ve sönümleme bileşimi. Tüm sistemde farklı noktalara toplam 18 titreşim sensörü yerleştirilmiştir. Aşağıdaki içerikte, bir çift yaylı amortisörün bulunduğu yere konum adı veriyoruz ve tüm sistemde 12 konum var; bir sönümleme veya yay bir bileşen olarak adlandırılıyor ve tüm sistemde toplam 22 parça var (not: her boji Yukarıda sadece bir hava yayı vardır).

Yarışma konusu:

Organizatör sırayla üç veri seti verdi: eğitim, test ve doğrulama. Buradaki veri kümesinin adı, genellikle veri madenciliği yaptığımızda veri kümesinin adının sırasından tersine çevrilir, ancak konuyu anlamamızı etkilemez.

Eğitim veri setinde 200 deneyin veri kayıtları bulunmaktadır. Her deney, farklı araçlar (1-200), farklı izler (yol1 / yol2) ve farklı hızlar (0.71 / 0.79 / 0.87 / 0.94 / 1.02 / 1.1 / 1.18 / 1.26) ve farklı yükler (sürekli değerler) koşullarında gerçekleştirildi. Bir deney için, verileri 388 veya 216 kayıt içerir (kayıtların sayısının iz uzunluğuna bağlı olduğu düşünülebilir). Her kayıt, karşılık gelen izleme aralığında (iz 388/216 hücreye bölünmüştür) frekans alanı dönüşümünden sonra her bir sensör tarafından 5 frekans bandında kaydedilen titreşim zaman serisinin değerine karşılık gelir. 18 * 5 = 90 orijinal özellik vardır. Bu nedenle eğitim veri setinde 388 * 90 veya 216 * 90 özellikli 200 tabloya sahibiz. Her tablo için (her deney, her araç) "sağlıklı" / "sağlıksız" bir etiket alacağız.

Test veri seti için, 200 deneyden de veriye sahibiz.Her bir deneyin hızını ve yükünü ve 50 sürekli izleme verisi kaydını bilebiliriz, ancak 50 kaydın hangi izden geldiğini bilemeyiz. Bir paragraf. Tamamlamamız gereken zorluk, her bir deneyin çalışma durumunu (sağlıklı veya sağlıksız) değerlendirmek ve sağlıksız ise hatalı parçaları yargılamaktır (1-2). Sonuçlar günde bir kez sunulabilir.

Nihai model doğruluğu, modelimizin doğrulama veri seti üzerindeki deneysel değerlendirmesinden hesaplanacaktır (teste benzer, ancak toplamda yalnızca 3 sonuç gönderilebilir).

Zorluk:

1. Dışsal değişkenlerin etkisi: Yörünge, hız ve yükteki farklılık nedeniyle, her deney farklı bir popülasyondan geliyormuş gibi düşünülebilir ve deneyler arasındaki karşılaştırılabilirlik zayıftır.

2. Sensörün kaydettiği dinamik bir süreçtir. Genel veri madenciliği problemleri için, her örneğin her özellik için yalnızca bir değeri vardır ve her özellik üzerindeki değeri bir kayıt oluşturur. Ancak bu problemdeki her bir örnek, birden çok özelliği ve birden çok kaydı (dizileri) içeren iki boyutlu bir tabloya karşılık gelir. Bu tür sorunlarla karşılaştığımızda genellikle onlarla nasıl başa çıkıyoruz?

  • Kayıtlar arasında belirgin bir zaman eğilimi yoksa (aynı popülasyondan geliyormuş gibi düşünülebilir), o zaman istatistikler, orijinal diziyi değiştirmek için doğrudan sıra üzerinde hesaplanabilir.

  • Kayıtlar arasında bariz bir zaman eğilimi varsa ancak bu zaman eğilimi bizim için yararlı değilse, o zaman önce zaman eğilimini ayrıştırıp ortadan kaldırabilir ve ardından orijinal diziyi değiştirmek için istatistikleri hesaplayabilir veya doğrudan dikey diziyi dönüştürebiliriz. Kayıtlar genişletilir ve daha fazla özelliğe eklenir ve tek bir kayda genişletilir (yaygın olarak kullanılmaz).

  • Üçüncü durum, bariz bir zaman eğilimi olması ve faydalı olmasıdır.Sonra önce zaman eğilimini çıkarabiliriz ve daha sonra aynı işlemleri veri seti üzerinde zaman eğilimi olmadan yapabiliriz (genişletme, ...) ve son olarak bazı zaman eğilimlerini ayrı ayrı yapabiliriz uğraşmak.

    Bu soruda, yukarıdaki yöntemi kullanmadık, ancak özellikler arasındaki oran aracılığıyla yeni bir zayıf zaman eğilimi (yol içindeki düzensizlik dereceleri burada zaman eğilimidir) özelliği oluşturmak için transfer fonksiyonu ilkesini uyguladık. Son olarak veriler, istatistikler oluşturularak basitleştirilir.

3. Süspansiyon sistemi içinde güçlü bağlantı. Her bir sensör yalnızca tek bir konumun veya bileşenin durumunu yansıtmaz ve aynı konum veya bileşen yalnızca tek bir sensörün gözlemini etkilemez.

4. Örnek aşırı derecede dengesizdir. Eğitim veri setindeki deneylerin tamamı sağlıklı, yani bunu yapmak için yalnızca Tek Sınıf (anormallik algılama) yöntemini kullanabiliriz.

Çözümler:

1. Test veya doğrulama veri kümesindeki bir deney için, izleme ve başlangıç ve bitiş konumlarını bilmiyoruz. Verilerimiz, iz düzensizliğinin derecesinden etkilenecektir, bu nedenle ilk önce benzerliğe dayalı izleme konumu eşleştirmesi gerçekleştiririz.

  • "Tekerlek seti sensörü tarafından kaydedilen verilerin iz düzensizliğinin derecesini doğrudan yansıtabileceği" varsayımına dayanan bir test veya doğrulama deneyi için, benzerliğe dayalı olarak iz konumunu eşleştirmek için orijinal verileri kullanırız.

  • Deneyin bulunduğu parkuru ve başlangıç ve bitiş konumlarını, deneyin hız koşulları ile birlikte değerlendirdikten sonra (sadece 8 hız, eğitim örnekleri her hızda daha eşit olarak dağıtılır), bu deney için bir eğitim verisi kesmek için eğitim veri setine gidebiliriz. Ayarlamak.

2. Daha sonra anormallik tespit sürecine giriyoruz.

  • İlk olarak, fiziksel modelin analizine dayanarak benzerlik ve korelasyona dayalı bir dizi özellik (31) oluşturduk.

  • Bundan sonra, ilgili eğitim veri setindeki sağlık deneyine göre deneyin istatistiksel sapmasını değerlendirerek deneyin hatalı bir durumda olup olmadığına karar veriyoruz.

3. Anormallik tespiti adımı bittikten sonra arıza tespit sürecini başlatırız.

  • İlk olarak, fiziksel modelin analizine dayanarak, özellikler ve konumlar arasındaki ilişkiyi kurarız.

  • Daha sonra ortak bir karar modeli oluşturmak için bu yazışmayı kullanın ve dahili hiperparametreleri optimize etmek için stokastik simülasyonu (Monte Carlo Yöntemi) kullanın.

  • Anormallik tespitinde hatalardan şüphelenilen deneylerde, en yüksek hata riskine sahip iki konumu bulmak için ortak karar modelini kullanırız.

  • Bundan sonra, seçtiğimiz arıza yerinin gerçekten hatalı olup olmadığını incelemek için daha uygun başka bir kriter kullanırız (yanlış uyarıları ortadan kaldırmak için).

4. Nihai arıza deneyini ve arıza yerini elde ettikten sonra, arıza konumundaki arızanın "yay arızası", "sönümleme arızası" veya "tüm arıza" kaynaklı olup olmadığını belirlemek için fiziksel model analizi (transfer fonksiyonu) kullanırız.

Yarışma sonunda test veri setinde 0.885 doğruluk ve 0.5393 hassasiyet elde ettik. Model, doğrulama veri setine uygulandığında, modelin genelleme yeteneğinin çok güçlü olduğunu, doğrulukta 0,825'e, hassasiyette 0,525'e ulaştığını gördük.

Sonuç ve deneyim:

1 soru: Bu soru yalnızca katı cisim dinamiği mekanizmasını içerir ve kimyayı veya hatta daha karmaşık mekanizma bilgisini içermez, bu nedenle bu konu endüstride nispeten basittir.

2. Mekanizma: Artık dükkanlar da otomatik arama ve işleme özellikleri için algoritmalar araştırıyor ve geliştiriyor, ancak karmaşık mekanizmalar altındaki öğrenme özelliklerinin zaman maliyeti son derece yüksek ve öğrenilemeyecekleri çok muhtemeldir.Öğrenmiş olsalar bile, mekanizma ile birlikte açıklanmaları gerekir. Dolayısıyla, bazı ilgili mekanizma bilgilerini önceden anlayabilirsek, etkili özellikleri hedefli bir şekilde kavrayabilir ve kendi sektör deneyimimizi biriktirebiliriz.

3. Yöntem: Her tür araç süspansiyon sistemi, bu tür dahili güçlü bağlantı dahil olmak üzere belirli benzerliklere sahip olduğundan, yöntemimiz benzer senaryolar için iyi bir fikir sağlayabilir.

4. Sonuçlar: Ekibimiz otomasyon, matematik, istatistik, bilgisayar gibi farklı alanlardan üyelere sahiptir.Herkes birbirinin güçlü yönlerini tamamlayabilir ve daha kapsamlı ve yenilikçi modeller oluşturabilir.

Sahne arkası cevap anahtar kelimeleri "1114" , İki hoparlör indirin Tam sürüm PPT .

UEFA Şampiyonlar Ligi = yüz dövüş sahnesi! Ronaldo, Simeone'nin kutlama eylemini kopyaladı, Manchester United haini çok sefil!
önceki
Dağ sıçanları gerçekten güneş terimlerini tahmin ediyor mu? Lütfen "Groundhog Day" in kökenine bakın
Sonraki
[Bir Haftada Finansman Gönderimi]: 5 ortak ücretlendirme finansmanı vakası, savaş başlamak üzere
Hareketli! Ronaldo'nun mucizevi bir dönüş yarattığı gece, Georgina kenarda gözyaşlarına boğuldu!
Fırça övgü, hapse mi giriyorsun? İtalya, dünyanın ilk yanlış çevrimiçi yorum davasına karar verdi
Teknoloji devlerinin 2016 yılı: Görünüşe göre Samsung en kötüsü
Reform Öncü Karakter Hikayesi 21: "90'larda Jiao Yulu" Kong Fansen
Çaylaktan en iyi uzman tanıtım kılavuzuna kadar özel Büyük veri yapay zeka alanı
34 yaşındaki Cristiano Ronaldo, binlerce insanı ibadet etmeye çekiyor! Kız arkadaşı gözyaşlarına boğuldu, oğlu kollarını kaldırdı ve bağırdı
Birinci Dünya Savaşında Yüzyıllık Zafer Çince çeviri Hua Gong: her zaman düşmanın silahlarını görmezden gelin ve sakince hareket edin
Wuhan emlak piyasasındaki son gelişmeler! Üç tanınmış aracı birleşti, ev satın almak için yeni seçenekler olacak Günaydın Wuhan
Özel Derin öğrenmeyi anlamak için bir makale (öğrenme kaynakları ile)
Geçen hafta sonu, Chengdu alışveriş merkezindeki ilk Noel ağacı aydınlandı
Bir sonraki Sancho? 18 yaşındaki Manchester City dehası, eski kulübüyle yüzleşmek için Şampiyonlar Ligi'ni dört gözle bekleyerek Schalke'ye taşındı!
To Top