Yeteneklerin ve akademinin zaten rezervleri var Çin veri rekabeti çağı mı geldi?

RMS Titanic'in 1912'de batması muhtemelen tarihteki en ünlü gemi felaketidir, ancak makine öğrenimi ve veri madenciliği alanındaki öğrenciler için Titanic'in gemi felaketinin başka bir aşinalığı vardır. Kaggle veri yarışması platformunda bir kamu refahı giriş yarışması sorusudur.Katılımcıların adı, cinsiyeti, yaşı, bilet numarası, gemi ücreti, pozisyonu, hareket limanı, ebeveynleri ve çocukları ve kardeşlerin eşlerinin sayısı ile 892 yolcunun verilerini iletmeleri gerekmektedir. Hayatta kalan yolcuların olasılığını analiz etmek için makine öğrenimi araçlarını kullanın.

Veriler 2012'de çevrimiçi hale geldiğinden beri, 6.080 ekip bu testi 4 yıldan fazla bir süredir denedi.Makine öğrenimi ve veri madenciliği alanında, bu şüphesiz hatırı sayılır bir sayı.

Kaggle, 2010 yılında kurulmuş, uluslararası üne sahip bir veri modelleme ve veri analizi rekabet platformudur. Benzer şekilde, yaklaşık 20 yıllık bir geçmişe sahip en önemli veri madenciliği etkinliği olan KDD-CUP var. Veri madenciliği ve makine öğrenimi alanında, okullardaki büyük ölçekli uygulama verilerinin eksikliği nedeniyle, yurtiçi ve yurtdışındaki birçok okul, Kaggle ve KDD-CUP gibi veri yarışmalarını öğrencileri eğitmenin önemli bir yolu olarak görüyor. Tsinghua Üniversitesi'nin ünlü Yao sınıfı, Kaggle'ın takım yarışması sonuçlarını önemli bir değerlendirme kriteri olarak görüyor.

Çok az insanın fark ettiği şey, yerli internet şirketlerinin, özellikle de gelişmekte olan şirketlerin, veri yarışmalarına gittikçe daha fazla ilgi göstermeye başlamasıdır. 2014 yılında Ali ilk "Tianchi" yi yaptı ve 2015 yılında Didi ilk Di-Tech'i yaptı. Bu yıl Toutiao da katıldı ve soru-cevap verilerine dayanarak BYTE CUP'u yaptı. Mobil internet çağında, yapay zeka ürünlerinin uygulanmasına ABD ile eş zamanlı olarak başlayan Çin, dünya standartlarında bir veri yarışmasının ortaya çıkması için vakti var mı?

Köken: Endüstri sorunları çözer ve yetenekleri keşfeder

Çoğu akademik yarışmanın aksine, veri madenciliği ve makine öğrenimi alanındaki yarışmalar, doğduklarından beri bariz endüstriyel uygulamalara sahiptir ve büyük ölçüde işletmeler ve hükümetlerle ilgilidir.

ACM (Amerikan Bilgisayar Birliği) Veri Madenciliği ve Bilgi Keşfi Alt Komitesi (SIGKDD) tarafından 1995 yılından bu yana düzenlenen ACM-SIGKDD Uluslararası Konferansı, bilgi keşfi ve veri madenciliği (Bilgi Keşfi ve Veri Madenciliği) alanındaki en iyi teknik konferanstır. 1997'de KDD, bu alandaki en önemli uluslararası etkinlik olan KDD-CUP'u başlattı.

KDD-CUP'ın uygulama rengi çok dikkat çekicidir. 1997'deki ilk KDD-CUP, Amerika Felçli Gazileri tarafından sağlanan 3,5 milyon bağışçının bağış rekoruydu. Amaç, kimin yardım etmek için bağışçı olma olasılığının daha yüksek olduğunu bulmak için veri analizini kullanmaktır. Dernek, yardım postalarını daha doğru bir şekilde gönderir.

1999 veri seti daha klasiktir.MIT Lincoln Laboratuvarı'nda ABD Savunma Bakanlığı İleri Planlama Ajansı (DARPA) tarafından yürütülen saldırı tespit ve değerlendirme projesinin verilerinden gelir.Yarışmacıların hangi operasyonların dışarıdan izinsiz giriş olduğunu ayırt edebilmesi umulmaktadır. Bu yılın kazananı, ünlü SAS şirketi.

KDD CUP'un ortak organizatörleri genellikle Microsoft, Yahoo, Facebook, Carnegie Mellon Üniversitesi, France Telecom, Siemens Medical, bu prestijli kurumlar / şirketler.

2010 yılında kurulan Kaggle, bir veri yarışması platformudur.Yukarıdaki yarışmalar röportajlar, ikramiyeler ve saf uygulama içerir. Titanic verileri bir alıştırma oyunudur. Aslında birçok şirket verilerini açacak, veri yarışmaları düzenleyecek ve yetenekleri keşfedecek.

Hükümetler ve kuruluşlar için, belirli verileri rekabete açarak, bir yandan kitle kaynak kullanımı yoluyla sorunları çözmenin daha iyi yollarını bulabilirler ve aynı zamanda verinin kendisini sağlama yeteneği de şirketin veri yeteneklerinin bir kanıtıdır.

Genellikle en iyi uluslararası akademik konferanslar tarafından seçilen ortaklar, son teknoloji uygulama değeri ile büyük ölçekli veriler sağlayabilen kuruluşlardır ve seçildikten sonra, açık verileri genellikle veri madenciliği uygulayıcılarının araştırma ve geliştirme için model eğitim verileri haline gelir.

Öte yandan, İnternet şirketleri için veri yarışmaları da olağanüstü yetenekleri keşfedebilir ve rezerve edebilir.

Aslında, IBM Watson ve Google Deep Mind'ın pek çok üyesi Kaggle'da faal durumda ve Kaggle bir iş arama sayfası bile başlattı. KDD-CUP'a gelince, kazanan büyük şirketlerin hedef adayıdır.Çinli oyuncular söz konusu olduğunda, HKBTÜ'nün 2005'teki titremesi Microsoft merkezi tarafından saldırıya uğradı. 2011'de Çin Bilimler Akademisi'nden Xiang Liang, Amerikan video öneri web sitesi hulu'ya katıldı. .

Refah: Büyük veri çağında iki engel

KDD-CUP 20 yıla yakın olmasına rağmen, veri rekabetinin "alt kültürü" gerçekten dikkatleri üzerine çekmiş, ancak büyük veri çağının ve hatta mobil internet çağının ortaya çıkmasıyla biliniyordu.

Mobil İnternet çağında, pek çok şirket, özellikle de mobil İnternet şirketleri, cep telefonlarının kişisel kullanımından dolayı büyük miktarda kişiselleştirilmiş veriye sahiptir, bu da daha rafine ve derinlemesine veri madenciliği ve makine öğrenimi yapmayı mümkün kılar.

Veri alanında iki engel vardır, biri tekniktir ki bu kimin algoritmasından daha iyidir; diğeri ise kimin verisinden daha eksiksiz olan kaynaktır. Bu iki engelin aynı anda var olması gerekmez ve veri engelleri olanların teknik engelleri olması gerekmez ve bunun tersi de geçerlidir.

Sermaye ve büyük miktarda veriye sahip endüstri, teknik engelleri aşmak için sürekli olarak olağanüstü yetenekler arıyor. Daha bu yıl, Stanford ve ImageNet'in kurucusu Profesör Li Feifei Google'a katıldı ve Carnegie Mellon Üniversitesi'nde makine öğrenimi doçenti Russ Salakhutdinov Apple'a gitti. Derin öğrenmenin "Üç Büyük" lerinden biri olan Yoshua Bengio tarafından kurulan MILA laboratuvarı Google'dan bir bağış kabul etti. (Algoritmaların gerçek uygulamasını hızlandırmak için kullanılır), Çin Bilimler Akademisi Akıllı Bilgi İşlem Temel Laboratuvarı'nın yönetici müdür yardımcısı Shan Shiguang deniz altında bir iş kurdu ve ACL Üyesi Lin Dekang Singularity Wit'i kurdu.

Bu yılki SIGKDD'de, Microsoft Asya Araştırma Enstitüsü'nde araştırmacı olan Zheng Yu bir dizi veriyi paylaştı. 2015'ten 2016'ya kadar, Çin'in üç bölgesinde KDD tarafından kabul edilen teorik araştırmalarla ilgili makale sayısı keskin bir şekilde düştü, ancak uygulama ile ilgili makaleler keskin bir şekilde arttı. . Bu aynı zamanda yeni dönemin akademik dünya üzerindeki etkisini de gösteriyor.

Akademi için veri engelleri daha da ciddidir. Pek çok makine öğrenimi ve veri madenciliği kursu, küçük miktarlarda veriyi gösterir. Gerçek dünyada veriler çok büyüktür, eksikliklerle ve eksikliklerle doludur. Gerçek çalışmada, birçok veri analizi çalışması gerçek dünyadaki kusurlara karşı savaşmaktır.

Bir kredi muhabiri işe alırken, bir fenomeni keşfettiler: Amerika Birleşik Devletleri'ndeki en iyi okullardan birkaç doktora öğrencisi ile röportaj yaptılar ve onlara bir dizi veri verdiler, hangi sonuçların geri verilebileceğini, neden bu göstergeleri tanımladıklarını ve sonuçları tanımlamalarına izin verdiler. On kişiden sekizi veya dokuzu, algoritmanın doğruluğunu ölçmek için tek gösterge olarak "doğruluk oranını" kullanacaktır, ancak gerçekte böyle bir değerlendirme standardı kredi araştırması alanında uygulanamaz.

Sonuç olarak, şirketlerden ve hükümetlerden gerçek verilerle veri yarışmaları giderek daha fazla akademik ilgi çekmeye başladı. 2005 yılında, KDD-CUP ekibi 30'dan fazla başvuru sundu, ancak 2011 yılına kadar 1.000'den fazla başvuru yapıldı, bu da katılan ekiplerin sayısının önemli ölçüde arttığı anlamına geliyor.

Gelecek: Çin'deki rekabetin yükselişi ve fırsatları?

Öte yandan, Çin'de yetenekler, akademi ve endüstri, en önemli uluslararası etkinliklerin ortaya çıkmasına hazır.

2012 KDD CUP Track1 şampiyonu, Shanghai Jiao Tong University ACM sınıfıydı (ikincilik Shanda Innovation Institute ekibindendi). 2013'teki iki yarışmanın çift şampiyonu, Zhejiang Üniversitesi'nde okuyan ve Tayvan Üniversitesi'nden mezun olan Zhuang Yong'du. 2014 şampiyon takım Üyelerden biri Peng Liu. 2015 şampiyonu takım "Intercontinental Ensemble", Youdao Computing'in reklam ekibinin bir üyesi olan Yan Peng tarafından yönetildi. 2016'da takım başarılı olamadı, ancak Tsinghua Üniversitesi Qian Yujie takımı da ikinci oldu.

Aslında Çin takımı geçtiğimiz 5 yıl içinde KDD CUP'ın neredeyse tüm şampiyonluklarını kazandı. Bu, yapay zekanın ilk destekleyicileri olan Amerika Birleşik Devletleri ve Japonya ile karşılaştırıldığında bile, Çin AI yeteneklerinin artık daha aşağı olmadığı anlamına geliyor.

Bir diğer veri ise Amerika Birleşik Devletleri Bilim ve Teknoloji Politikaları Ofisi tarafından yayınlanan teknik incelemedir Bu çizelgede Çin'in derin öğrenme motifi ile ilgili makale sayısında ABD'yi geçtiğini görebiliriz.

Ayrıca Çin'in yapay zekası ve büyük verisinin geliştirme hızı da etkileyici. 2014 yılında Çin'de 150'den fazla yeni yapay zeka şirketi vardı ve 2015 yılında yaklaşık 160 yeni şirket eklendi. Son iki yıldaki yeni yapay zeka şirketlerinin sayısı önceki 10 yılın toplamını geçti.

Aslında, son yıllarda KDD CUP eş-organizatörleri listesinde bazı tanıdık isimler yer aldı. 2012'de KDD CUP'un eş organizatörü Tencent'ti ve 2014'te School Online'dı.

Yeteneklerin ve akademinin halihazırda önemli rezervleri olduğunda, Çinli şirketler, özellikle de gelişmekte olan şirketler, doğal olarak büyük ölçekli veri yarışmalarının organizasyonunda başı çekmeye başlar ve bu rekabet verilerinin bazıları hükümetin varlığına bile sahiptir.

Ali'nin Tianchi'si bir öncü. 2015'teki yarışmalarından biri, Guangdong Eyaleti Halk Hükümeti ile işbirliği yaparak yarışmacılardan, şehir içi otobüs hatlarında dengesiz yolcu akışı ve seyahat sıkışıklığı gibi sorunları çözmek için vatandaşların toplu taşıma araçlarındaki davranış kalıplarını keşfetmelerini istemekti.

Ağustos ayında, sadece dört yaşında olan Toutiao, ByteCup'ı IEEE Çin ve Çin Yapay Zeka Topluluğu ile birlikte organize etti. Bugünkü Toutiao "Toutiao Soru-Cevap" etkinliğini başlattı; burada netizenler, taksi şoförlerinin çevrimiçi araç selamlamasının yaygınlaşmasından sonra mevcut durumu, gazilerin hangi koşullar altında geri çağrılacağı ve hükümetin bu yıl neden banka yatırımlarını ve kredi bağlantısını güçlü bir şekilde teşvik edeceği gibi bazı yapı olmayan yapılardan bahsetti. Dönüşüm sorusu - makine cevap veremez, belirli bir kişiyle eşleştirilmelidir ve ByteCup'ın görevi bu yarışma, uzmanın belirli bir soruyu yanıtlama olasılığını tahmin eden bir model oluşturmak ve böylece o "belirli kişiyi" bulmaktır. Bu konunun bir rekabet sorusu haline gelmesinin nedeni, bugün Toutiao'daki yüz milyonlarca günlük aktivitenin yeterince geçerli veri üretmesidir.

Yabancı yarışmalara katılan önceki Çinli oyunculardan farklı olarak, bu yarışmadaki oyuncuların birçoğu yurt dışından geldi.Birincilik ödülü olan BrickMover takımındaki iki doktor Georgia Institute of Technology'den geldi.

Didi, manşetlerin yanı sıra bir Di-Tech veri yarışması da yapıyor. Mobil çağda doğan Toutiao ve Didi, önceki nesil teknoloji şirketleriyle karşılaştırıldığında daha genç görünüyor ve ürünlerinin arkasındaki teknik rekabete ve uygulamaya daha fazla önem veriyor. Bir röportajda, bugünün manşet algoritması mimarı Cao Huanhuan, bu yarışmanın amacının akademik toplulukla daha fazla alışveriş yapmak olduğunu, "bu arada, ilgili teknik yetenekleri de araştırmak" olduğunu açıkça belirtti.

Amerika Birleşik Devletleri ile karşılaştırıldığında, Çin mobil veri çağında kullanıcı verileri, hükümet politikaları, sermaye yatırımı ve yetenek rezervlerinde zaten önemli avantajlara sahip. Hakim görüş, Çinin mobil İnternet çağındaki ürün yeniliğinin artık ABDdekinden daha zayıf olmadığı yönündedir.

Bugünün Toutiao, muazzam miktarda veriye sahip bu yükselen şirketler çabalarını veri yarışmalarında sergiliyor ve bu büyük olasılıkla yeni bir çağın gelmesi anlamına geliyor. Belki de yakında Toutiao'nun veya Ali ve Didi'nin platformlarındaki yarışmalara katılmak Kaggle'ın yerini alacak. Yurtiçi ve yurtdışındaki en iyi üniversitelerdeki makine öğrenimi öğrencileri için zorunlu bir kurs olun.

Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

Tong Liya aldatıldı ve Gigi Lai listelendi. Sonuçta, kadınların güvenlik duygusuna tahammül edilmemeli
önceki
Kızınızın mahremiyetini her zaman korumak mı? O gerçek kız kölesi olduğu ortaya çıktı!
Sonraki
Sun Yizhounun komedisi Qingdao Teyze ile buluşuyor, "Waste Chai Brothers 5 Tai Shuang", "Thai" yi vurmaktan mutluluk duyuyor
Yapay uydular ve insansız hava araçları nedir? Wang Junkainin doğum gününün en önemli özelliği Dong Zijianın bir oğlunu erken doğurma cezası değil!
"Kızım için gökyüzü" Hint draması yeniden insanların kalbini ısıtıyor ve Amir Khan doğrudan cinsiyetçiliğe vuruyor!
PTA endüstri zincirindeki ilgili varlıkları ayırmak
Fan Bingbing ve Pan Yingzi'nin aynı "Dünyayı Kazan" çerçevesindeki iki nesil "Wu Zetian" güzellik beyefendisinin görünümü patlayan bir tablo.
Hu Yanbin "Little Half" ile Zheng Shuang'ı özlüyor mu? Bu şarkılar kızların da gönlünü karıştırıyor ...
Wei Xiang "kanama" için özür diliyor, "Aşk ve Kaçış Yasası" nın nasıl içtenlikle komik ve gerçekten "taciz" olduğunu görün
"Dedektif Sherlock" un zayıflamasının, mükemmel IQ'nun düşüşü veya yeni çağda Sherlock Holmes'un yükselişi olduğu söyleniyor.
"Supreme Lihe" nin yüzü daha önce parçalanmıştı, peki bu plastik kardeşlik halka açık bir uzlaşma yapmaktan utanıyor mu?
Otuz yaşında olan Gome, cep telefonu yapmanın yanı sıra sosyal e-ticaret markasını da atmak istiyor
Guan Xiaotong stilisti rahatsız mı ediyor? İyi bir gelinlik sokak eşyası gibi giyinmekle suçlandı: çirkin yeni dünya!
Reba çirkin gibi davranıyor ve kalbini kaybetmiyor Sheng Yilun Zhang Binbin imajı kırmak zor, güzel yüz komik bir tersine dram sahneleyebilir
To Top