Profesör Zhang Changshui, Tsinghua Üniversitesi: Makine Öğrenimi ve Görüntü Tanıma (PPT indirmeli)

Bu makalenin kuru ürünleri, Tsinghua Üniversitesi Otomasyon Bölümü profesörü tarafından düzenlenmiştir. Zhang Changshui Veri Bilimi Enstitüsünde, 27 Nisan 2018'de Tsinghua Üniversitesi 2. "Tsinghua'da Büyük Veri" Zirve Forumu Ana Forumu Başlık "Makine Öğrenimi ve Görüntü Tanıma" Konuşma.

Not: Toutiao numarası özel mesaj kulis cevap anahtar kelimeleri "0427" , PPT'nin tam sürümünü indirin.

Zhang Changshui: Herkese merhaba, ben Tsinghua Üniversitesi Otomasyon Bölümü'ndeyim, çoğunlukla makine öğrenimi ve görüntü tanıma üzerine araştırma yapıyorum. Yapay zeka artık çok popüler, makine öğrenimi de ön plana çıktı.Görüntü tanıma bir ürün haline geldi.Haber medyası AlphaGo ve AlphaGozero'nun insanları yendiğini, cilt kanseri tanımanın doktorları geride bıraktığını, insansız araçların yolda test edildiğini ve yakında test edileceğini söylüyor. Seri üretim. Bu haberler bize görüntü tanıma sorununun çözüldüğünü söylüyor gibi görünüyor, ancak birçok yüksek teknolojili görüntü tanıma şirketi hala makine öğreniminde uzmanlaşan yetenekleri işe alıyor. Görüntü tanıma sorunu çözüldü mü? Görüntü tanımada hala hangi problemlerin olduğunu görelim.

1. Büyük miktarda veri

Görüntü tanıma artık çok fazla veri gerektiriyor. Büyük miktarda veri nedir? Örneğin, yukarıdaki resim, uçaklar, kuşlar, kediler, geyikler ve köpekler gibi birçok kategorinin görüntülerini içeren, endüstride görüntü tanıma için bir veri kümesidir. Bir nesne için, farklı ortamlarda farklı performanslara ve farklı görünümlere sahip olması gerekir, bu nedenle birçok fotoğraf malzemesine ihtiyacımız var.

Alanımızda birçok büyük veri seti olmasına rağmen, bu veri setleri pratik ürünlerimizin gereksinimlerini karşılamaktan uzaktır. Örneğin, bir metin tanıma örneğine bakalım. Metin tanıma, genel görüntü tanımadan daha basittir çünkü metin üç boyut içermez, sadece düz bir şeydir.

2. Çok sayıda örnek

Örneğin, Tsinghua Üniversitesinden "Qing" i tanımlamak istiyorsak, genel yöntem "Qing" in çeşitli görüntülerini toplamaktır. Sözde çeşitli görüntüler, farklı yazı tipleri, farklı aydınlatma ve farklı arka plan gürültüsü içerir. , Farklı eğimler, vb. "Temiz" karakterini iyi tanımak istiyorsanız, bu tür pek çok örnek toplamanız gerekir. Peki bunu yapmanın zorluğu nedir?

Üç, zorluk

1. Numunelerin alınması

Bunu gerçek ve tasarım ürünlerine uyguladığımızda, her durumun çok fazla veriye sahip olmadığını göreceğiz. Bu nedenle, zengin verilerin nasıl elde edileceği birincil sorundur.

Yukarıdaki resimde size gösterilen resim sırası bir trafik işareti tanıma görevidir. Yoldaki trafik işaretlerini tanımlamamız gerekirse, farklı ortamlarda, sabah, öğlen ve akşam gibi farklı aydınlatma koşullarında, arka ışık veya arka ışık, farklı bakış açıları ve engel olup olmadığı gibi tüm faktörleri dikkate almalıyız. Veri toplamak için. Tecrübeye göre, her logo türü için binlerce veya daha fazla görüntünün toplanması, tanınma oranının pratik uygulamalar seviyesine ulaşmasını sağlayabilir.

Bizim sorunumuz ne? İlk resme bakın. İlk resim, sürekli keskin dönüşlerin bir işaretidir. Dağlık alanlar dışında bu tür işaretlerin şehirlerde görülmesi zordur. Bu örnek, görüntü edinmenin kendisinin kolay olmadığını göstermektedir.

2. Numunelerin etiketlenmesi

Mevcut görüntü tanıma yöntemimiz, denetimli öğrenme adı verilen etiketli verilere dayanmaktadır. Görüntü açıklama, görüntüleri tek tek kesmek anlamına gelir. Pekin'in sokaklarından ve sokaklarından geçersek, trafik işaretleri videodaki her resimde görünmüyor. Videodaki trafik işaretlerini işaretlememiz gerekirse, çok paraya mal olur. Makine öğrenimi yapan insanlar, veri ek açıklamasını diğer bazı daha ucuz yöntemlerle yapıp yapamayacağımızı, örneğin bunu bazı kitle kaynaklı yöntemlerle yapıp yapamayacağımızı umursayacaklar. 12306 web sitesinde tren bileti satın alırken, açıklama verileri olarak kabul edilebilecek ilgili resmi her seferinde işaretleyelim. Bununla birlikte, açıklamalı verilerin kitle kaynak kullanımı ile ilgili bazı sorunlar da vardır, yani her kişinin işareti farklı olacaktır ve bazen hatalar olacaktır. Bu nedenle, makine öğreniminde, bazı insanlar öğrenme algoritmasının kitle kaynaklı kullanım durumunda nasıl tasarlanacağı ve etiketli verilerin yanlış olduğu, böylece yanlış etikete duyarlı olmamasıyla ilgilenir. Bu konu yaklaşık yedi veya sekiz yıl önce incelenmiştir ve sürekli olarak yeni makaleler ortaya çıkmıştır.

Çok fazla veri olmadığında ne yapmalıyım? Makine öğrenimi topluluğu böyle bir sorunla, yani küçük örnek veri öğrenmeyle karşılaştı. Çok sayıda örnek olmadığında büyük miktarda verininkine benzer bir tanıma etkisi elde edilebilir mi? Örneğin, yukarıdaki resimde sadece birkaç köpek resmi varken, köpeği teşhis etmek istersek köpeğin bilgilerini nereden alabilirim? Fikir başka resimlerden geliyor, örneğin tepede kuşlar, kediler ve geyikler var ve kürkleri bir köpeğe benziyor vb. Başka bir deyişle, diğer zengin görüntülerden bazı bilgiler elde eder ve bu bilgiyi bu küçük miktardaki veriye aktarır, böylece köpeği tanıyabilir.

Ek olarak, resim sayısı bire indirilebilir mi? Örneğin, Tsinghua Üniversitesinden "Qing" in sadece bir şablon resmi var Metni iyi tanımak mümkün mü? Daha aşırı bir örnekte, hiç örnek olup olmadığı, yani makinenin bir köpeği bir köpeği görmeden tanıyıp tanımayacağı araştırmacılar için bir endişe konusudur.

3. Büyük miktarda veriyle eğitim

Çok fazla veriyle, eğitilmesi gerekir, bu da genellikle uzun zaman alır ve eğitilmesi için üst düzey ekipman gerektirir.

Çok fazla veriye sahip olduğumuzda nasıl eğitim yaparız? GPU, özellikle hızlı bir hıza ulaşabilen eğitim için kullanılabilir. Bu büyük miktardaki veri üzerinde eğitim ve öğrenim problemine büyük öğrenme denir.

Büyük öğrenme, daha hızlı bir eğitim yöntemi olup olmadığı ile ilgilenir, eğitilmesi bir ay süren sorun, bir günde eğitilebilir mi; paralel eğitimi kullanabilir mi? Veriler tek seferde sabit diske kaydedilemezse, bu sefer nasıl öğrenilir? Bunlar hem şirketlerin hem de makine öğrenimi topluluğunun önem verdiği şeylerdir.

Ayrıca, derin öğrenme modellerinin kolayca saldırıya uğradığını gördük. Yukarıdaki resmin sol tarafında gösterildiği gibi, bir panda var Ağa, panda olduğunu anlayacak şekilde eğitim verdik. Bu resme biraz parazit eklersem, doğru resimdeki paraziti pek göremezsiniz.Bindirilmiş resmi ağa vereceğim.Panda değil, başka bir şey. Ve% 99,3 güvenle bunun bir panda olmadığını söyledi ve bunun herhangi bir şey olduğunu bile belirtebilirsiniz. Bu konunun riski nerede? Sadece eğlence içinse, önemli değil. Ancak askeri veya mali amaçlarla kullanılıyorsa, sonuçları daha ciddi olacaktır. Bu nedenle, bu sorunun nasıl çözüleceği konusunda her zaman endişeliyiz, yani algoritmanın saldırılara karşı daha dirençli olmasını umuyoruz, ancak sadece hafifletiliyor, ancak tamamen çözülmüyor.

Ve bu problem, sınıflandırıcının genelleme performansını incelemeye eşdeğer olan araştırmada bulunacaktır. Genelleme performansı, makine öğreniminde oldukça teorik bir konudur ve makine öğrenimi çemberinde çok az insanın yaptığı bir şeydir. Başka bir deyişle, bu soru çok uygulanabilir görünüyor, ancak aslında arkasında bazı derin teoriler içeriyor. Neden böyle bir durum var? Derin öğrenme hakkında bunu açıklayacak iyi bir teorimiz olmadığı için, tüm sorunları çözmek için o kadar iyi bir yolumuz yok.

Tekrar risk hakkında konuşalım: Görüntü tanımada, genellikle bir öğrenme problemini bir optimizasyon problemi olarak resmileştireceğiz ve sonra bu fonksiyonu en aza indirmek için bu fonksiyonu optimize edeceğiz. Bu işleve amaç işlevi diyoruz. Bazen böyle bir işlevi bir kayıp işlevi olarak adlandırırız ve nesne tanımadaki hatalar kayıplara neden olur. Diğer bir deyişle, tüm süreç boyunca çok fazla şey kaybetmemeyi umuyoruz. Aslında risk fonksiyonu daha uygun bir kelime olabilir. Çünkü yanılıyorsun, aslında riskli. Genel olarak, amaç işlevi hata oranına karşılık gelir Bir köpeği kedi olarak tanımlamanın yanlış bir resmi ve bir kediyi köpek olarak tanımlamanın yanlış bir resmi, hata oranını etkileyecektir ve hata oranı, algoritmanın performansını yansıtmak için yeterlidir.

Ancak farklı problemlerde, hataları tanımlama riski farklıdır. Örneğin, tıbbi bir teşhis yaptığımızda bu normal bir kişidir, eğer kanser olduğuna karar verirseniz, bu hata yanlış bir alarma neden olur. Diğer bir durum ise, algoritma tarafından tanınmayan ve tedavide gecikmeye neden olan kötü huylu bir tümöre sahip olmasıdır. Böyle bir hata riski büyüktür. Bu nedenle, optimizasyon yaptığımızda, bu hedef fonksiyon aslında bu tür karar verme hatalarını ve risklerini içine koymalıdır.Amacım bu riski optimize etmek. Ancak bu mesele genellikle uygulamalarla ve ürün tasarımımızla ilgilidir. Bu nedenle, farklı ürün tasarımlarının farklı karar verme riskleri vardır. Bu yüzden ürünleri tasarlarken düşünmemiz gerekir.

Apple, yüz tanıma hata oranının milyonda bir olduğunu iddia ediyor. Bir başkası bu telefonu kullanıyormuş gibi davranırsa milyonda bir, yani başkalarının sizmiş gibi davranması zordur; ama yüz tanıma Başka tür bir hata daha var: Cep telefonumu kullanıyorum ama beni tanımıyorum. Hata oranı% 10'dur. Başka bir deyişle, on kez kullanırsanız, bir kez olacaktır. Cep telefonu kullanımı konusunda net değil ama finans alanında kullanılıyorsa bu konu riskli. Bir ürünü tasarlarken, yalnızca bir taraftaki hata oranını dikkate almak yerine, riskin nerede olduğunu ve genel riski nasıl en aza indirdiğimizi düşünmelisiniz.

Bazı şirketler hata oranının milyonda bire düşürülebileceğini ilan edecek ve bu da insanları yanlışlıkla yüz tanıma sorununun çözüldüğüne inandıracak, ancak yine de CAPR ve ICCA gibi akademik konferanslarda metin algılamanın nasıl yapılacağını görebiliriz. , Yüz tanıma konusunda nasıl araştırma yapılır. Başka bir deyişle, bu şeyin kullanımı henüz o kadar kolay değil. Bu nedenle imaj tanıma ürünlerimiz risklidir ve ürün tasarımında riskler göz önünde bulundurulmalıdır.Bunu yaparken teknoloji kullanımını dikkate almalıyız.Doğru yer çok önemli ve yanlış yer çok riskli olacaktır.

Makine öğrenimi, uygulamalarla yakından bütünleştirilmiş bir disiplindir.Çok üst düzey formüller olmasına rağmen, bunlar aslında uygulama odaklıdır ve pratik sorunları çözmeyi umarlar. Pratik uygulamalar bizim için birçok gereklilik ortaya koyuyor ve görüntü tanımada karşılaşılan sorunlar bizim için zorluklar yaratıyor. Son olarak, dinlediğiniz için hepinize teşekkür ederim.

Not: Toutiao numarası özel mesaj kulis cevap anahtar kelimeleri "0427" , PPT'nin tam sürümünü indirin.

Dört yıl önce neredeyse Avrupa'nın zirvesine ulaştılar, ancak şimdi amatör ligine düştüler!
önceki
Derin öğrenme buluşacak ve duyacak, kuru mal kaynakları burada (kaynak kodu, kağıda bağlantı)
Sonraki
Zhang Jizhong, Hong Kong'da Jin Yong'a veda etti: Jin Yong'u anmak için "Fei Guwai Biyografi" filmini yapmak için elinden geleni yapın
Ayrıntılı veriler, yurtiçi ve yurtdışındaki otonom sürüş teknolojisinin seviyesini açıklar
Fırtına felaketi: Roma'da bir adam ve bir kadın arabadaki bir ağaç tarafından öldürüldü ve yarın ve yarın şiddetli yağmurlar olacak
İspanyol ihtilafında 1 büyük oolong! Hakem yanlış kişiyi cezalandırır, 1 ana oyuncu Barcelona'da oynayabilir
WeChat'in yeni sürümü, laboratuvar işlevlerini kullanıma sunarak "Bir Aramada Ara" ve "Bir Göz At" ı başlatır
SpaceX'in dolaşması tam bir başarıdır, kahraman geri döner ve ardından yıldızları ve denizi işaret eder!
Oyuncu Dağcı Yang Xiaohua, Uçurumdaki Yardım Elçisi (2. Kısım)
Veri bilimcilerinin bilmesi gereken 10 istatistiksel analiz yöntemi (öğrenme kaynakları ile)
Hahahaha! Bu Audi sahibi o kadar komik ki akıllı Günaydın Wuhan
GIF-Alman Ligi komik sahnesi! Boş kaleyi kaçırdı ve sadece takım arkadaşlarını dışarıda bırakmak ve gol atmak için sinirlendi.
Minjiang Gece Sohbeti: Tsinghua Üniversitesi'nin sesini dinleyin ve Dijital Çin'in geleceği hakkında konuşun
Üç yıllık artış aniden durdu İtalya'nın üçüncü çeyrekte GSYİH'si yine durgunlaştı!
To Top