SenseTime'ın kurucu ortağı Lin Dahua: Kapsamlı bilgisayar görüşü araştırmalarından vazgeçin, üç noktadan bahsedeyim CCF-GAIR 2018

Leifeng.com'un notu: 2018 Küresel Yapay Zeka ve Robotlar Zirvesi (CCF-GAIR) Shenzhen'de düzenlendi. Zirveye Çin Bilgisayar Topluluğu (CCF) ev sahipliği yaptı ve Leifeng.com ve Hong Kong Çin Üniversitesi (Shenzhen) ev sahipliğinde gerçekleştirildi.

Konferans, yapay zeka alanında tanınmış, dünyanın her yerinden 140 konuşmacı ve yuvarlak masa konuğu da dahil olmak üzere 2500'den fazla yapay zeka endüstrisi profesyonelini cezbetti.

Konferansın ikinci günündeki [Bilgisayar Görme Oturumu] 'nda, ICCV 2011 ve CVPR 2022 Konferans Başkanı Quan Long, Microsoft Araştırma Asya Başkan Yardımcısı Zhang Yizhao, Philips Çin CTO'su Wang Xi, Megvii Teknoloji Baş Bilimcisi Sun Jian, 7 Dünyanın en üst düzey tıbbi görüntüleme analizi konferansı MICCAI 2019'un eşbaşkanı Tian Jie ve eşbaşkan Shen Dinggang önemli konuşmalar yaptı.

Bunlar arasında, SenseTime Technology'nin kurucu ortağı ve Hong Kong Çin-Shangtang Ortak Laboratuvarı Direktörü Profesör Lin Dahua, bilgisayarla görme araştırmalarında yeni keşifler paylaştı.

Konuşmada Lin Dahua, geçtiğimiz birkaç yıldaki bilgisayar vizyonunun gelişimini özetledi, üzerinde düşündü ve dört gözle bekledi. Derin öğrenmenin bilgisayarla görme gelişiminin altın çağını açtığını söyledi. Son birkaç yılda, bilgisayar görüşü büyük ilerleme kaydetti, ancak bu gelişme kapsamlıdır ve veri ve hesaplama kaynakları ile doludur. Bu geliştirme modelinin sürdürülüp sürdürülemeyeceği üzerinde düşünmeye değer.

Bilgisayar görüşü doğrulukta zirveye ulaştıkça, endüstrinin daha fazla geliştirme düzeyi arayışına girmesi gerektiğini belirtti. SenseTimeın girişimleri temel olarak üç yönden oluşur: 1. Bilgi işlem kaynaklarının verimliliğini artırın; 2. Veri kaynaklarını etiketleme maliyetini azaltın; 3. Yapay zekanın kalitesini artırın.

Aşağıdakiler, Leifeng.com'un asıl niyetini değiştirmediği Lin Dahuanın konuşmasının içeriğidir:

Hong Kong Çin-Shangtang Ortak Laboratuvarı'nın son birkaç yıldaki çalışmalarını paylaşmak için bugün burada olmak büyük bir onur. Birkaç konuşmacı iş açısından harika bir paylaşım yaptı. Herkesin çok fayda sağladığına inanıyorum. Konuşmam biraz farklı olabilir. SenseTime'ın kurucu ortağıyım, ancak SenseTime'ın iş operasyonlarına doğrudan katılmıyorum. Endişeniz Shangtang'ın ne zaman halka açılacağıysa, korkarım cevap veremem.

Ama size SenseTime'ın bir günde inşa edilmediğini söyleyebilirim. Başarısı sadece son üç buçuk yılın yoğun çalışmasına değil, arkasındaki laboratuvarda 18 yıllık orijinal teknoloji birikimine de bağlıdır. Bu laboratuvarın yaptığı şey, SenseTime'ın bugün kar etmek için kullanacağı şey değil; SenseTime'ın önümüzdeki 3, 5 ve hatta 10 yıl içinde büyük bir teknoloji şirketi olmak istiyorsa hangi yöne gitmesi gerektiğidir.

Yapay zeka çok hızlı gelişiyor ancak kapsamlı bir gelişme

Aşağıdaki resim herkese çok tanıdık gelmelidir.

Son 8 yılda bilgisayarla görmenin atılımlar yaptığı söylenebilir .. En önemli teknolojik gelişme derin öğrenmenin başlatılmasıdır. Bu alanda - Image Net'te çok yüksek düzeyde bir rekabet var. 2012'den önce, bu yarışmadaki tanıma hatası oranı görece yüksekti.2012'de derin öğrenme teknolojisinin kullanılmaya başlanmasının ardından, bilgisayarla görme dört yıllık altın bir dönem yaşadı. 4 yıllık altın dönemde, Image Net yarışmasındaki tanınma hatası oranı% 20'den yaklaşık% 3'e düştü ve ardından geçen yıl yarışma askıya alınana kadar durdu.

Bu yüzden bir soru sormak istiyorum: Derin öğrenme, bilgisayar vizyonunu gerçekten de geçtiğimiz birkaç yılın altın döneminde büyük ve çığır açan bir ilerleme kaydetmeye teşvik etti, ancak bu, bilgisayar vizyonunun günümüz düzeyindeki gelişiminin sona erdiği anlamına mı geliyor? Bugün bazında 3, 5 ve 10 yılı dört gözle bekliyorum, gelecekte hangi yönde çalışmalıyız? Laboratuvarımızın ve Shangtang'ın düşündüğü şey bu.

Yapay zekanın son birkaç yıldaki başarısı tesadüfi değil, sadece algoritmaların geliştirilmesinin bir sonucu değil, birçok faktörün tarihsel birleşiminden kaynaklanıyor. İlk faktör veridir, çok miktarda veriye sahibiz. İkinci faktör, bilgi işlem gücünde önemli bir sıçrama sağlayan GPU'nun geliştirilmesidir. Veri ve hesaplama gücü temelinde, algoritmaların ilerlemesi günümüz yapay zekasının başarısını ve birçok uygulama senaryosuna inişini getirdi. Size iletmek istediğim mesaj, yapay zekanın başarısını ve algoritmaların muazzam ilerlemesini görmemize rağmen, yapay zeka bir sihir değil, bir anlamda muazzam miktarda veri ve güçlü hesaplama gücü ile desteklenen bir performans iyileştirmesidir.

Yapay zekanın son yıllardaki görkemli gelişimine baktığımızda, bunun bir anlamda çok kapsamlı bir gelişme olduğunu görüyoruz. Herkes doğruluk ve performans peşinde ... Tüm yarışma listelerinde Çinli şirketler ilk üçe giriyor. Pek çok liste yapmamıza rağmen sektörün karları temelde standartları belirleyen firmalar tarafından elde edilmektedir. Bu kalkınma modeli sürdürülebilir mi? Bu düşünmeye değer.

Doğruluğa ek olarak, verimlilik, maliyet ve kaliteyi de takip etmeliyiz

Son birkaç yılda derin öğrenmenin veya yapay zekanın gelişimine baktığımızda, daha yapacak çok işimiz olduğunu ve daha önümüzde uzun bir yol olduğunu düşünüyorum.

Sonra, sizinle bazı düşünme yönergelerimi paylaşacağım: 1. Öğrenme verimliliği, mevcut bilgi işlem kaynaklarını tam olarak kullandık mı? 2. Veri ve etiketlemenin maliyet sorunu nasıl çözülür? 3. Listede% 99.9 doğruluk elde etmemize rağmen, bu şekilde eğitilen model gerçekten hayatımızın veya toplumsal üretimimizin ihtiyaçlarını karşılayabilir mi? Yapay zekanın daha iyi, daha hızlı geliştirilmesini ve uygulanmasını teşvik etmek için çözmemiz gereken sorunlar bunlardır.

Aşağıda ilk olarak detay-verimlilikte birinci yönden bahsediyorum.

Daha önce de belirtildiği gibi, şimdi yüksek performans karşılığında veri ve bilgi işlem kaynaklarının birikimine dayanan kapsamlı bir geliştirme rotası izliyoruz Bu, verimlilikten ziyade kaynaklar için bir yarış. Sektör bu güne kadar gelişti ve karlarının çoğunu standartları belirleyen şirketler elde etti Bu durumla karşı karşıya kaldıklarında gelecekte nasıl gelişmeliyiz? Bu soruyu cevaplamak için, optimizasyona yer olup olmadığını görmek için önce mevcut modelleri ve teknik modelleri incelemeliyiz. Optimizasyon prensibi çok basittir, bıçak üzerinde iyi çelik kullanmaktır.

Açıklamak için bir örnek verin. İki yıl önce video alanına girmeye başladık.Video verisi miktarı çok büyük olduğu için videonun verimlilik için çok yüksek gereksinimleri var Saniyede 24 kare video ve dakikada 1500 kare var ki bu orta büyüklükte bir veritabanına eşdeğer. Videonun geleneksel görüntü işleme yöntemiyle işlenmesi kesinlikle uygunsuzdur.

2013 ve 2014'te, çoğu video analiz yöntemi nispeten basit ve kabaydı: her kareyi çıkarın ve evrişimli bir ağ çalıştırın ve nihayet karar için bunları birleştirin. Hesaplama kaynakları son birkaç yılda çok hızlı gelişmesine rağmen, GPU belleği hala sınırlıdır.Her katman çalıştırmak için CNN'ye yerleştirilirse, GPU belleği yalnızca yaklaşık 10 ila 20 kare ve bir saniye video barındırabilir GPU dolu ve videoyu uzun süre analiz etmenin bir yolu yok Bu çok verimsiz bir mod.

Bir videonun bitişik kareleri arasındaki tekrarlama derecesinin çok yüksek olduğunu biliyoruz. Her kare bir kez çalıştırılırsa, aslında çok sayıda bilgi işlem kaynağı boşa harcanır. Bu tekrarlayan hesaplama modunun verimsizliğini fark ettikten sonra, örnekleme yöntemini değiştirdik ve seyrek örneklemeye geçtik: video ne kadar uzun olursa olsun, eşit uzunlukta paragraflara bölünür ve her paragraf yalnızca bir çerçeve alır. Bu şekilde, videonun tam bir kapsamı zamanında oluşturulabilir ve analiz edilen sonuçlar doğal olarak daha yüksek güvenilirlik ve doğruluğa sahip olacaktır. Bu ağ ile 2016 ActivityNet şampiyonluğunu kazandık. Çoğu video analiz mimarisi artık bu seyrek örnekleme yöntemini benimsemiştir.

Bundan sonra, araştırma alanını sadece videoyu anlamak için değil, videolarda nesne tespiti için de genişlettik. Bu yeni zorluklar getiriyor: Sınıflandırma ve tanıma yapmadan önce, genel bir anlayış elde etmek için her segmenti bölümlere ayırabiliriz; ancak nesne algılama bunu yapamaz ve her çerçevedeki nesnenin konumunu çıkarmalıdır. Gel, zaman seyrek olamaz.

Aşağıdaki şekil, 2016 ImageNet yarışması video nesne algılama projesi şampiyonunu kazandığımız ağı göstermektedir. Bu ağın yöntemi temelde her bir çerçevenin özelliklerini çıkarmak, türünün ne olduğunu belirlemek, nesne çerçevesinin konumunu ayarlamak ve ardından bunları birbirine bağlamaktır. Her çerçevenin işlenmesi gerekiyor. O zamanki en güçlü GPU saniyede yalnızca birkaç kare işleyebiliyordu ve bu ağı eğitmek için çok sayıda GPU gerekiyordu.

Gerçek zamanlı nesne tespiti için bir çerçeve elde etmek için gerçek sahnelerde böyle bir teknolojiyi kullanmayı umuyoruz. Her kareyi aynı şekilde işlersek, 140 milisaniye sürer, gerçek zamanlıya ulaşmanın bir yolu yoktur. Ama seyrek bir şekilde seçerseniz, her 20 karede bir söyleyin, peki ya orta çerçeve?

Eklemek için enterpolasyon kullanmayı düşünebilirsiniz, ancak bu yöntemin doğruluk üzerinde büyük bir etkisi olduğunu gördük. Her 10 karede bir alınır ve ortadaki doğruluk aralığı çok büyük. Yeni önerilen yöntemde, çerçeveler arasındaki ilişkiden yararlanıyoruz ve çok daha düşük maliyetli bir ağ modülünü geçiyoruz.Kaseler arasında bilgi aktarımı yalnızca 5 milisaniye sürüyor ve bu da iyi korunabilir. Algılama doğruluğu. Bu şekilde, video analizinin yolunu değiştirdikten sonra, genel maliyet büyük ölçüde azaldı. Bunda yeni bir şey yok. Ağlar tüm bu ağlardır.Bu sadece video analizinin hesaplama yolunu yeniden planladığımız ve tüm çerçeveyi yeniden tasarladığımız anlamına geliyor.

Sonuçlara bakabilirsiniz. Yukarıdakiler 7 milisaniyede kare kare işlenir. Bu ağı 2016 oyunu için kullandık. Daha sonra geliştirdikten sonra saniyede 62 kareyi aştı ve sonuçları daha güvenilir ve akıcı oldu çünkü aralarında birden fazla kare kullanıyor İlişkili.

SenseTime aynı zamanda otonom sürüş de yapıyor ve sürüş sırasında sahneleri otomatik olarak anlamalı ve anlamsal olarak bölümlere ayırması gerekiyor ki bu da oldukça olgun bir alandır. Ama herkes bu fikre dikkat etmedi, herkesin dikkat ettiği şey, segmentasyonun doğruluğu, piksel seviyesinin doğruluğu, ki bu anlamsız. Gerçekten otopilot yapıyoruz. Asıl önemsediğimiz şey, arabanızın önünde biri varken birinin orada olduğunu ne kadar hızlı yargılayabileceğiniz ve ardından acil bir durum yapabileceğinizdir. Bu nedenle, otonom sürüş sahnesinde yargılamanın etkinliği ve yargılama hızı çok önemlidir. Önceki yöntemin bir çerçeveyi işlemesi 100 milisaniyeden fazla sürüyor.Arabanın önünde bir kişi belirirse tepki vermek için çok geç.

Az önce bahsedilen yöntemi kullanarak, çerçeveden çerçeveye bağlantıyı tam olarak kullanmak için bir modeli yeniden tasarladık.Her çerçevenin işleme verimliliğini 600 milisaniyeden 60 milisaniyeye düşürebilir ve bu teknolojiyi büyük ölçüde geliştirebiliriz. Acil durumlara yanıt verme hızı. Aslında şu anda benzer bir yöntem kullanıldı, bu yüzden teknik detaylardan bahsetmeyeceğim.

Verimliliğin nasıl artırılacağı ve ardından veri maliyetlerinin nasıl azaltılacağı hakkında konuştuk.

Yapay zeka, insanlardan önce insan zekasının olması ve insanlar kadar zekanın var olmasıdır. Yapay zekanın bugünkü refahı ile, kendilerini sessizce adayan binlerce veri açıklayıcısını unutmamalıyız. Bugün, Shangtang'ın gece gündüz sürekli olarak verilere açıklama ekleyen yaklaşık 800 not vericisi var ve bazı büyük şirketlerin on binlerce etiketleme ekibi var ve bu da çok büyük bir maliyet.

Veri açıklama maliyetinin nasıl azaltılacağı, her gün düşündüğümüz bir konudur. Pek çok şey manuel olarak etiketlenemediği için fikrimi değiştirip veri ve sahnelerde bulunan etiketleme bilgilerini arayabilir miyim?

Aşağıdaki şekil, geçtiğimiz yıl yaptığımız ve yeni bir öğrenme yöntemi deneyen CVPR'de yayınlanan bir araştırmanın sonuçlarını gösteriyor. Geçmişte resimleri etiketlemenin maliyeti çok yüksekti.Her resmin sadece etiketlenmesi gerekmiyordu, aynı zamanda hedef nesnenin de çerçevelenmesi gerekiyordu. Örneğin, hayvanları tanımayı öğrenmek, hayvanların manuel olarak işaretlenmesini gerektirir. Gençken hayvanları tanımayı öğrenme süreci böyle değildi, öğrenmem için bana çerçeveli bir resim veren öğretmen değil, "Hayvan Dünyası" nı izleyerek. Bu beni bir fikre yöneltti: Model "Hayvan Dünyası" nı izleyerek tüm hayvanları tanıyabilir mi? Belgeselde alt yazılar var, onu görsel sahne ile ilişkilendirirseniz model otomatik öğrenebilir mi? Bu amaçla vizyon ve metin arasında bağlantı kurmak için bir çerçeve tasarladık ve sonunda aşağıdaki şekilde sonuca ulaştık.

Aşağıdaki resim, herhangi bir etiketleme ve manuel müdahale olmaksızın "Hayvan Dünyası" ve "National Geographic" e bakarak doğru bir şekilde tanımlayabileceğimiz onlarca hayvanı göstermektedir.

Ek olarak, yüz tanımanın da büyük miktarda yüz verisini etiketlemesi gerekir. Aile albümlerimiz gibi bazı veriler var, bu albümler etiketli olmasa da pek çok bilgi içeriyor.

Aşağıdaki resme bakın Bu "Titanik" filminden bazı sahneler. Sol üst köşedeki sahnede yüzlere bakarsanız bu iki kişinin kim olduğunu anlamak zor. Sağ üst köşedeki ilk sahneye baktığımızda soldaki adamın Rose olduğunu fark edebiliriz, ancak sağdaki takım elbiseli adam hala net göremiyor. Filmin arkasındaki sahneyi belirleyebilirsek, Jack ve Rose'un sıklıkla aynı sahnede yer aldığını göreceğiz. Bu sosyal etkileşim bilgisine dayanarak, siyah takım elbiseli adamın Jack olabileceği sonucuna varabiliriz. Bu sayede yüzleri etiketlemeden birçok anlamlı veri elde edebiliriz.

Bu teknolojiyi video gözetleme alanına da uyguladık: Shenzhen'de bir kişi caddenin bir ucundan diğer ucuna yürüdüğünde, yüzün görüntüsü sık sık değişir, ancak yörüngesini takip edebildiği sürece, neyin yakalandığına karar verebiliriz. Yüzler aynı kişiye aittir ve bu, yüz modellerini eğitmek için çok değerli bilgilerdir. Bu sonuç, bir CVPR makalesinde yayınlandı.

Son olarak, kalite hakkında konuşun.

Yapay zekanın nihai amacı hayata kolaylık getirmek ve yaşam kalitesini iyileştirmektir. Ancak son yıllarda yapay zekanın kalitesinin doğrulukla bağlantılı olduğu düşünülerek yapay zekanın gelişimi bir yanlış anlaşılmaya girmiş gibi görünüyor. Yapay zekanın kalitesinin sadece doğruluk değil, çok yönlü ve çok seviyeli olduğunu düşünüyorum.

Size birkaç örnek göstereyim. "Resimlere bak ve konuş" son yıllarda özellikle popüler bir alandır, yani bilgisayara bir resim göstermek ve otomatik olarak bir açıklama oluşturmasına izin vermek. Aşağıdaki şekil, en son yöntemimizle elde edilen sonuçtur.

Herkes bu en iyi modele üç farklı resim gösterdiğimizi ve aynı cümleyi söyleyeceğini fark etti.Bu cümle standart testte sorunsuz bir şekilde çok yüksek puan aldı. Ancak bunu insan tanımıyla birleştirdiğimizde, insanların böyle konuşmadığını gördük. İnsanlar bir resmi tarif ettiğinde, aynı resimle karşı karşıya kaldıklarında bile, farklı insanların ifadeleri farklıdır. Başka bir deyişle, yapay zeka, tanıma doğruluğunu ararken, dilin doğallığı ve resimlerin özellikleri dahil olmak üzere diğer nitelikleri göz ardı eder.

Bu sorunu çözmek için geçen yıl yeni bir yöntem önerdik. Artık içerik açıklamasını bir çeviri problemi olarak değil, olasılık örnekleme problemi olarak görüyor. Tanımların çeşitliliğini tanır ve herkesin aynı resmi gördüğünde farklı şeyler söyleyeceğini kabul eder. Bu örnekleme sürecinden bir şeyler öğrenmeyi umuyoruz. Bu modelin ayrıntıları için ilgili belgelere başvurabilirsiniz. Burada sadece sonuçlar gösterilmektedir: Aynı üç resim için, model daha canlı olan ve resimlerin özelliklerini açıklayan üç cümle oluşturur.

Uzaklaşalım ve genişletelim: Yapay zeka modeli bir cümle oluşturabildiğine göre, bir hareket de oluşturabilir mi? Aşağıdaki resim, son araştırmalarımızdan birini göstermektedir. Birçok AI şirketi, AI'nın canlı bir dans oluşturmasına izin vermek için bu alanda araştırma yapmaktadır. Aşağıdakiler bazı basit eylemlerdir, bu eylemler, bizim tarafımızdan programlarla açıklanmayan, bilgisayar tarafından otomatik olarak oluşturulur.

Son olarak, önceki paylaşımın bir özetini yapın. Geçtiğimiz birkaç yılda hem yapay zeka hem de derin öğrenme hızlı bir gelişme kaydetti.Bu gelişme sadece standart veri setlerinin doğruluğunun iyileştirilmesine değil, iş senaryolarının inişine de yansımıştır. Ancak bu gelişme dönemine dönüp baktığımızda, yüksek doğruluğa doğru ilerleme sürecinde birçok şeyi de unuttuğumuzu gördük. Verimliliğimiz yeterince yüksek mi? Kredili mevduat verilerinin maliyetini işaretliyor muyuz? Eğittiğimiz model gerçek hayatın kalite gereksinimlerini karşılayabilir mi? Bu bakış açılarından, daha yeni başladığımızı düşünüyorum. Laboratuvarımız ve dünyadaki diğer birçok laboratuvar bazı önemli ilerlemeler kaydetmiş olsa da, hala emekleme aşamasındayız ve daha önümüzde uzun bir yol var. Yukarıda, herkesi teşvik etmeyi umuyorum, teşekkür ederim!

Soru-Cevap oturumunun önemli noktaları şunlardır:

Soru: SenseTime'ın kaynakları temel Ar-Ge ve ürün uygulaması açısından nasıl tahsis ettiğini bilmek istiyorum?

Lin Dahua: Bu soru çok güzel. Bunun basit bir tahsis sorunu değil, pozitif bir döngü olduğunu düşünüyorum. Ön saflardaki meslektaşlarımız birçok özel iniş sahnesi ile temasa geçecek ve sahnelerden sorunları keşfedecek. Daha önce bahsettiğim sorunların çoğu iniş sahnelerinden keşfedildi ve bu sorunlar akademik camia için farklı bir bakış açısı sağlayabilir. Ön cephedeki meslektaşlar ürün indirme baskısına maruz kalırlar ve bu sorunları çözemezler.Bu sorunlar uzun vadeli teknik tartışmalar için laboratuvara aktarılacaktır. Tartışmanın sonuçları sonunda ürünü geri bildirecektir. Bu, SenseTime'ın teknolojisini öncü ve gelişmiş yapar.Yalnızca veri ve bilgi işlem kaynakları için arkadaşlarla rekabet etmekle kalmıyor, aynı zamanda teknolojik açıdan lider bir bakış açısına da sahibiz. Bu, temel araştırma departmanımız ile ön saftaki ürün departmanı arasındaki etkileşimdir.

Soru: Özgeçmiş satıcıları ve geleneksel güvenlik satıcılarının teknolojide işbirliği yapma eğilimi var mı? İşbirliği modu "AI + Güvenlik" mi yoksa "Güvenlik + AI" mı?

Lin Dahua: Geleneksel güvenlik satıcıları entegre çözümler ve kameralar sağlarlar.Geçmişte çok fazla AI teknolojisi içermiyorlardı. Shangtang, akademisyenlerden başlayarak ve sonra yavaşça inişe doğru ilerleyen bir laboratuvardan geliştirildi. Artık özgeçmiş üreticileri ve geleneksel güvenlik üreticileri teknoloji inişi yönünde ilerliyor ve herkes bir araya geliyor. Bu nedenle, geleneksel güvenlik satıcıları ile gelişmiş AI teknolojisinde uzmanlaşan şirketler ve laboratuvarlar arasındaki derinlemesine işbirliğinin önemli bir eğilim olduğuna inanıyorum.

Ama ortada bir de risk var: Bir taraf uygulama tarafından ileri, diğer taraf teknik taraftan geri gidiyor Herkes teknolojik hakimiyet yükseklikleri işgal etmek istiyor. Bu, herkesin bir güven ve kazan-kazan mekanizması kurmasını gerektirir, ancak bu şekilde işbirliği uzun süreli olabilir.

Soru: Derin öğrenmenin popüler olduğu bir ortamda, geleneksel makine öğrenimi yöntemlerinde herhangi bir araştırma değeri var mı?

Lin Dahua: Bu soruyu akademik konferanslarda ve halka açık konuşmalarda sık sık soruyorum. Derin öğrenmeyi herkesin dünya çapında bir yaklaşım olarak görmemesi gerektiğini düşünüyorum, bir bakıma yeni bir araştırma modeli. Nihayet senaryolar ve uygulamalarla karşılaştığımızda, soruna hala bir dizi çözüm önermemiz gerekir. Derin öğrenmenin çok güçlü modelleme yetenekleri vardır, ancak aynı zamanda eksiklikleri de vardır. Örneğin, farklı cihazlar arasındaki etkileşimi ve çoklu değişkenlerin modellenmesini içeren karmaşık bir problemle karşılaştığımızda, geleneksel olasılığa dayalı öğrenme ve rastgele süreçlerin bir rol oynaması mümkündür. Bunu derin öğrenmeyle birleştirirseniz, performansta bir atılım elde edebilirsiniz.

Hong Kong'da öğretmek için dönmeden önce, istatistiksel öğrenme ve olasılık grafik modelleri üzerinde uzun bir süre çalıştım. O zamanlar olasılıksal grafik model çok sıkıntılıydı ve çok fazla veri tabanına sahip olmasına rağmen, taban kullanımı veri gereksinimlerini karşılayamıyordu. Aslında dünyayı derinlemesine modellememizi sağlayan çok iyi bir model. Derin öğrenme ile, Gauss dağılımı gibi varsayımlar gibi bazı değişkenlerin basit varsayımlarını derin ağlar kullanılarak oluşturulmuş modellere geçirmek için birlikte kullanılabilirler. Bu şekilde, belirli sorunlarımıza ve uygulamalarımıza daha verimli çözümler sunmak için geleneksel model yükseltilecek ve yinelenecektir. Dolayısıyla ikame bir ilişki değil, birleşik bir ilişki. Son yıllarda yapılan birçok araştırma bu eğilimi göstermiş, geleneksel kavram ve yöntemleri derin öğrenme ile donatmış ve sonunda çok iyi sonuçlar almıştır.

Soru: Son yıllarda görüntü alanında derin öğrenme bazı darboğazlarla karşılaştı ve kısa vadede herhangi bir gelişme olmadı, akademik açıdan bakıldığında ne düşünüyorsun?

Lin Dahua: Aslında konuşmam boyunca bundan bahsediyordum. Herkesin arayışını biraz genişletmesi gerektiğini düşünüyorum. Makine öğreniminin amacı sadece veri değildir. Keşfedilmeye değer birçok araştırma düzeyi vardır. Örneğin, geçmişte Shangtang yalnızca yüz tanıma yaparken doğruluğa odaklandı, ancak daha sonra zaman maliyeti, veri açıklaması, güvenilirlik, model sıkıştırma vb. Dahil olmak üzere birçok sorun bulduk. Bu önceki çalışmalar dahil değildi, ancak şimdi çok geniş ve çok umut verici bir alan haline geldi. Örneğin, model sıkıştırma, daha önce böyle bir gereksinim yoktu, ancak gerçek uygulama sürecinde, orijinal yöntemin sorunu çözemediğini gördük, bu yüzden modeli sıkıştırıp sıkıştıramayacağımızı düşündük. Gerçeklerden türetilen bu fikirler, son yıllarda bazı yeni araştırma yönleri açmıştır. Yalnızca doğruluk oranına bakıldığında, gerçekten çok yüksek bir seviyeye ulaşmıştır ve daha ileri gitmek için fazla yer yoktur. Bununla birlikte, belirli uygulamalarda hala birçok yeni zorluk vardır.Her zorluk bir araştırma yönüdür ve hala çok fazla araştırma alanı vardır.

Kaiyi X7 casus fotoğrafları, 7 koltuklu orta boy SUV / 2018'de listelendi
önceki
RNG, VG'yi hafifçe alır, Bir canavar olur ve sonra bir oyun hayaleti olur, AP Verus, yarı kan kargayı tek bir okla öldürür!
Sonraki
VivoNEX bir gizlilik izleme aracı haline geliyor mu? Tencent ve Baidu, mahremiyet toplamayacaklarını söylediler!
Film Büyüteci Xiao Yang: Bir komedi filmi çekmek için izleyiciye hizmet etmelisiniz
Tutku ve teknolojinin çarpışması: vivo X9 NBA özelleştirilmiş harita turu
Nike SF-AF1 Mid'in en son renk şeması yayınlandı, çok OFF-WHITE mı?
Karbon satmanın bilinçli keşfi? Mansory 20.000 Euro G sınıfı kiti çıkardı
Çift ekranlar gelecekteki cep telefonlarının trendi haline gelebilir ve Meizu'nun kesilen amiral gemisi Nubia'nın benimsemesi haline gelir!
SUPERSTAR yeni stiller ekler! Big City'den ilham aldınız mı?
8 yıldan uzun süredir Xiaomi'nin tüm cep telefonlarının büyük bir envanteri: Xiaomi'nin listelemesi için sağlam bir temel oluşturdular
Disney'in yeni fantastik ve sihirli filmi "Artemis Fantasy Adventure" fotoğrafları yayınlandı
Bilim ve teknoloji dolu LifeSmart bulutu, Nesnelerin İnterneti'nin "C konumunu" ele geçirmek için güç kazanıyor
QQ evcil hayvanınız ne zamandır açlıktan ölüyor? Şimdi Tencent "ölüleri toplamasına" yardım etmek istiyor!
Zhimi Nemlendirici Deneyimi: Kuzey Kışın "Küçük Şans"
To Top