AI ekibinden atılmamak için görsel derinlik modeli "özel çalışmaları kabul etmeye" başladı.

Görüntü kaynağı @Visual China

Metin | Beyin Kutupsal Gövdesi

Olgun ve son derece tamamlanmış bir teknoloji olduğu sürece herkes tarafından akıllı olarak görülmeyecektir.

Örneğin çevremdeki yaşlı annelerime, babalarıma ve teyzelerime parmak izi açma, el yazısı girişi, harita navigasyonu, oyun NPC'leri, güzellik kameraları vb. Yapay zeka olup olmadığını sordum. Hepsi şüpheli gözler gösterdi:

Basit ve iddiasız olacak kadar yaygınsa nasıl yapay zeka olabilir? Görünüşe göre, insan zekasının her fırsatta kanlı bir şekilde kötüye kullanılması.

Bu görüşe göre, en "tehlikeli" bilgisayar görüşüdür.

Yakın gelecekte yüz tanıma, görüntü tanıma ve sahte yüz oluşturmanın AI ekibinden "çıkarılacağı" tahmin edilmektedir.

Son yıllarda, derin sinir ağları, bilgisayarla görme modellerinin performansını tamamen yükseltti. Görsel nesne sınıflandırması, hedef tespiti, görüntü tanıma ve diğer görevler gibi birçok alanda, Derin Sinir Ağı (DNN) insanlardan daha iyi performans gösterdi ve ilgili teknik çözümler sıradan insanların hayatlarında sık sık ortaya çıkmaya başladı. Detaylarda.

Bu yeterli mi? bir şey değil!

Görsel model, görüntü görevlerinde çok faydalı olmasının yanı sıra, görsel olmayan görevlerde de iyi bir el olduğunu söyledi.

Kısa bir süre önce, derin öğrenme geliştiricisi ve tanınmış Medium blog yazarı Max Pechyonkin, blogunda görsel olmayan alanlara görsel derin öğrenme modellerini uygulamanın bazı yaratıcı uygulamalarını tanıttı.

Hayatta kalma arzusu güçlü olan vizyon modelinin diğer alanlarda nasıl parladığını anlamak için bir makale kullanalım.

Hayat kolay değil, DNN sanat satıyor

Aktarım öğrenme ve mükemmel öğrenme kaynakları nedeniyle, DNN'nin bilgisayar görüşü alanında uygulanması diğer görev türlerini çok aşmaktadır.

Çeşitli açık platformların ve genel ön eğitim modellerinin kutsamasıyla birleştiğinde, herkes görsel derin öğrenme modelini günler hatta saatler içinde diğer alanlara uygulayabilir.

İki yıl önce, yabancı bir çiftçi, salatalıkların otomatik denetimi için akıllı bir program geliştirdi ve Pekin, Pinggu'daki şeftali çiftçileri de otomatik bir denetim makinesi kullandı.

Arkasındaki teknik mantığın anlaşılması da kolaydır: ilk önce basit bir evrişimli sinir ağı (CNN) modeli seçin (açık platformda kolayca bulunabilen), çeşitli etiketli resimler ekleyin ve temelde bir temelden kaçının Veri setinin uygun olup olmadığını, görüntü kalitesinin ve etiketlerin doğru olup olmadığını, hata ayıklamanın gerekli olup olmadığını vb. Belirlemektir.

Tamam'dan sonra, işlenmiş görüntü veri setini besleyebilirsiniz Genel olarak, daha fazla görüntü ve açıklama kalitesi ne kadar yüksek olursa, modelin performansı ve doğruluğu o kadar iyi olur.

Lise matematiği okuyarak yapılabilecek gibi geliyor mu?

Teknik eşik yüksek olmadığından, uygulama kapsamı doğal olarak sonsuza kadar genişletilmiştir. Görsel olmayan birçok ham eğitim verisi karşısında, görsel model de "danışmanlık değil" dedi.

Birkaç ilginç uygulama durumu var:

1. Petrol endüstrisinin üretim verimliliğini artırmasına yardımcı olun

Petrol endüstrisi, petrol ve doğal gazı çıkarmak için genellikle "kowtow makinesi" adı verilen bir cihaza güvenir. Kiriş aktivitesi sayesinde, emici çubuk, yağı zeminden yüzeye taşımak için bir pompa görevi görür. Yüksek yoğunluklu faaliyetler ayrıca pompalama ünitesini arızaya son derece yatkın hale getirir.

Geleneksel hata algılama yöntemi, çok profesyonel teknisyenleri, motor dönüş döngüsünün her bir parçasının yükünü kaydeden pompalama ünitesindeki dinamometreyi kontrol etmeye davet etmektir. Karttaki görüntüden hangi parçanın hatalı olduğunu ve onu onarmak için hangi önlemlerin alınması gerektiğini belirleyin.

Bu süreç sadece zaman alıcı değil, aynı zamanda sadece "durumu düzeltebilir" ve riskleri önceden ortadan kaldıramaz.

Ve petrol şirketleri, arıza tespitine görsel derin öğrenme uygulamayı deniyor.

Baker Hughes (Baker Hughes) şirketi ergometreyi bir görüntüye ve ardından bir veri seti olarak ImageNet önceden eğitilmiş modele dönüştürecektir. Sonuçlar, yalnızca önceden eğitilmiş modeli benimseyerek ve yeni verilerle ince ayar yaparak, makinenin otomatik hata algılama doğruluk oranının% 93'e ulaştığını ve daha fazla optimizasyonun% 97'ye yakın olduğunu gösteriyor!

(Solda giriş görüntüsü ve sağda hata modlarının gerçek zamanlı sınıflandırmasıdır. Sistem taşınabilir bir cihazda çalışır ve sınıflandırma süresi sağ alt köşede görüntülenir)

Görme algoritmasının uygulanmasıyla eğitilen yeni model, hataların çoğunu yargılayabilir ve profesyonellerin randevu ve teşhisini beklemeden hemen onarmaya başlayabilir. Kulağa harika ve hoş gelmiyor mu?

2. Finansal web sitelerinin çevrimiçi risk kontrolü gerçekleştirmesine yardımcı olun

Finans siteleri ve dolandırıcılık çeteleri arasındaki fikir savaşı, genellikle "gücün yüksek ve sihrin yüksek" olduğu teknolojik bir silahlanma yarışıdır. Ziyaretçilerin sıradan müşteriler mi yoksa potansiyel risk müşterileri mi olduğunu ayırt etmek için, IP filtreleme ve doğrulama kodları gibi İnternet teknolojilerine güvenmek elbette yeterli değildir.

Bununla birlikte, bir finansal web sitesinin sistemi, kullanıcı davranışlarını fare kullanım modellerine göre belirleyebiliyorsa, önceden hileli işlemlerden kaçınılabilir. Dolandırıcının bilgisayar faresini kullanma şeklinin benzersiz ve alışılmadık olduğunu bilin.

Ancak derin öğrenme tanımlama modeli nasıl elde edilir? Splunk, her kullanıcının her bir web sayfasındaki fare etkinliğini tek bir görüntüye dönüştürür. Fare hareketinin hızını temsil etmek için farklı renk kodları kullanın ve kırmızı ve yeşil noktalar, fare düğmesinin kullanımını temsil eder. Böylelikle aynı büyüklükte ve görüntü modelini uygulayabilecek orijinal veriler elde edilir.

2000 görüntüden oluşan bir eğitim seti kullanan Splunk, 2 dakikalık eğitimden sonra, sistem sıradan müşterileri ve müşteri olmayanları% 80'in üzerinde bir doğruluk oranıyla belirleyebildi.

Belirli bir kullanıcı için, sistem ayrıca hangisinin kullanıcı tarafından verildiğini ve hangilerinin taklit edileceğini belirleyebilir. Bu sefer yaklaşık% 78 doğruluğu eğitmek için yalnızca 360 görüntüler kullanıldı. Annemin artık mali hesabımın çalınması konusunda endişelenmesine gerek yok.

3. Ses algılama yoluyla hayvan araştırması

Ekim 2018'de, Google araştırmacıları bir kaydı analiz etmek için görsel bir CNN modeli kullandılar ve bir kambur balinanın sesini tespit ettiler.

Ses verilerini, sesin frekans özelliklerini temsil eden bir görüntü olan bir video spektrumuna dönüştürdüler.

Daha sonra bu modeli eğitmek için Resnet-50 mimarisini kullandı. Balina şarkı sesinin% 90'ı sistem tarafından doğru bir şekilde sınıflandırılmıştır. Ve bir balinanın kaydı ise, doğru etiketlenme şansı% 90'dır.

Bu araştırmanın sonuçları, tek bir balinanın hareketini, şarkının özelliklerini, balina sayısını vb. İzlemek için kullanılabilir.

Aynı deney aynı zamanda insan konuşması, endüstriyel ekipman kaydı vb. İçin de geçerlidir. Librosa gibi ses analizi yazılımlarını kullanarak, zaman spektrumunu oluşturmak için CPU'yu kullanabilirsiniz.

Bu noktada, görsel derin öğrenme modelinin "boyutlar arası" uygulamasının temel işlemlerini özetleyebilirsiniz:

1. Orijinal verileri bir görüntüye dönüştürün;

2. Önceden eğitilmiş bir CNN modeli kullanın veya eğitim için sıfırdan yeni bir model eğitin.

Bu, görsel olmayan sorunları çözebilecek yeni bir modelle sonuçlanır.

Beyin fırtınası en zorudur

Elbette yukarıda yazar tarafından paylaşılan ve pratikte sonuçlar elde eden bazı uygulamalardır ve bunları birçok ilginç ve anlamlı senaryoya da uygulayabiliriz. Amaç, görsel olmayan verileri görüntülere dönüştürmenin bir yolunu bulmaktır.

Örneğin, çocukların yemeklerinin sağlığı için, sadece okul kafeteryalarına ve ebeveynlerin kendi kendine beslenme çalışmalarına güvenmek, açıkça yaygın olarak teşvik edilebilecek yeterince etkili bir yöntem değildir.

Görsel modeli kullanarak, yemek tabağını otomatik olarak taramak ve tespit etmek, görüntüdeki yemeğin özelliklerini ve kusurlarını çıkarmak, yemek tabağı ve diyetin temizliğinin nitelikli olup olmadığını ve beslenme eşleşmesinin temel gereksinimleri karşılayıp karşılamadığını anlamak mümkündür.

Başka bir örnek olarak, perakendecinin süper merkezli kalabalığının dağıtımını ve hareketini görüntülere dönüştürmek için akıllı kameraların kullanılması, farklı toplulukların ihtiyaçlarını ve tüketim özelliklerini analiz edip tespit ederek daha da iyileştirmek için ürünleri ve mobilyaları hedefli bir şekilde seçmek Ping etkisi. Veya farklı zamanlarda yol koşullarını ve fiyatlandırmayı tahmin etmek ve optimize etmek için otomobilin yörüngesini kullanın.

Sonuç olarak, mevcut bilgisayarla görme modeli, laboratuvarın ve bilim adamının masasından çoktan başladı ve giderek daha fazla gerçek dünya sorununa çözüm bulmaya yardımcı oldu.

Yapay zekanın uygulanmasında olgun ve uygulanabilir algoritmaların olmadığı ve en zor olanın beyni yaratıcılığa açmak olduğu da görülebiliyor.

Tabii ki gizli tehlikeler var

Sorumluluk sahibi bir "AI patlaması" olarak, "AI iyidir, AI harikadır" daki hikaye aniden duramaz.

Bilgisayar görüşü büyük bir uyarlanabilirlik göstermiş olsa da, pratik uygulamalarda kendi kendine çözülmemiş bazı eksiklikler vardır.Bu da uzun bir süreye yol açar, görüntü tanıma, oluşturma ve diğer uygulamalar yapay görüntü olarak kullanılabilir. Zekanın büyülü yeteneği övünüyor.

İlk olarak, görsel sinir ağı görüntü değişikliklerine ve arka plana çok duyarlıdır. İster görsel olmayan verileri dönüştürmek isterse doğrudan orijinal görüntüleri eğitmek olsun, makine vizyonunun işleme mantığı, görüntüleri sistemin anlayabileceği "sayılara" dönüştürmek ve ardından bunları karşılaştırıp tanıyabilmektir. Bu nedenle, arka plan ve değişiklikler gibi seslerin diğer nesneler olarak tanınması şaşırtıcı değildir.

(Fotoğrafa farklı nesneler eklemek, fotoğraftaki orijinal maymunun tanıma sonucunu etkileyecektir)

Görsel bir model ile eğitildiği için, büyük miktarda etiketlenmiş yüksek kaliteli veri gereklidir.Gerçek uygulamalarda, kullanıcı fare alışkanlıkları, perakende mağaza trendleri vb. Gibi bazı görsel olmayan ham veriler birden çok boyut içerir ve farklı Çok sayıda veri noktasında, yalnızca veri setini etiketleme işi zaman alıcı ve yoğun emek gerektirmez, aynı zamanda bu devasa verilerin eğitilmesi de çok sayıda GPU kaynağı gerektirir.

Ancak maalesef, açıklama kalitesinden, model doğruluğundan, profesyonel alan bilgisinden vb. Etkilenen nihai sonuç, gerçek dünyada çok kötü bir deneyime sahip olabilir. Ticari kuruluşların suya yatırım yapma riskini almasını istiyorsanız, daha yapılacak çok iş var.

Dahası, görsel derinlik modeli her şeye uyan tek bir çözüm değildir. Bazı görevlerin görsel olarak etiketlenmesi zordur veya uygulanması maliyetlidir. AI yalnızca kısa bir süre içinde iç çekilebilir.

Sonuç olarak, görsel derin öğrenme modelinin olgunluğu ve görsel olmayan sahnelerin keşfi yapay zeka gelişimine yeni hikayeler ve hayal gücü getirdi.Binlerce kutunun akıllı sesi ve bir elin yüz tanıma özelliği ile karşılaştırıldığında, daha şaşırtıcı ve pratik. Seks de dört gözle beklemeye değer.

Fakat özünde, tüm teknik sorunlar nihayetinde ekonomik meselelerdir. Maliyet dikkate alınmadığı sürece her zaman elde edilebilir. "Üç Vücut" ta Qin Shihuang, güneşin yörüngesini hesaplayabilen insansı bir bilgisayar kuyruğu oluşturmak için 30 milyon asker kullanmamış mıydı?

Bu aynı zamanda yapay zeka endüstrisinin mevcut durumuna sessizce denk geliyor. Teknoloji kritik bir konu değil. Parası olmayan ve mühendislik yapamayan projeler için yapay zekanın geri dönmesine izin vermeyin ...

Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

Bu gece petrol fiyatlarındaki düşüş sizi heyecanlandırmasın, Jingdong ve Guotong size 153 milyonluk bir yıl sonu bonusu verecek!
önceki
Huawei nova 4 görünümü tamamen açığa çıktı: 6,4 inç delik kazma ekranı, arka üç kamera + parmak izi tanıma, süper yüksek değer
Sonraki
Kendini bu suçlular grubunda görebilirsin
Giyilebilir, AR / VR ve IoT insan-bilgisayar etkileşimi pazarlarının büyümesi konusunda iyimser olan Bosch Sensors, üç yeni üründen yararlanıyor
"Desperate City 4" Ekim'de piyasaya sürülecek, deneme sürümü Temmuz'da gelecek
FMCW dairesel tarama SAR'ı temel alan görüntüleme sistemi tasarımı ve test yöntemi
Noon Star News Ulusal Film Bürosu: Çin, sinema pazarından çıkış mekanizmasını ilk kez uygulayacak; FIFA Başkanı: Çoğu futbol federasyonu 2022 Dünya Kupası'nın 48 takıma genişletilmesini destekliyor
Pekin Üniversitesi Bilgisayar Bilimleri Bölümü'nden Profesör Wan Xiaojun ile röportaj: El yazması yazma robotları yeni medya çağının ürünü | CCF-GAIR 2017
Hepsi seyirci, öyleyse neden orijinal parti asilsiniz?
"Dedektif Tang 2" "sürpriz" dizisinin afişlerini ortaya çıkarıyor, Çin, Japon ve Amerikalı yıldızlar dünya dedektif etkinliğine katılıyor
95'ler sonrası nesli anlamıyorsunuz, havalı "Cennete Dönüş" küçük beyaz ayakkabılar yeterince moda! Yeter kişilik! Küçük konu
Kesirli Düşük Sıralı Kovaryans Spektrumuna ve FPGA Uygulamasına Dayalı Spektrum Algılama Algoritması Araştırması
OnePlus 6T veri yolu kartı, Shenzhen Pass / Lingnan Pass, OnePlus 6T McLaren National Bank versiyonunu bugün piyasaya sürdü
Wu Xin duygulardan bahsediyor ve kendini "süper pasif" olarak görüyor, kariyerini ve sevgisini derecelendiriyor
To Top