Academia | Büyük, nadir ve açık görsel tanıma kategorilerini aynı anda nasıl ele alabilirim? Berkeley AI Enstitüsü açık bir uzun kuyruk tanıma yöntemi öneriyor

"

Görsel tanıma sistemlerinin değerlendirilmesinde daha kapsamlı ve doğru bir test standardı.

"

AI Technology Review Press: Bilgisayar görüşü alanında, görüntü sınıflandırma aslında en temel sorundur ve son derece uzun kuyruklu, açık bir veri kümesiyle karşılaştığında, en temel görüntü tanıma görevini bile iyi başarmak zordur. Berkeley AI Araştırma Enstitüsü, belirli bir deneyime dayalı olarak "Açık Uzun Kuyruk Tanıma" (OLTR) yöntemini önermiştir.Raporlara göre, bu yöntem aynı anda büyük, nadir ve açık görsel tanıma kategorilerini ele alabilir. Şu anda görsel tanıma sistemi tarafından değerlendirilmektedir. Algılama, bölümleme ve pekiştirmeli öğrenmeye daha da genişletilebilen daha kapsamlı ve gerçek bir test standardıdır. Bu sonuç, Berkeley AI Araştırma Enstitüsü'nde de yayınlandı ve Lei Feng Net AI Technology Review aşağıdaki gibi derlendi.

· Mevcut bilgisayarla görme ortamı - gerçek dünya sahnesi ·

Bir gün bir ekolojist bize geldi. Bir kamera ile birçok vahşi hayvan fotoğrafı çektiği için, bu fotoğrafların veritabanına göre hangi hayvanların yakalandığını otomatik olarak belirlemek için modern bilgisayarla görme teknolojisini kullanmayı umuyor. Bu, temel bir görüntü sınıflandırma problemi gibi görünüyor, bu yüzden o sırada kendimize çok güveniyorduk ve iyi olacağını düşündük. Ancak başarısız olduk. Bu ekolojist tarafından sağlanan veritabanı son derece uzun kuyruklu ve açık. Genellikle, yeterli eğitim verisi alamadığımız sürece, diğer tarafa daha fazla kuyruk kategorisi verisi sağlamanın mümkün olup olmadığını sorar ve test verilerinde görünebilecek bazı açık küme kategorilerini göz ardı ederiz. Ne yazık ki, ekolojistin sorununu çözmek için daha fazla veri toplama yöntemini benimseyemiyoruz. Bu ekolojistlerin vahşi doğada fotoğraflamayı planladıkları nadir hayvanları fotoğraflamaları uzun zaman alabilir. Nesli tükenmekte olan bazı hayvanların fotoğrafını çekmek için, fotoğraf çekmeden önce birkaç yıl beklemeleri bile gerekiyor. Aynı zamanda yeni hayvan türleri ortaya çıkmaya devam ediyor ve aynı zamanda eski türler de yok oluyor. Böyle dinamik olarak değişen bir sistemde, toplam kategori sayısı asla sabitlenemez. Dahası, hayvanları koruma anlamında, yeni keşfedilen nadir hayvanları tanımlamak, çok sayıda hayvanları tanımlamaktan daha değerlidir. Hayvanları yalnızca çok sayıda kategoride iyi tanımlayabilirsek, yöntemimizin hiçbir zaman pratik değeri olmayacaktır. Veri büyütme, örnekleme teknikleri, küçük örneklem öğrenme, dengesiz sınıflandırma gibi mümkün olan tüm yöntemleri denedik ve aklımıza gelen her şeyi denedik, ancak mevcut yöntemlerin hiçbiri büyük kategorileri ve nadir kategorileri aynı anda işleyemez. Ve kategorileri açın (Şekil 1).

Şekil 1: Mevcut bilgisayar görme ortamı ile gerçek dünya sahnesi arasında önemli bir boşluk var.

O zamandan beri, mevcut bilgisayarla görme yöntemleri ile gerçek dünya senaryoları arasında bu kadar büyük bir boşluk olmasının ana nedenini düşünüyoruz? Bu sorun yalnızca vahşi yaşam fotoğrafçılığı verilerinin sorunu değildir.Gerçek hayatta bu sorun hem endüstride hem de akademide tekrar tekrar ortaya çıkar. Evrişimli sinir ağı görüntüleri devasa ImageNet görüntü veri kümesinde çok düzgün bir şekilde sınıflandırabiliyorsa, neden açık dünyadaki görüntü sınıflandırma sorununu çözemiyor? Görsel tanıma alanında, küçük örneklem öğrenme ve açık küme tanıma gibi hemen hemen tüm problemlerin başarılı çözümleri vardır. Ancak hiç kimse bu sorunları bir bütün olarak ele almıyor. Gerçek dünya uygulamalarında, ister bir baş kategorisi isterse bir kuyruk kategorisi olsun, sınıflandırma bazen birden fazla problemle karşı karşıya kalır. Bu nedenle, teori ile pratik arasındaki bu boşluğun görsel tanıma ortamının kendisinden kaynaklanabileceğine inanıyoruz.

· Açık Uzun Kuyruklu Tanıma (OLTR) ·

Mevcut görsel tanıma ortamında, eğitim verileri ve test verileri kapalı bir dünya ortamında (ImageNet veri seti gibi) dengelenir. Ancak bu ayar, gerçek dünya sahnesini iyi bir şekilde simüle etmez. Örneğin, ekolojistler hiçbir zaman dengeli bir yaban hayatı veri seti toplayamayacaklar çünkü hayvanların dağılımı eşit değil. Benzer şekilde, yol işaretleri, moda markaları, yüzler, hava durumu, sokak ortamı vb. Gibi çeşitli veri setlerinin eşit olmayan açık dağıtımı insanları rahatsız edebilir. Bu yönleri sadakatle yansıtmak için, resmi olarak doğal veri setlerinden türetilen "Açık Uzun Kuyruk Tanıma" (OLTR) üzerine çalışmaya başladık. Pratik bir sistem, birkaç ortak kategori ve çok sayıda nadir kategori arasında sınıflandırma yapabilmeli ve tek bir kategori kavramını geçmişte hiç görülmemiş bir kategoriye dayalı olarak çok az sayıda bilinen örnekten özetleyebilmelidir. Örnekler, bu kategorinin benzersizliğini anlamak için. OLTR'yi uzun kuyruklu ve açık dağıtılmış verilerden öğrenme ve dengeli bir test veri setine dayalı olarak sınıflandırmanın doğruluğunu değerlendirme olarak tanımlıyoruz ve bu test veri seti sürekli bir spektrumda baş, kuyruk ve açık verileri içermelidir. Kategori ayarlayın (Şekil 2).

Şekil 2: Açık uzun kuyruk tanıma problemimiz, tüm spektrumun dengesiz sınıflandırması, küçük örneklem öğrenme ve açık küme tanıma ile başa çıkmak için açık dünya uzun kuyruklu dağıtılmış eğitim verilerinden öğrenilmelidir.

OLTR basit tanımla sınırlı değildir.Şu anda onunla yakından ilgili olan üç konu vardır: dengesizlik sınıflandırması, küçük örneklem öğrenme ve açık küme tanıma Genellikle insanlar bunlara ayrı ayrı bakar ve bunları ayrı ayrı inceler. Şekil 3, aralarındaki farkları özetlemektedir. Görsel tanıma sistemlerini değerlendirirken, yeni önerilen OLTR, daha geniş ve daha gerçekçi bir test standardı haline gelebilir.

Şekil 3: Dengesiz sınıflandırma, küçük örneklem öğrenme, açık küme tanıma ve açık uzun kuyruk tanıma (OLTR) arasındaki fark.

· Dikkat ve hafızanın önemi ·

Görsel kavramların öğrenilen ölçütlere göre ilişkilendirilebilmesi için görüntüleri bir özellik alanına eşlemeyi öneriyoruz ve bu ölçü hem kapalı dünya sınıflandırmasını hem de açık dünyanın yeniliğini tanıyor. Önerdiğimiz dinamik meta gömme katmanı, doğrudan görüntü özelliklerini ve ilişkili bellek özelliklerini birleştirir.Aynı zamanda, özellik normu, Şekil 4'te gösterildiği gibi, bilinen kategorilere aşinalığı ifade eder.

İlk olarak, baş ve kuyruk kategorilerinden bilgi toplayarak görsel bellek elde ederiz; ardından, orijinal doğrudan özellikleri geliştirmek için ilişkili bellek özellikleri olarak bellekte depolanan görsel kavramları yeniden enjekte ederiz. Doğrudan gözleme (yani doğrudan özellikler) ulaşmaya yardımcı olmak için uyarılmış bilginin (yani bellek özellikleri) kullanımı olarak anlayabiliriz. Ayrıca, enjekte edilecek bellek özelliklerinin sayısını ve türünü kontrol etmek için bir konsept seçici öğrendik. Baş kategori bilgisi çok sayıda doğrudan gözlem elde ettiğinden, bunlara yalnızca küçük miktarda bellek özelliği enjekte edildi. Buna karşılık, kuyruk kategorisinin birkaç gözlemi vardır, bu nedenle bellek özelliğindeki ilişkili görsel kavramlar çok kullanışlıdır. Son olarak, görsel belleğin erişilebilirliğini hesaplayarak açık kategorinin güvenilirliğini ayarlıyoruz.

Şekil 4: Metindeki yöntemin görsel açıklaması. Önerdiğimiz dinamik meta gömme katmanı, doğrudan görüntü özelliklerini ve ilişkisel bellek özelliklerini birleştirir ve bilinen sınıflara aşinalığı ifade etmek için özellik normlarını kullanır.

· Genel geliştirme ·

Şekil 5'te gösterildiği gibi, bu makaledeki yöntem, tüm çoklu / orta / küçük örnek kategorilerini ve açık kategorileri kapsamlı bir şekilde işler ve her yönden önemli iyileştirmeler elde etmiştir.

Şekil 5: Bu yazıda verilen yöntemin sıradan modele göre mutlak F1 puanı. Bu makaledeki yöntem, çoklu / orta / küçük sayı kategorileri ve açık kategorilerde genel ilerleme kaydetmiştir.

· Dinamik görselleştirmeyi öğrenmek ·

Burada, Şekil 6'da gösterildiği gibi kafadaki aktif nöronları görselleştirerek bellek özelliklerinin enjekte ettiği görsel kavramları kontrol ettik. Spesifik olarak, her girdi görüntüsü için, bellek özelliklerinde göç eden ilk 3 nöronunu belirledik. Tüm nöronlar, tüm eğitim setindeki en yüksek aktivasyon yamaları setiyle görselleştirilir. Örneğin sol üst köşedeki görüntüyü kuyruk kategorisi "horoz" olarak sınıflandırmak için yöntemimiz sırasıyla "kuş başı", "daire" ve "nokta dokusu" görsel kavramlarını aktarmayı öğrendi. Özellikler enjekte edildikten sonra, dinamik meta gömme katmanının bilgi zenginliği ve tanınması daha yüksek hale gelir.

Şekil 6: Bellek özelliklerine görsel kavramları enjekte etmenin ilk üç örneği. Sağ alt taraftaki (kırmızıyla işaretlenmiş) arıza dışında, diğer 3 giriş görüntüsünün tümü normal model tarafından yanlış sınıflandırılır ve modelimiz tarafından doğru şekilde sınıflandırılır. Örneğin, kuyruk kategorisi "horoz" a ait olan sol üst köşe görüntüsünü sınıflandırmak için bu yazıda yer alan yöntem sırasıyla "kuş başı", "daire" ve "nokta dokusu" görsel kavramlarını aktarmayı öğrenmiştir.

· Gerçekliğe dönüş ·

Şimdi gerçek ormana dönelim ve bu makalede önerdiğimiz yöntemleri, ilk bölümde ekolojistlerin bahsettiği yaban hayatı verilerine uygulayalım. Neyse ki, yeni çerçevemiz, zengin kategorilerden ödün vermeden kıt kategorilerde önemli ilerleme kaydetti. Özellikle, 40'tan az görsel içeren kategorilerde sonuçları yaklaşık% 40 iyileştirdik (% 25'ten% 66'ya). Açık kategori tespitinde de sonuçları% 15'ten fazla iyileştirdik.

Açık uzun kuyruk tanıma ortamı altında geliştirilen hesaplama yönteminin nihayet doğal olarak dağıtılmış veri setlerinin ihtiyaçlarını karşılayabileceğine inanıyoruz. Özetle, Açık Uzun Kuyruk Tanıma (OLTR), görsel tanıma sistemlerinin değerlendirilmesinde daha kapsamlı ve doğru bir test standardıdır ve algılama, segmentasyon ve pekiştirmeli öğrenmeye daha da genişletilebilir.

Teşekkür: Bu blog yazısındaki katkıları ve tartışmaları için "Açık Dünyada Büyük Ölçekli Uzun Kuyruk Tanıma" makalesinin tüm ortak yazarlarına teşekkür ederiz. Bu yazıda ifade edilen görüşler bu yazının yazarına aittir.

Bu blog yazısı, IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansı'nda (CVPR 2019) aşağıdaki şekilde sunulacak bir makaleye dayanmaktadır:

  • "Açık Bir Dünyada Büyük Ölçekli Uzun Kuyruklu Tanıma"

    Yazar: Ziwei Liu *, Zhongqi Miao *, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu

  • Kağıt: https://arxiv.org/abs/1904.05160

  • Proje Sayfası:

    https://liuziwei7.github.io/projects/LongTail.html

  • Veri Kümesi:

    https://drive.google.com/drive/folders/1j7Nkfe6ZhzKFXePHdsseeeGI877Xu1yf

  • Kod ve Model:

    https://github.com/zhmiao/OpenLongTailRecognition-OLTR

https://bair.berkeley.edu/blog/2019/05/13/oltr/ aracılığıyla

AI Teknolojisi İnceleme Raporu

-Önceki içerik önerisi-

Uber AI Araştırma Enstitüsü, ICLR 2019'un en iyi makalesi "Piyango Hipotezi" ni derinlemesine yıkıyor!

Makine öğrenimi modelindeki hatayı bulmak çok mu zor? DeepMind üç harika yöntem sunar!

Tsinghua Üniversitesi'nden Akademisyen Zhang Bo ile Diyalog: Çin'in yapay zekası ve IJCAI'nin 40. yıldönümünde, halka başka hangi hikayeler anlatılmadı?

Önizleme | Sürekli değişen taleplerle birlikte yapay zeka güvenlik endüstrisinin ne tür bir yapay zeka vizyon hesaplama motoruna ihtiyacı var?

2019 Küresel Yapay Zeka ve Robotik Zirvesi

Çin Bilgisayar Derneği'nin ev sahipliği yaptığı ve Lei Feng.com ve Hong Kong Çin Üniversitesi (Shenzhen) tarafından ortaklaşa düzenlenen 2019 Küresel Yapay Zeka ve Robotik Zirvesi (CCF-GAIR 2019) düzenlenecek 12-14 Temmuz 2019 Shenzhen'de düzenlendi.

O sırada Nobel Ödülü sahibi James J. Heckman, Çinli ve yabancı akademisyenler, Dünya Zirvesi Başkanı, tanınmış Fellow ve çok sayıda ağır konuk savaşta yer alacak. Yapay zeka ve robotik bilim, üretim ve yatırım alanlarında karmaşık hayatta kalma durumunu tartışmak.

Tıklamak Orijinali okuyun Resmi olarak yetkilendirilmiş çeviri kursunu öğrenmek için AI Araştırma Enstitüsüne gidebilirsiniz: 2018 Güz CS294-112 Derin Güçlendirmeli Öğrenme

Cengiz Han-Heilongjiang Güzel Sanatlar Yayınevi 2012 Wang Hongli Tarafından Boyanmış
önceki
20. Yüzyılda Korsanlar [2. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 2]
Sonraki
Netizenler 3 gün boyunca OnePlus 7 Pro'yu kullandı ve Apple iPhone'un gerçekten takıldığını hissetti!
20. Yüzyılda Korsanlar [2. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 1]
20. Yüzyılda Korsanlar [1. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 2]
Makine öğrenimi modellerindeki hataları bulmak çok mu zor? DeepMind üç iyi yöntem sundu
Kang Dexin çöktü, Xingquan, Shanghai Investment ve League of Nations, kaçmadan bir süre "gök gürültüsüne bastı"
20. Yüzyılda Korsanlar [1. Bölüm] -China Comics Publishing House 1988 Zhi Gang ve Xiao Wen boyadı [Bölüm 1]
Qin ve Chu Hanedanlığı'ndaki Büyük Geyik Savaşı - Changjiang Edebiyat ve Sanat Yayınevi 1983, Yuan Yixian ve He Sheng tarafından boyanmıştır.
Çin'deki 90'lar sonrası nesil Buffettin pahalı öğle yemeğini fotoğrafladı. Kim o?
Qin ve Chu Hanedanlığı'ndaki Büyük Geyik Savaşı - Changjiang Edebiyat ve Sanat Yayınevi, 1983, Yuan Yixian ve He Sheng tarafından boyanmış
Uber Yapay Zeka Araştırma Enstitüsü, ICLR 2019'un en iyi kağıt "piyango hipotezi" ni derinden yıkıyor!
Changzhou Şehri-Changjiang Edebiyat ve Sanat Yayınevi'nin Kanlı Savaşı, 1983, Fang Longchang tarafından boyanmıştır [Bölüm 2]
"Yalnızca kalkınma, sorunu çözmek için" ana anahtar "dır" Putuo Bölgesi, ekonomiyi geliştirmek ve insanların geçimini sürekli iyileştirmek için yenilikler yapıyor
To Top