g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Duang karakterlerini tanımak için radikal radikallere dayanan ICPR Görüntü Tanıma ve Tespit Mücadelesi şampiyon planı yayınlandı

Leifeng.comun yapay zeka teknolojisi inceleme notu: İnternetin hızla gelişmesiyle birlikte resimler, bilgi yayma için önemli bir ortam haline geldi. Resimlerdeki metin tanıma ve algılama teknolojisi, akademik endüstride de bir araştırma noktası haline geldi. Kimlik fotoğrafı tanıma, bilgi toplama ve kitaplar gibi alanlarda uygulanıyor. Elektronik ve diğer alanlar.

Ancak, her zaman var olan sorun, web resimlerine dayalı Çin tabanlı OCR veri kümesinin olmamasıdır. Bu sorun noktasına dayanarak, Alibaba'nın "Görüntü ve Güzellik" ekibi, Alibaba'nın ilk halka açık OCR veri kümesi ve mevcut en zor ve en zengin çevrimiçi görüntü OCR veri kümesi olan MTWI veri kümesini başlattı.

Bu veri setine dayanarak, Alibaba'nın "Görüntü ve Güzellik" ekibi ve Güney Çin Teknoloji Üniversitesi, ICPR MTWI 2018 Yarışmasını ortaklaşa düzenlediler. Yarışma üç bağımsız parçaya bölünmüştür. Biri, tek bir metin satırı (sütun) resmindeki metni tanımaktır. İkincisi, görüntüdeki metin satırının konumunu tespit etmek ve konumlandırmak, üçüncüsü ise tüm görüntüdeki metin içeriğini tanımaktır. Üç parkur bağımsızdır ve her parkur binden fazla takımın ilgisini çekmiştir.

NELSLIP'den (Ulusal Konuşma ve Dil Bilgi İşleme Mühendislik Laboratuvarı, Konuşma ve Dil Bilgi İşleme Ulusal Mühendislik Laboratuvarı, Çin Bilim ve Teknoloji Üniversitesi) Profesör Du Jun ve Profesör Dai Lirong ekibi, üç görevin tamamında şampiyonluğu kazanmak için HKUST IFLYTEK ile işbirliği yaptı. Aşağıda, bu yarışmadaki tanımlama ve tespit görevlerinden sorumlu olan Bilim ve Teknoloji Üniversitesi öğrencileri Zhang Jianshu ve Zhu Yixing'in yarışma planının açıklaması yer almaktadır. Üçüncü parça için, tanımlama ve tespit planını birleştirdiler.

Bu yarışmada organizatör veri seti olarak 20.000 görüntü sağladı. Bunların% 50'si eğitim seti,% 50'si test seti olarak kullanılmaktadır. Veri kümesinin tümü, esas olarak yapay görüntülerden, ürün açıklamalarından ve web reklamlarından oluşan web görüntülerinden türetilmiştir. Her bir görüntü, karmaşık dizgi içerebilir veya yoğun küçük metin veya çok dilli metin içerebilir veya filigran içerebilir. Bu, metin algılama ve Mevcut tüm zorlukları tanımlama. Aşağıdaki tipik bir resimdir.

Metin tanıma

Bu yarışmada sunulan şemalar kabaca iki türe ayrılabilir, biri CTC tabanlı şema ve diğeri dikkat tabanlı Kodlayıcı-Kod Çözücü şemasıdır. NELSLIP ekibi nihayet yinelenen sonuçlara göre ikinci seçeneği seçti.

Oyunun zorlukları

Birincisi, sürekli metin gibi OCR'nin karşılaştığı uzun vadeli problemlerdir ve doğal sahnelerin arka planı karmaşıktır ve gürültü paraziti nispeten büyüktür.

İkinci olarak, derin öğrenme modelleri eğitim için büyük miktarda veriye ihtiyaç duyar. Birkaç eğitim örneği varsa, modeli iyi eğitmek zordur. Bu tanımada bazı geleneksel karakterler vardır ve geleneksel karakterler hakkında daha az eğitim örneği vardır, bu da tanımayı daha zor hale getirecektir.

çözüm

Radikal Analiz Ağı

Bu yarışmada, NELSLIP ekibi, esas olarak küçük örneklerin problemini çözmek için kullanılan Radikal Analiz Ağını kullandı. Bu ağ, Zhang Jianshunun ICME2018 hakkındaki makalesine dayanmaktadır. Basılı Çince karakter tanımada sıfır vuruşlu öğrenme için radikal analiz ağı. Bazı optimizasyonların aşağıdaki belirgin avantajları vardır:

Bu, karakterleri kayan pencerelerden bölmek yerine dikkat mekanizmasına dayalı bir kodlama ve kod çözme yöntemidir.Girişin yatay veya dikey olmasına bakılmaksızın, yalnızca karşılık gelen piksellere odaklanır.

Bu şemadan önce, herkes Çince karakterleri tam karakterler veya bir resim olarak tanıdı.Kullanılan yöntem resim tanıma veya ImageNet resim sınıflandırma şemalarına benziyordu, Çince karakterlerin kendilerinin önemli doğasını göz ardı ediyordu - Çince karakterler radikallerden oluşur. oluşturmak. Yarışma sırasında, Çince karakterleri radikaller şeklinde parçalara ayırdılar. Örnek olarak "Dian" kelimesini ele alalım, bu kelime sol ve sağ yapıya sahiptir, önce üst ve alt yapılar "Gong" ve "" harflerinin yanına dizilir, sonra "Shi" nin sol üst ve üst tarafları bu üst ve alt yapıyı çevreler. Sağ taraf "ji" ve "sağ" yukarı ve aşağıdan oluşur.

Bu tür bir ağaç yapısı derinlik-önce çapraz geçiş ile bir dizgi formuna geçilebilir ve daha sonra Çince karakterler dizgiyi tanıyarak tanınabilir. Önceden tanımlanmış bir IDS2char sözlüğü var. Örneğin, bu karakterlerin karakter dizileri tanımlandıktan sonra sözlükte "Ju", "Qian" ve "Fang" olmak üzere üç karakter tanımlanabilir ve ardından Çince karakterler tanımlanabilir.

Bu yöntem iki fayda sağlayabilir:

Pek çok Çince karakter türü vardır, onları radikallere ayırarak, sayı büyük ölçüde sıkıştırılabilir ve fazlalık ortadan kaldırılır.

Çince karakterler uzun bir diziye bölünmüş gibi görünse de, aslında hesaplama hızını artırıyor. İyi bir tanıma işi yapmak istiyorsanız, tüm Çince karakterleri dahil etmelisiniz.Eski zamanlarda kullanılan tüm karakterleri sayarsanız, karakter sayısı 100.000'e ulaşacaktır. 100.000 kategorilik bir sınıflandırıcı yapılırsa verimlilik çok düşük olacaktır. Bu nedenle, her kelimenin sırası orijinal kelimeden beş, altı veya daha fazlasına ayrılmasına rağmen, dizideki her kategorideki kategorilerin sayısı azalacak ve arama alanı buna göre daha küçük olacaktır.Eğer uzlaşma sağlanırsa, kod çözme verimliliği nispeten elde edilir. geliştirmek.

Eğitim setinde görünmeyen kelimeler gibi düşük frekanslı kelimeleri tanıyabilir.Şu anda ek veri toplamaya ve modeli yeniden eğitmeye gerek yoktur.

Örneğin daha önce çok popüler olan duang kelimesi bir ejderhaya dönüştü. Bu kelime çok basit olmasına rağmen eğitim setinde olmadığı için sıradan modeller onu tanıyamaz, "", "" veya başka kelimeler olarak tanıması çok muhtemeldir. RAN modeli için, OOV senaryosunda tanımlanabilir. Örneğin, duang kelimesi girdi olarak kullanılırsa, Cheng Helong çözülecek ve Cheng Helong'un üst ve alt yapısını temsil eden bir sıra görünecektir.

Aynısı geleneksel karakterleri tanırken de geçerlidir.

Aşağıdaki şekilde gösterildiği gibi, görüntüler gerçek sahnelere dayandığından, "" ve "" gibi geleneksel karakterler belirir. Genel dil modeli "Daigou" yu anlamsal olarak doğru olan "Daigou" olarak tanımlayabilse de, hala sorunlar var. RAN ağı aracılığıyla, buradaki OOV sorunu iyi bir şekilde çözülebilir ve geleneksel karakterler doğru bir şekilde tanımlanabilir.

RAN ağında yaptıkları bir gelişme daha var. Önceki ağ tek kelime tanıma içindi. Modelin kodlayıcısının yalnızca bir CNN'si vardı. Bu sefer görev metin satırı tanımaydı. Metnin sağduyu bilgisini modellemek için, kodlayıcı CNN'den sonra bir tane eklediler. İki yönlü RNN ağı. Ek olarak, tek kelime tanımadan metin satırı tanımaya, ikisi arasındaki boşluk model için özellikle büyük değildir. Burada radikal radikalleri çıkarmak için kullanılan dikkat mekanizması, kelimeler arasındaki boşlukları da ayırt edebilir. Aslında, sadece Her kelimenin köklerinin ortasına bir işaretçi eklemek gerekir.

Dikkat mekanizmasındaki iyileştirmeler

Dikkat mekanizmasını da geliştirdiler.Önceden tek kafalı bir dikkat mekanizmasıydı.Bu oyunda 4 başlı dikkat mekanizmasına eklenmiş ve dikkatlere ek bir haberci eklenmişti.Yapım aktörü geçmişi değiştirecek Dikkat bilgisi, dikkatin hizalanma yeteneğini geliştirebilecek mevcut anın dikkat modelini anlatır.

Buna ek olarak, modeli yalnızca kendi kendine öğrenmesi için bir kara kutu olarak ele almakla kalmayan, aynı zamanda dikkat modeline daha güçlü rehberlik sağlayan dikkat yönlendirme teknolojisini de kullanırlar. Böyle gerçek bir sahne durumunda, gürültü büyük olduğunda, dikkat modelinin iyi öğrenilmesi zordur.Modele daha iyi rehberlik ederek, dikkat daha hızlı öğrenecek ve model daha iyi yakınlaşacaktır.

RGB + HSV, temel olarak karmaşık arka plan gibi bazı genel OCR sorunlarını çözmek için kullanılır. İnsan gözü ile görülemeyen bazı resimler HSV tarafından vurgulanarak tonlardaki farklılığın vurgulanması ve böylece doğru şekilde tanımlanabilmeleri sağlanabilir.

Ek olarak, metin döndürme, sıkıştırma vb. Gibi bazı veri geliştirme çalışmaları da yaptılar.

Zor durumlar:

İlk örnek, çok fazla arka plan gürültüsüdür. Aşağıdaki resim insan gözüyle görülemeyen daha karmaşık bir örnektir. Bu örnekte, arka plan pembe ve ön plan açık sarıdır.HSV, görüntü tonunu geliştirmek için kullanılabilse de, gerçek etiketinin güzel bebek NO1 olduğunu görebilirsiniz.HSV kullanılmazsa, sonuç çok yanlıştır. Kullandıktan sonra, "güzel" kelimesini tespit etmek hala zor.

İkinci örnek, gerçek sahnelerden çıkarılan bazı resimlerdir, eğer resmin kendisi çok küçükse, belli bir ölçüde büyütün, makine tanıma çok bulanık hale gelecektir.

Üçüncü daha zor örnek, daha önce bahsedilen düşük frekanslı kelime problemidir ve RAN ağı aracılığıyla doğru bir şekilde tanımlanabilir.

Algıla

Bu yarışmada tespitte dört sorun vardır:

Biri çoklu açı problemidir. Daha önce, akademideki algılamalar, kanepeleri veya insan bedenlerini algılamak gibi dikdörtgen kutularla işaretlenmişti, ancak 45 derecelik eğik metin gibi metin algılaması yaparsanız, şu anda dikdörtgen kutular kullanırsanız, çok fazla gürültü oluşacaktır.
İkincisi, metinler arasındaki örtüşmedir. Örneğin aşağıdaki resimde iki satır kelime birbiriyle örtüşüyor.
Üçüncüsü, bulanık metin sorunudur. Aşağıdaki şekilde çerçevelenen kısım insan gözüyle bile görülemez.
Dördüncü olarak, metin uzunluğu aralığı nispeten büyüktür. Bazı metinler çok uzun ve bazıları çok kısadır.

Bu sorunlar için optimizasyon

Bu, bu yarışmada kullanılan ağ yapısı diyagramıdır Bu, farklı boyutlardaki özellikleri birleştiren bir aşağı örnekleme sürecidir.

Çözülmesi gereken ikinci problem ise çok açılı problemdir. Çok açılı problemler için, eğer dört köşe doğrudan ilk adımda yerleştirilirse, belirsizlik olacaktır.Bu durumdan kaçınmak için, ilk adımda, giriş görüntüsü üzerinde bir uzamsal piramit oluşturmak için LocSLPR kullandılar ve her ölçekte metni çizdiler. Metin satırının doğru konumlandırmasını tamamlamak için metin satırının konturu.

Burada yığılmış R-CNN kullanılır.İlk teklif kutusu yatay bir dikdörtgen kutudur ve LocSLPR, konturu sığdırmak için kullanılır.İkinci seferde, kontur bilgisi zaten mevcuttur, bu nedenle ikinci öneri kutusu döndürülmüş dikdörtgen bir kutudur.

Kalan görüntü bulanıklığı sorunu, sinir ağının sağlamlığıyla çözülebilir.Bu sorunun çözümü zor olsa da, ağ bu yarışmada özel olarak tasarlanmamıştır.

Oyunda karşılaşılan pratik sorunlar

CVPR, ICCV ve diğer bilgisayarla görme konferanslarında her yıl çok sayıda makale ve öneri var.Bu yarışmada birinciliği almak için çeşitli iyi önerilere başvurmanız gerekiyor.

Tanıma konusunda büyük bir zorluk var, yani bazı resimler çok küçük ve yakınlaştırıldıktan sonra net bir şekilde görülemiyor veya resimler bozuk ve görüntü çözünürlüğü yüksek değil Yakınlaştırmadan sonra görüntü kalitesini iyileştirmek için bazı süper çözünürlük yöntemleri yapmak istiyorlar. CVPR'de bazı iyi süper çözünürlük şemaları var, ancak bittikten sonra etkinin çok tatmin edici olmadığı, ayrıca rotasyondaki bazı problemlerin çözülmesi daha zor.

Buna ek olarak, NLP, makine çevirisi vb. Dahil dikkat üzerine pek çok araştırma vardır. Dikkat mekanizması geliştirmeleri çoktur. Bununla birlikte, bu programlar metin sorunlarına yönelik değildir, bu nedenle ilk denediğimde, programların görevi ne kadar etkili geliştireceğinden emin olamıyorum. İyileştirmek ve denemek için görünüşte uygun olan bazı dikkat mekanizması çözümlerini seçme sürecinde, birçok sorunla da karşılaşıldı.

Bu şema şu anda el yazısı karakter tanıma konusunda iyileştirmeye ihtiyaç duyuyor. İnsanlar el yazısıyla yazarken çok rahatlar ve bazen Çince karakterlerin radikallerini ve uzamsal yapısını silen sürekli vuruşlar olacaktır.Şu anda, RAN tabanlı yöntemle elde edilen performans iyileştirmesi basılı gövde kadar büyük değildir.

Gelecekte, iyileştirmeler dikkat ve kodlayıcılara odaklanabilir.

Lei Feng Ağı Lei Feng Ağı

2017 Metway / Kelway 351.800'den başlayarak pazara giriyor

Sahaya çıkan Wang Zhaojun, düşmanı kaçınılmaz kıldı