g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Duang karakterlerini tanımak için radikal radikallere dayanan ICPR Görüntü Tanıma ve Tespit Mücadelesi şampiyon planı yayınlandı

İnternetin hızla gelişmesiyle birlikte resimler, bilginin yayılması için önemli bir araç haline geldi.Resimlerdeki metin tanıma ve algılama teknolojisi, bir zamanlar akademik endüstride bir araştırma noktası haline geldi ve kimlik fotoğraflarının tespiti, bilgi toplama, kitap sayısallaştırma gibi alanlarda uygulanıyor.

Ancak, her zaman var olan sorun, web resimlerine dayalı Çin tabanlı OCR veri kümesinin olmamasıdır. Bu acı noktaya dayanarak, Alibaba "Görüntü ve Güzellik" ekibi, Alibaba'nın ilk halka açık OCR veri kümesi ve mevcut en zor ve en zengin çevrimiçi görüntü OCR veri kümesi olan MTWI veri kümesini başlattı.

Bu veri setine dayanarak, Alibaba'nın "Görüntü ve Güzellik" ekibi ve Güney Çin Teknoloji Üniversitesi, ICPR MTWI 2018 Yarışmasını ortaklaşa düzenlediler. Yarışma üç bağımsız parçaya bölünmüştür. Biri, tek bir metin satırı (sütun) resmindeki metni tanımaktır. İkincisi, görüntüdeki metin satırının konumunu tespit etmek ve konumlandırmak ve üçüncüsü, tüm görüntüdeki metin içeriğini tanımaktır. Üç parkur bağımsızdır ve her parkur binden fazla takımın ilgisini çekmiştir.

NELSLIP'den (Ulusal Konuşma ve Dil Bilgi İşleme Mühendislik Laboratuvarı, Konuşma ve Dil Bilgi İşleme Ulusal Mühendislik Laboratuvarı, Çin Bilim ve Teknoloji Üniversitesi) Profesör Du Jun ve Profesör Dai Lirong ekibi, üç görevin hepsinde şampiyonluğu kazanmak için HKUST IFLYTEK ile işbirliği yaptı. Aşağıda, bu yarışmadaki tanımlama ve tespit görevlerinden sorumlu olan Bilim ve Teknoloji Üniversitesi öğrencileri Zhang Jianshu ve Zhu Yixing'in yarışma planının açıklaması yer almaktadır. Üçüncü parça için, tanımlama ve tespit planını birleştirdiler.

Bu yarışmada, organizatör veri seti olarak 20.000 görüntü sağladı. Bunların% 50'si eğitim seti,% 50'si test seti olarak kullanılmaktadır. Bu veri kümesinin tümü, esas olarak bileşik görüntülerden, ürün açıklamalarından ve web reklamlarından oluşan web görüntülerinden türetilmiştir. Her bir görüntü karmaşık dizgi içerebilir veya yoğun küçük metin veya çok dilli metin içerebilir veya filigranlar içerebilir. Bu, metin algılama ve Mevcut tüm zorlukları tanımlama. Aşağıdaki tipik bir resimdir.

Metin tanıma

Bu yarışmada sunulan şemalar kabaca iki türe ayrılabilir; biri CTC tabanlı şema ve diğeri dikkat tabanlı Kodlayıcı-Kod Çözücü şemasıdır. NELSLIP ekibi nihayet yinelenen sonuçlara göre ikinci seçeneği seçti.

Oyunun zorlukları

Birincisi, sürekli metin gibi OCR'nin karşılaştığı uzun vadeli problemlerdir ve doğal sahnelerin arka planı karmaşıktır ve gürültü paraziti nispeten büyüktür.

İkinci olarak, derin öğrenme modelleri eğitim için büyük miktarda veriye ihtiyaç duyar. Birkaç eğitim örneği varsa, modeli iyi eğitmek zordur. Bu tanımada bazı geleneksel karakterler var ve geleneksel karakterler hakkında daha az eğitim örneği var, bu da tanımayı daha zor hale getirecek.

çözüm

Radikal Analiz Ağı

Bu yarışmada, NELSLIP ekibi esas olarak küçük örneklerin problemini çözmek için kullanılan Radikal Analiz Ağını kullandı. Bu ağ, Zhang Jianshunun basılı Çince karakter tanımada sıfır vuruşlu öğrenme için Radikal analiz ağına dayanıyor (kağıt bağlantısı: http yarışmada aşağıdaki bariz avantajlara sahip bazı optimizasyonlar yapılmıştır:

Bu, karakterleri kayan bir pencereden bölmek yerine dikkat mekanizmasına dayalı bir kodlama ve kod çözme yöntemidir.Girişin yatay veya dikey olmasına bakılmaksızın, yalnızca karşılık gelen piksellere odaklanır.

Bu şemadan önce, herkes Çince karakterleri tam karakterler veya bir resim olarak tanıdı.Kullanılan yöntem, resim tanıma veya ImageNet resim sınıflandırma şemalarına benziyordu, Çince karakterlerin kendilerinin önemli doğasını göz ardı ediyordu - Çince karakterler radikallerden oluşur. oluşturmak. Yarışmada, Çince karakterleri radikaller biçiminde parçalara ayırdılar. Örnek olarak "Dian" kelimesini ele alalım, bu kelime sol ve sağ yapıya sahiptir, önce üst ve alt yapılar "Gong" ve "" harflerinin yanına dizilir, ardından "Ceset" in sol üst ve üst tarafları bu üst ve alt yapıyı çevreler. Sağ taraf "ji" ve "sağ" yukarı ve aşağıdan oluşur.

Bu tür bir ağaç yapısı derinlik-önce çapraz geçiş ile bir dizgi formuna geçilebilir ve ardından Çince karakterler dizgiyi tanıyarak tanınabilir. Önceden tanımlanmış bir IDS2char sözlüğü var. Örneğin, üç karakter "Ju", "Qian" ve "Fang" tanımlanır.Bu karakterlerin karakter dizileri tanındıktan sonra, yapı kategorisi, Çince karakter tanıma gerçekleştirmek için sözlükte indekslenebilir.

Bu yöntem iki fayda sağlayabilir:

1. Pek çok Çince karakter türü vardır: Bunları radikallere ayırarak sayı büyük ölçüde azaltılabilir ve fazlalık ortadan kaldırılır.

Çince karakterler uzun bir diziye ayrılıyor gibi görünse de aslında hesaplama hızını artırıyor. Tanıma konusunda başarılı olmak istiyorsanız, tüm Çince karakterleri eklemelisiniz.Eski zamanlarda kullanılan tüm karakterleri sayarsanız, karakter sayısı 100.000'e ulaşacaktır. 100.000 kategorilik bir sınıflandırıcı yapılırsa verimlilik çok düşük olacaktır. Bu nedenle, her kelimenin sırası orijinal kelimeden beş, altı veya daha fazlasına ayrılmasına rağmen, dizideki her kategorideki kategorilerin sayısı azalacak ve arama alanı buna göre daha küçük olacaktır.Eğer uzlaşma sağlanırsa, kod çözme verimliliği nispeten elde edilir. geliştirmek.

2. Eğitim setinde görünmeyen kelimeler gibi düşük frekanslı kelimeleri tanıyabilme Şu anda ek veri toplamaya ve modeli yeniden eğitmeye gerek yoktur.

Örneğin daha önce çok popüler olan duang kelimesi bir ejderhaya dönüştü. Bu kelime çok basit olmasına rağmen eğitim setinde olmadığı için sıradan modeller onu tanıyamaz, "", "" veya başka kelimeler olarak tanıması çok muhtemeldir. RAN modeli için, OOV senaryosunda tanımlanabilir. Örneğin, duang kelimesi girdi olarak kullanılırsa, Cheng Helong çözülecek ve Cheng Helong'un üst ve alt yapısını temsil eden bir sıra görünecektir.

Aynısı, geleneksel karakterleri tanımak için de geçerlidir.

Aşağıdaki şekilde gösterildiği gibi, görüntüler gerçek sahnelere dayandığından, "" ve "" gibi geleneksel karakterler belirir. Genel dil modeli "Daigou" yu anlamsal olarak doğru "Daigou" olarak tanımlayabilse de, hala sorunlar var. RAN ağı aracılığıyla, buradaki OOV sorunu iyi bir şekilde çözülebilir ve geleneksel karakterler doğru bir şekilde tanınabilir.

RAN ağını geliştirmelerinin bir başka noktası daha var: Önceki ağ tek kelime tanıma içindi. Modelin kodlayıcısının sadece bir CNN'si vardı. Bu sefer görev metin satırı tanımaydı. Metnin sağduyu bilgisini modellemek için kodlayıcı CNN'den sonra bir tane eklediler. İki yönlü RNN ağı. Ek olarak, tek kelime tanımadan metin satırı tanımaya, ikisi arasındaki boşluk model için özellikle büyük değildir. Burada radikalleri çıkarmak için kullanılan dikkat mekanizması, kelimeler arasındaki boşlukları da ayırt edebilir. Aslında, yalnızca Her kelimenin köklerinin ortasına bir işaretçi eklemek gerekir.

Dikkat mekanizmasındaki iyileştirmeler

Dikkat mekanizmasını da geliştirdiler.Önceden tek kafalı bir dikkat mekanizmasıydı.Bu oyunda 4 başlı dikkat mekanizması eklenmiş, dikkatlere ek bir haberci eklendi.Yapım aktörü geçmişi değiştirecek Dikkat bilgisi, dikkatin hizalanma yeteneğini geliştirebilecek mevcut anın dikkat modelini anlatır.

Ayrıca, modeli kendi kendine öğrenmesi için bir kara kutu olarak ele alan dikkat yönlendirme teknolojisini de kullanırlar, aynı zamanda dikkat modeline daha güçlü rehberlik sağlarlar. Böyle gerçek bir sahne durumunda, gürültü büyük olduğunda, dikkat modelinin iyi öğrenilmesi zordur.Modele daha iyi rehberlik ederek, dikkat daha hızlı öğrenecek ve model daha iyi yakınlaşacaktır.

RGB + HSV, temel olarak karmaşık arka plan gibi bazı genel OCR sorunlarını çözmek için kullanılır. İnsan gözü ile görülemeyen bazı resimler HSV tarafından vurgulanarak tonlardaki farklılığın vurgulanması ve böylece doğru bir şekilde tanımlanmaları sağlanabilir.

Ek olarak, metin döndürme, sıkıştırma vb. Gibi bazı veri geliştirme çalışmaları da yaptılar.

Zor durumlar:

İlk örnek çok fazla arka plan gürültüsüdür. Aşağıdaki resim insan gözüyle görülemeyen daha karmaşık bir örnektir. Bu örnekte, arka plan pembe ve ön plan açık sarıdır.HSV, görüntü tonunu iyileştirmek için kullanılabilse de, gerçek etiketinin güzel bebek NO1 olduğunu görebilirsiniz. HSV kullanılmazsa, sonuç çok yanlıştır. Kullandıktan sonra, "güzel" kelimesini tespit etmek hala zor.

İkinci örnek, gerçek sahnelerden çıkarılan bazı resimlerdir.Eğer resmin kendisi çok küçükse, belli bir ölçüde büyütün, makine tanıma çok bulanık hale gelecektir.

Üçüncü daha zor örnek, daha önce bahsedilen düşük frekanslı kelime problemidir ve RAN ağı aracılığıyla doğru bir şekilde tanımlanabilir.

Algıla

Bu yarışmada tespitte dört sorun vardır:

Biri, birden çok açı meselesidir. Daha önce, akademideki algılamalar, kanepeleri veya insan bedenlerini algılama gibi dikdörtgen kutularla işaretlenmişti, ancak 45 derecelik eğimli metin gibi metin algılama yapılırsa, şu anda dikdörtgen bir kutu kullanılırsa, çok fazla gürültü oluşacaktır.
İkincisi, metinler arasındaki örtüşmedir. Örneğin aşağıdaki resimde iki satır kelime birbiriyle örtüşüyor.
Üçüncüsü, bulanık metin sorunudur. Aşağıdaki şekilde çerçevelenen kısım insan gözü tarafından görülmez.
Dördüncü olarak, metin uzunluğu aralığı nispeten büyüktür. Bazı metinler son derece uzun, bazıları çok kısadır.

Bu sorunlar için optimizasyon

Bu, bu yarışmada kullanılan ağ yapısı diyagramıdır Bu, farklı boyutlardaki özellikleri birleştiren bir aşağı örnekleme sürecidir.

Çözülmesi gereken ikinci sorun, çok açılı problemdir. Çok açılı problemler için, eğer dört köşe doğrudan ilk adımda yerleştirilirse, belirsizlik olacaktır.Bu durumdan kaçınmak için, ilk adımda, giriş görüntüsü üzerinde bir uzamsal piramit oluşturmak için LocSLPR kullandılar ve metni çeşitli ölçeklerde çizdiler. Metin satırının konturu, böylece metin satırının doğru konumlandırılmasını tamamlar.

Burada yığılmış R-CNN kullanılır.İlk öneri kutusu yatay bir dikdörtgen kutudur ve LocSLPR, konturu sığdırmak için kullanılır.İkincisi, kontur bilgisi zaten mevcuttur, bu nedenle ikinci adım öneri kutusu döndürülmüş dikdörtgen bir kutudur.

Kalan görüntü bulanıklığı sorunu, sinir ağının sağlamlığıyla çözülebilir.Bu sorunun çözümü zor olsa da, ağ bu yarışmada özel olarak tasarlanmamıştır.

Oyunda karşılaşılan pratik sorunlar

CVPR, ICCV ve diğer bilgisayarla görme konferanslarında her yıl birçok makale ve öneri var.Bu yarışmada, birinciliği almak için çeşitli iyi önerilere başvurmanız gerekiyor.

Tanıma konusunda büyük bir zorluk var, yani bazı resimler çok küçük ve yakınlaştırıldıktan sonra net görülemiyor veya resimler bozuk ve görüntü çözünürlüğü yüksek değil.Yakınlaştırma sonrasında görüntü kalitesini artırmak için bazı süper çözünürlük yöntemleri yapmak istiyorlar. CVPR'de bazı iyi süper çözünürlük şemaları var, ancak bittikten sonra etkinin çok tatmin edici olmadığı, ayrıca rotasyondaki bazı problemlerin çözülmesi daha zor.

Ayrıca dikkat üzerine NLP, makine çevirisi vb. Gibi birçok araştırma vardır. Dikkat mekanizmasını geliştirmenin birçok yolu vardır. Ancak bu planlar metin sorunlarına yönelik değildir, bu nedenle en başta, planın görevi ne kadar etkili geliştireceği belli değildir. İyileştirmek ve denemek için görünüşte uygun olan bazı dikkat mekanizması çözümlerini seçme sürecinde birçok sorunla karşılaşıldı.

Bu şema şu anda el yazısı karakter tanıma konusunda iyileştirmeye ihtiyaç duyuyor. İnsanlar el yazısıyla yazarken çok rahatlar.Bazen Çince karakterlerin radikallerini ve uzamsal yapısını silen sürekli vuruşlar olacaktır.Şu anda, RAN tabanlı yöntemle elde edilen performans iyileştirmesi basılı gövde kadar büyük değildir.

Gelecekte, iyileştirmeler dikkat ve kodlayıcılara odaklanabilir.

Geliri Yang Mi, Wu Xiubo ve Feng Xiaogang'ı aşan Wu Qilong, başkalarının iş hayatında kaybetmesine asla izin vermedi

Ünlüler popüler değil mi? 20 yıl önce 16 yaşında üniversiteye gidebilen Yang Rong, sadece düşük seviyedeydi.