Tencent Dijital Ping Doğru Öneri | OCR Teknolojisi Tanıma

Tencent-DPPR ekibi, gerçek zamanlı doğru öneri ve büyük veri madenciliği alanlarında teknolojilerin geliştirilmesi ve uygulanmasına kendini adamıştır.

Sosyal reklam önerileri alanında, ekibin kendi geliştirdiği, derinlemesine çevrimiçi tıklama oranı tahmin algoritması ve tam süreç gerçek zamanlı öneri sistemi, uzun yıllardır sosyal reklam tıklama oranlarını artırmaya devam etti. Güncel sosyal reklamcılığın en önemli gösterim şekli olan metin tanıma ve nesne tanıma gibi görüntü anlama teknolojileri, reklam özellikleri, reklam temaları, reklam bilgileri, kullanıcı tercihleri vb. Anlayışını etkili bir şekilde derinleştirebilir ve reklam önerisi işini daha doğru hale getirebilir.

Reklam görüntülerini anlamanın temel taşı teknolojisi olan OCR, aslında Optik Karakter Tanıma (Optik Karakter Tanıma) anlamına geliyordu ve şimdi genel olarak görüntü metin tanıma, yani yapay zeka bilgisayar vizyonunun önemli bir dalı olan görüntü ve videolardan metin içeriğinin otomatik olarak tanınması anlamına geliyor. Mobil internetin hızla büyümesi ve derin öğrenme teknolojilerinin yaygınlaşması, iş gereksinimleri ve teknik destek açısından OCR alanının gelişimini daha da teşvik etti. OCR teknolojisi, reklam öneri sisteminin görüntü içeriği çıkarma, reklam materyali incelemesi, reklam görseli oluşturma, kullanıcı anlayışı vb. Konulara derinlemesine hizmet edebilir. OCR, reklamcılık işine ek olarak, UGC görüntü ve video filtreleme, tıbbi görüntü tanıma, belge tanıma, belge tanıma, sokak görünümü işareti tanıma vb. İçin de uygulanabilir.

Tencent'in hassas öneri ekibi uzun yıllardır OCR alanına derinlemesine dahil olmuştur.Kendi geliştirdiği derin öğrenme yöntemlerine dayalı metin algılama ve tanıma teknolojisi, özellikle 2017'de düzenlenen 14. oturumda uluslararası yetkili ICDAR rekabet veri setinde defalarca dünya rekorları kırmıştır. ICDAR resmi yarışmasında, Tencent-DPPR ekibinin OCR alanındaki teknik araştırma ve geliştirme yeteneklerini bir kez daha kanıtlayan "COCO-TEXT" ve "Medical Document Image" gibi zorlu görevlere sahip dört şampiyonluk kazanıldı. Endüstrideki ana akım OCR teknolojisi genellikle iki modüle ayrılır: metin algılama ve metin tanıma: metin satırı algılama algoritması aracılığıyla bulunur ve ardından metin satırı içeriği, tanıma algoritması aracılığıyla okunur. Bu makale Tencent-DPPR ekibinin metin tanıma algoritmasını tanıtacak.

1. İlgili çalışma

OCR tanıma modülü bir çoklu sınıflandırma problemidir ve tanıma etkisi üzerinde büyük etkisi olan faktörler şunlardır: karmaşık arka plan, sanatsal yazı tipleri, düşük çözünürlük, tek tip olmayan aydınlatma, görüntü bozulması, karakter deformasyonu, çoklu dil karıştırma, metin satırlarının karmaşık düzeni, algılama kutusunda eksik karakter ,ve daha fazlası. İngilizce tanıma ile karşılaştırıldığında, Çince OCR'nin daha güçlü zorlukları vardır. Örneğin, İngilizce sayılar 62 sınıflandırma problemi olarak modellenebilir.Çince'de 10.000 Çince karakteri tanımak istiyorsanız, 10.000 sınıflandırma problemi modellemeniz gerekir. Ek olarak, Çince vuruşların karmaşıklığı, benzer karakterlerin sayısı, basitleştirilmiş ve geleneksel karakterlerin sayısı, mizanpaj düzenlemesi ve kelime kombinasyonlarının sayısı tamamen İngilizce'yi tanımaktan daha zorlayıcıdır.

Sosyal reklamcılık resimlerinin zorluk senaryosunun bir kısmı Şekil 1'de gösterilmektedir:

(Şekil 1)

Sosyal reklam görselindeki zorlu metin satırı Şekil 2'de gösterilmektedir:

(şekil 2)

2013'ten önce, geleneksel algoritmalar OCR alanına hakim oldu ve standart süreçleri, Şekil 3'te gösterildiği gibi metin algılama, tek karakter segmentasyonu, tek karakter tanıma ve işlem sonrası adımları içeriyordu.

(resim 3)

İşte geleneksel yöntemlerde temsili bir PhotoOCR algoritması. PhotoOCR, metin alanı algılama, metin satırı birleştirme, aşırı bölümleme, ışın aramasına dayalı bölümleme alanlarının kombinasyonu, HOG özelliklerine ve tamamen bağlı sinir ağlarına dayalı tek karakter sınıflandırması ve ngram yöntemini içeren, Google tarafından önerilen eksiksiz bir OCR tanıma sistemidir. Tanıma sonuçlarının düzeltilmesi. PhotoOCR sistemi, geleneksel OCR sürecinin her yönünü kapsar. Süreç iyileştirme ve her bağlantıya birden fazla teknoloji türünün entegrasyonu sayesinde, 2013 yılında mükemmel sonuçlar elde edilmiştir. Ayrıca, OCR sistemini bir sürece bölme ihtiyacı gibi geleneksel yöntemlerin birçok eksikliğini de ortaya çıkarmıştır. Birden fazla bağlantı var, her bağlantıya çok fazla manuel müdahale yapılması gerekiyor, sahneye göre yöntem entegrasyonunu ayarlama ihtiyacı, uçtan uca eğitim elde etmek zor, vb.

AlexNet 2012'de ImageNet yarışmasını kazandığından bu yana, derin öğrenme yöntemleri görüntü ve video alanındaki geleneksel algoritmaları büyük ölçüde geride bıraktı ve evrişimli sinir ağları (Evrişimli Sinir Ağı, CNN) ve uzun ve kısa süreli bellek (Uzun) dahil olmak üzere OCR alanına genişlemeye başladı. Kısa Süreli Bellek, LSTM) yöntemleri vb. CNN'nin tanıma algoritmasına dayalı olarak, temsili makale. Bu yöntem iki bölümden oluşur: Algılama modülü, girişleri kesmek için bir bölge önerisi ve kayan pencere tabanlı bir yöntem kullanır ve tanıma bölümü, Şekil 4'te gösterildiği gibi tüm kelimeleri sınıflandırmak için 7 katmanlı bir CNN kullanır.

(Şekil 4)

Bu makalenin bir diğer önemli katkısı, büyük ölçekli veri sentezi için bir yöntem sağlamaktır. Metni etiketlemenin maliyeti, yüzler ve nesneler gibi verileri etiketlemekten çok daha yüksektir ve yüksek etiketleme maliyeti OCR veri setinin boyutunu sınırlar. Bu nedenle, sentetik numune yönteminin ortaya çıkışı, derin ağın gerçek OCR açıklama verilerine bağımlılığını etkili bir şekilde azaltır ve OCR tanıma alanında derin algoritmaların geliştirilmesini büyük ölçüde destekler.

CNN yönteminin ortaya çıkışı, en büyük işlevi, özellik mühendisliği ve tek karakter sınıflandırması alanındaki geleneksel yöntemlerin yerini almaktır, ancak yine de geleneksel düşüncede en zor ikilileştirme ve karakter bölümleme problemlerinden kaçınmakta başarısız olmaktadır. Karmaşık doğal sahnelerde ve reklam sahnelerinde, CNN sınıflandırma yöntemlerinin ihtiyaçları karşılaması hala zordur.

2. Tencent DPPR ekibi sahne metni tanıma teknolojisi

Bu bölüm, Tencent-DPPR'nin derinlemesine OCR algoritmasına odaklanmaktadır. Ekip, geleneksel sınıflandırmanın ve CNN tek karakterli sınıflandırmanın birçok eksikliğini göz önünde bulundurarak, serileştirme (sözcükler, tümcecikler, cümleler, vb.) Tanımayı gerçekleştirmek için Uzun Kısa Süreli Bellek (LSTM) ağının teknik rotasına dayanmaktadır.

1. Bağlantı zamanlamasına göre sınıflandırma

Konuşma tanıma problemlerine benzer şekilde, OCR, zamana bağlı bir kelime veya kelime öbeği tanıma problemi olarak modellenebilir. Bağlantısal Geçici Sınıflandırmaya (CTC) dayalı RNN eğitimi için algoritma, konuşma tanıma alanındaki geleneksel konuşma tanıma algoritmalarını önemli ölçüde aşar. Bazı bilim adamları, OCR tanıma için CTC kayıp işlevini kullanmaya çalışırlar ve CRNN, temsili algoritmalardan biridir. CRNN algoritması, 100 * 32 normalleştirilmiş yükseklik giriş görüntülerini girer, 7 katmanlı CNN'ye dayalı özellik haritalarını çıkarır ve özellik haritalarını sütunlara böler (Sıraya Göre Eşleme) Her sütunun 512 boyutlu özellikleri iki katmanın her birine girilir. Sınıflandırma için 256 birim çift yönlü LSTM. Eğitim sürecinde, CTC kayıp fonksiyonunun rehberliğinde, karakter pozisyonunun ve sınıf işaretinin yaklaşık yumuşak hizalaması gerçekleştirilir.

CRNN, konuşma tanımada LSTM + CTC'nin modelleme yönteminden yararlanır Aradaki fark, LSTM'ye girilen özelliklerin, konuşma alanının (MFCC, vb.) Akustik özelliklerinden CNN ağından çıkarılan görüntü özelliği vektörleriyle değiştirilmesidir. CRNN algoritmasının en büyük katkısı, CNN'nin görüntü özelliği mühendisliği potansiyelini serileştirilmiş tanıma için LSTM potansiyeli ile birleştirmesidir. Yalnızca sağlam özellikleri çıkarmakla kalmaz, aynı zamanda sıra tanıma yoluyla geleneksel algoritmalarda son derece zor olan tek karakterli bölümlemeyi ve tek karakter tanımayı önler.Aynı zamanda, serileştirilmiş tanıma aynı zamanda zamanlama bağımlılığını da içerir (korpusun zımni kullanımı). Ekip ayrıca LSTM + CTC algoritmasını birçok yönden geliştirdi ve bunu doğal sahne görüntüleri, banka kartı tanıma ve kimlik kartı tanıma gibi birden çok göreve uyguladı. CNN tarafında, evrişim katmanında VGG ağına benzer bir yapı benimseyerek, CNN evrişim çekirdek sayısını azaltıyor ve evrişim katmanının derinliğini artırarak sadece doğruluğu garanti etmekle kalmıyor, aynı zamanda zaman tüketimini de azaltıyoruz. RNN tarafında, LSTM için külliyat ve görüntü arka planını fazla sığdırma ve Çift yönlü LSTM birim katmanında Bırakma stratejisini uygulama eğilimindeyiz. Eğitim becerileri tarafında, kolaydan zora ve aşamalıya örnek eğitim stratejisi kullanarak, başlangıç durumuna ve yavaş yakınsama hızına duyarlı olan CTC kaybı sorununu hedefliyoruz. Test aşamasında, karakter uzatmanın neden olduğu düşük tanıma oranı sorununa yanıt olarak, giriş görüntüsünün boyut oranını koruyoruz ve LSTM zamanlama uzunluğunu evrişim özellik haritasının boyutuna göre dinamik olarak belirliyoruz. Kullandığımız algoritmanın ağ yapısı Şekil 5'te gösterilmektedir. Yukarıda bahsedilen birçok iyileştirme nedeniyle algoritmamız hızlı ve doğrudur ve kimlik kartları, banka kartları ve diğer işyerlerinde% 98'den fazla tanınma doğruluğu elde etmiştir.

(Şekil 5)

2. Dikkat mekanizmasına göre

Son iki yılda, dikkat mekanizması görüntü tanımlama, konuşma tanıma, doğal dil işleme vb. Alanlarda parladı. Ekip ayrıca bu mekanizmayı OCR tanıma modülüne dahil etmeye başladı. Dikkat mekanizması, giriş görüntüsünün özellik vektörünün ROI'sine odaklanabilir, mevcut anda orijinal görüntünün özellik vektörü ile karakter bölgesi arasındaki yaklaşık hizalamayı gerçekleştirebilir ve derin ağdaki Encoder-Decoder modelinin odağını ve doğruluğunu iyileştirebilir.

Dikkat mekanizması çeşitli şekillerde uygulanmaktadır.Fransız sokak görünümü yol işaretlerini tanımlamak için dikkat modelini temel alan makalede, yazar ilk önce aynı yol işaretinin 4 farklı perspektif görüntüsünü aynı Inception-v3 CNN ağına girerek özellik haritalarını ayıklayın ve ardından birleştirilmiş özellikleri karşılaştırın. Şekil, iki boyutlu uzamsal dikkat ağırlıklandırma, ağırlıklı sonuç, tek yönlü LSTM katman kod çözme sınıflandırmasına girdidir. LSTM + CTC modeli ile karşılaştırıldığında dikkat modeli, mevcut anda sınıflandırılacak karakterleri orijinal görüntü pozisyonuyla daha açık bir şekilde hizalar ve aynı zamanda önceki anın külliyat bağımlılığını daha açık bir şekilde kullanır. Literatürdeki deneylere göre LSTM + CTC modeli ile karşılaştırıldığında, dikkat modeli otoregresif bağlantı ile birleştirilmiştir.Fransız sokak görünümü sokak tabelası veri setinde doğruluk% 6, yakınsama hızı da 2 kat daha hızlıdır.

Bizim dikkat mekanizmamız literatürdeki tasarımdan farklıdır, benimsediğimiz ağ yapısı Şekil 6'da gösterilmektedir. Özellik kodlama aşamasında, VGG'ye benzer 10 katmanlı evrişimli bir ağ benimsiyoruz. Özellik kod çözme aşamasında dikkat mekanizmasını LSTM katmanı ile birleştiriyoruz. Dikkat mekanizmasında, içerik ve tarihin birleşimine dayanan melez bir yöntem benimsiyoruz. İçerik tabanlı dikkat yöntemi, önceki adımda tahmin edilen karakter vektörünü ve tahmin edilen vektörün ağırlıklı özellik vektörünü ortak özellik olarak kullanır ve ortak özellik vektörü, dikkat mekanizmasının sorgu vektörünü oluşturmak için LSTM'nin girdisi olarak kullanılır; geçmişe dayalı dikkat yöntemi yukarıdakileri kullanacaktır. Tek adımlı dikkat için, dikkat mekanizmasındaki indeks vektörünün bir parçası olarak önceki adımın dikkatinden özellikleri çıkarmak için CNN kullanıyoruz. Hibrit dikkat modelinin iyileştirilmesine ek olarak, eğitim verileri ve tekniklerinde de birçok iyileştirme yaptık. Ayrıca görüntülerin rastgele doldurulması, dikkat modülü tarafından kelime sırası bağımlılık girdisinin rastgele imhası, rastgele genişletme, her bir partideki örneklere dayalı olarak görüntü uzunluğunun dinamik olarak doldurulması vb. Sürekli optimizasyon sayesinde, mevcut dikkat modelimiz, reklam görüntüleri ve doğal sahne görüntüleri gibi zorlu sahnelerde% 86'dan fazla uçtan uca doğruluk elde etti.

(Resim 6)

3. Mevcut etki

Tencent-DPPR hassas öneri ekibinin (Tencent-DPPR) mevcut OCR tanıma algoritması, sanatsal sözcükler, bulanıklık, düşük çözünürlük, yazı tipi deformasyonu ve karakter eksikliği gibi çeşitli zorlu senaryolarla başa çıkabilir ve reklam senaryolarında iyi sonuçlar elde etmiştir.

1. Çeşitlendirilmiş düzenler (yatay ve dikey düzenlerin bir arada bulunması):

(Resim 7)

2. Sanatsal kelimeler ve yazı tipi deformasyonu:

(Resim 8)

3. Düşük çözünürlüklü ve belirsiz karakterler:

(Resim 9)

4. Algılama çerçevesi bozuk:

(Şekil 10)

5. Algılama çerçevesi çok büyük:

(Şekil 11)

6. Karmaşık veya tek tip olmayan arka plan:

(Şekil 12)

7. Çok dilli karıştırma:

(Şekil 13)

V. Gelecekteki Çalışmalara Genel Bakış

Bu makale, tanıma algoritmasının evrimi ve 4 temsili yöntem dahil olmak üzere Tencent-DPPR'nin OCR tanıma algoritmasını tanıtmaktadır. Şu anda birleşik zamansal sınıflandırma ve uzamsal dikkat mekanizmasına dayanan derin bir RNN ağı benimsemiş olsak da, etki önemli ölçüde iyileştirildi, ancak tanıma modülünün çözülmesi gereken birçok zorluğu var: çok düşük çözünürlüklü görüntüler, yüksek gürültülü görüntüler ve güçlü bozulma sanatı Kelimeler, karmaşık dizgi metni, çok uzun metin satırları, çok fazla tamamlanmamış onay kutusu vb. Buna ek olarak, görüntü kalitesi azaldığında tanıma yeteneğindeki bariz bozulmayı telafi etmek için topluluk bilgisinin açıkça nasıl kullanılacağı daha fazla araştırma gerektirir. OCR teknolojisinin reklam görüntülerinde ve diğer görüntü türlerinde araştırılması ve uygulanması hala büyük bir potansiyele sahiptir ve ekip yoğun bir şekilde uygulama yapmaya devam edecektir.

Guan Xiaotong, yüksek topuklu bir yular etek giyen ve tapınaklarda kırmızı çiçeklerle dolu bir "dans eden kız" oldu.
önceki
Xie Na çok genç, yüksek topuklu eklenmiş bir elbise giyiyor, cildi hassas ve 18 yaşında olduğunu söyledi.
Sonraki
Doğru Dijital Ping Önerisi | OCR Teknoloji Sistemi Bölümü
Ying Er çok sert, 10 cm yüksek topuklu siyah ince bir elbise giyiyor, ayakları dik.
Doğru Dijital Ping Önerisi | OCR Teknoloji Verileri
Fu Jing'in uzun bacakları vardı ve yüksek belli pantolonlu çizgili bir gömlek giymişti, aurası 1.8 metreye yükseldi.
Üçüncü "Faydası Hangzhou" Parti Binasında İşten Çıkarma · Binlerce Halk Yürüyüşü düzenlendi
Yang Mi çok fazla, yaz geliyor ve 3 üst ve yün şapka giyiyorum, ekranda kendimi sıcak hissediyorum
Odak noktası Bir numarayı ağa taşırken "çok sayıda çukur": uygulama sorunları, ağ "ikinci sınıf bir kullanıcı" haline gelecektir
Oyunda Wu Jin'in romantizminin rakibi, kısa etekli baskılı bir gömlek giyiyor, kısa gri ve sarı saçlı oldukça güzel.
Kırmızı dantel ve siyah takım elbise ile Lou Yixiao gerçekten göz alıcı, belinin etrafında "iki delik kazmak" daha dikkat çekici.
Teixeira Elder, Tosic'in zorlu kurtarıcısı, Suning 5-1 R&F çift zil sesi
Hannan'ın bu fermente soya peyniri "somut olmayan kültürel miras" olarak ilan edildi, 4 kuşaktır aktardı ve yılda 13.000 şişe sattı
Java sınıfı yükleyici mekanizmasının derinlemesine anlaşılması
To Top