Tencent Dijital Ping Doğru Öneri | OCR Teknoloji Testi

Son birkaç yılda, Tencent-DPPR ekibi gerçek zamanlı doğru öneri, büyük büyük veri analizi ve madencilik alanlarında teknolojilerin geliştirilmesi ve uygulanmasına kendini adamıştır. Özellikle reklam önerisi alanında, ekibin kendi geliştirdiği derinlemesine çevrimiçi tıklama oranı tahmin algoritması ve tam süreç gerçek zamanlı öneri sistemi, uzun yıllardır bu alanda dikkate değer sonuçlar elde etti. Kullanıcı niyetleri ve reklam anlayışı açısından, reklam resimlerinde metin tanıma ve nesne tanıma gibi teknik araçlar yardımıyla, reklam yaratıcılığı ve kullanıcı tercihleri anlayışını daha etkin bir şekilde derinleştirmek, böylelikle reklam tavsiyesi işine daha iyi hizmet vermek mümkündür.

OCR (Optik Karakter Tanıma, Optik Karakter Tanıma), görüntüdeki metin bilgilerini elde etmek için girdi görüntülerini analiz etme ve tanıma sürecini ifade eder.Sahne görüntüsü metin tanıma, belge görüntü tanıma, kart tanıma (kimlik gibi) gibi çok çeşitli uygulama senaryolarına sahiptir. Sertifika, banka kartı, sosyal güvenlik kartı), fatura kimliği vb. Sahne metni tanımanın (Sahne Metin Tanıma, STR) özel bir sahne için özelleştirilmesine gerek yoktur ve herhangi bir sahne resmindeki metni tanıyabilir (Şekil 1'de gösterildiği gibi). Geleneksel OCR ile karşılaştırıldığında, sahne resimlerindeki metin algılama ve tanıma, karmaşık arka plan paraziti, metnin bulanıklığı ve bozulması, öngörülemeyen aydınlatma, yazı tipi çeşitliliği, dikey metin ve eğimli metin gibi birçok zorlukla karşı karşıyadır.

Şekil 1 Sahne resmi örneği

Sahne metni tanıma sorunu, 15-20 yıl önce ilgili araştırma çalışmasında ortaya çıkmıştır. Geleneksel OCR ile arasındaki önemli fark, fotoğraflardaki veya videolardaki metni tanıma ihtiyacıdır. Esas olarak iki adıma bölünmüştür:

  • Fotoğrafta metnin bulunduğu alanı bulun (Metin Algılama), yani kelime veya metin satırının sınırlayıcı kutusunu (Sınırlayıcı Kutu) bulun (Kelime / Satır düzeyinde); Konumlandırılmış metni tanıyın (Metin Tanıma).

Metnin uçtan uca tanıma sonucunu elde etmek için bu iki adımı bir araya getirin. Genel olarak, sahne metni algılamanın gerçekleştirilmesi ilk ve en önemli görevdir.

Shuping'in hassas öneri ekibi uzun yıllardır OCR alanında yer almaktadır.Derin öğrenme yöntemlerine dayalı olarak kendi geliştirdiği metin algılama ve tanıma teknolojisi, özellikle 2017'de düzenlenen 14. ICDAR resmi yarışmasında ICDAR rekabet veri setinde defalarca dünya rekorları kırmıştır. "COCO-TEXT" ve "Medical Document Image" gibi zorlu görevlerde 4 şampiyonluk kazandı, sektörde büyük beğeni topladı ve ekibin OCR alanındaki teknik araştırma ve geliştirme yeteneklerini bir kez daha kanıtladı. Bu makale esas olarak Shuping Precision Öneri Ekibinin metin algılama teknolojisini tanıtacaktır.

Shuping, ekip sahnesi metin algılama teknolojisini doğru bir şekilde önerir

1. Metin algılama teknolojisi

Metin algılama, sahne metni tanıma için bir ön koşuldur Çözülmesi gereken sorun, metnin konumunun kaotik, garip ve karmaşık bir sahnede nasıl doğru bir şekilde konumlandırılacağıdır. Arka planın karmaşıklığı, ışıklandırmanın değişkenliği ve yazı tiplerinin öngörülemezliği nedeniyle sahne metni algılama büyük zorluklarla karşı karşıyadır. Sahne metin algılamanın geliştirme süreci, çoğu bilgisayarla görme görevine benzer. Geleneksel algılama yöntemleri, bağlantılı etki alanı tabanlı yöntemleri ve kayan pencere tabanlı yöntemleri içerir. 2014 yılından bu yana, derin öğrenme tabanlı yöntemler yavaş yavaş ana akım yöntemler haline geldi.

(1) Bağlı alana dayalı yöntem

Bu tür bir yöntem, sahne görüntüsündeki metnin genellikle bağlantılı bir etki alanı olarak göründüğünü dikkate alır Bu tür yöntem genellikle iki bağlantıya bölünebilir: bağlantılı alan çıkarma ve metin bağlantılı alan ayrımı. Bunlar arasında, bağlı bileşen çıkarma adımı görüntüdeki tüm bağlı bileşenleri aday olarak çıkaracak ve metin bağlantılı bileşen ayırma adımı, çıkarılan bağlı bileşenin sınıflandırıcıya veya sezgisel kurallara göre metin bağlantılı bir bileşen mi yoksa arka plana bağlı bir bileşen mi olduğunu belirleyecektir.

Şekil 2 Bağlı etki alanına göre metin algılama yönteminin akış şeması

(2) Kayan pencereye dayalı yöntem

Sahne metni, özel bir hedef türü olarak kabul edilir ve sahne metni, hedef tespitine benzer bir yöntem kullanılarak yerleştirilir. Öncelikle her bir kayan pencereden birkaç özellik çıkarın ve ardından çıkarılan unsurları önceden eğitilmiş sınıflandırıcıya göndererek mevcut kayan pencerenin metin içerip içermediğini belirleyin ve son olarak ikilileştirme yoluyla sahne metninin konumunu doğru bir şekilde bulmanız gerekir.

Şekil 3 Kayan pencereye dayalı metin algılama yönteminin akış şeması

(3) Derin öğrenmeye dayalı yöntemler

Son yıllarda derin öğrenme, güçlü öğrenme yeteneği ve geniş uygulanabilirliği nedeniyle yapay zeka alanında en popüler yönlerden biri haline geldi. Bağlı etki alanlarına ve kayan pencerelere dayanan yöntemler geleneksel OCR görevlerinde iyi sonuçlar elde etse de, daha karmaşık sahne görüntüsü metin algılama görevlerinde derin öğrenme yöntemlerinin gerisinde kalıyorlar. Derin öğrenmeye dayalı metin algılama yöntemleri, daha sağlam üst düzey anlamsal özellikler kullanır, daha güçlü genelleme yeteneklerine sahip daha karmaşık modellere uymak için daha fazla veri kullanır ve sahne görüntüsü metin algılamasında çığır açmıştır. Derin öğrenmeye dayalı metin algılama yöntemleri arasında en yaygın kullanılan yöntem Bölge Önerisi, ardından görüntü bölütlemeye dayalı yöntemler ve diğer yöntemlerdir.

2. Shuping doğru bir şekilde metin algılama teknolojisini önerir

(1) Rotation-RPN'ye dayalı metin algılama yöntemi

Metin algılama alanında, derin evrişimli sinir ağlarına dayalı algoritmalar, regresyon tabanlı YOLO ve SSD ve iki aşamalı RegionProposal'a dayalı Daha Hızlı RCNN ve R-FCN gibi ana yöntemler haline geldi. Derin evrişimli ağlara dayalı nesne algılama çerçevesinde, her evrişim katmanı bir filtre katmanına eşdeğerdir ve çok katmanlı filtrelerin kademeli, en etkili özelliklerin sonuna kadar geçirilmesini sağlayabilir ve ardından metin hedefi ile nesne hedefi arasındaki farka göre , Algılama görevinin uygulama mekanizmasını hedeflenen bir şekilde iyileştirin ve iyi bir metin algılama efekti elde edin.

Şu anda, regresyon tabanlı algoritmalar, nesne algılama görevlerinde Daha Hızlı RCNN'den çok daha iyi algılama sonuçları elde edememiştir.Bunun ana nedeni, iki aşamalı algoritmanın sınıf dengelemesine sahip olmasıdır. Klasik Hızlı RCNN çerçevesi genel nesne algılama için tasarlanmıştır, ancak metin algılamanın daha özel uygulamasında birçok farklılık vardır. Örneğin, Hızlı RCNN'deki Çapa ayarı metin algılama görevleri için uygun değildir, ancak nesne algılama görevleri için tasarlanmıştır ve ayarlanması gerekir; ek olarak, Çapa normal bir dikdörtgendir ve algılamak için normal bir dikdörtgen kullanırsanız metinde eğik bozulma vb. Metin algılama sonucu, sonraki metin tanıma gereksinimlerini karşılayamaz.

Sahne resimlerindeki düzensiz, çok yönlü (yatay, eğimli, dikey vb.) Metin düzenlemesi ve farklı boyutlarla birlikte Shuping Precision Öneri Ekibi, RRPN Döndürme Önerilerinden ilham aldı ve Daha Hızlı RCNN nesne algılama modeline göre geliştirildi Herhangi bir yöndeki metin için uçtan uca bir metin algılama yöntemi Teknik mimari Şekil 4'te gösterilmiştir.

Şekil 4 Rotation-RPN'ye dayalı sahne metin algılama modelinin mimari diyagramı

Metin satırını / metin sınırlama kutusunu bir bütün olarak otomatik olarak işleriz. Kendi geliştirdiği Rotasyon-RPN tabanlı metin algılama yöntemi temel olarak üç bölümden oluşur: temel evrişimli ağ, Rotasyon-RPN ağı, Rotasyon-ROI-Havuzlama ve birkaç anahtar nokta aşağıdaki gibi:

  • Sahne görüntüsündeki tüm metinler yatay değildir ve eğik metin ve dikey metin gibi düzenlenmiş ve dağıtılmış çok sayıda başka sahne metni vardır. Nesne algılama teknolojisi mimarisine dayalı olarak, metin kutularına herhangi bir yönde geri dönmek amacıyla açı bilgilerini algılama çerçevesine dahil ediyoruz. Deneyler Rotation-RPN'nin doğal sahnelerde, özellikle eğimli metin ve semantik bilgili dikey metinlerde herhangi bir yöndeki metni algılama yeteneğine sahip olduğunu kanıtlamıştır; ölçek problemi her zaman derin nesne algılama yöntemlerinin temel sorunlarından biri olmuştur. Metin boyutunun hassas konusu için, farklı boyutlarda teklif belirledik, farklı ölçeklerdeki evrişim özelliklerini birleştirdik ve farklı ölçeklerdeki metinleri algılamak için çok ölçekli bir havuzlama işlemi gerçekleştirdik; metinlerin herhangi bir yönde otomatik olarak işlenmesini gerçekleştirmek için, Dönen İlgi Bölgesi (RRoI) havuzlama katmanını tasarladık. RRoI havuzlama katmanı, herhangi bir yöndeki aday döndürme kutularını, herhangi bir en boy oranını veya boyutu sabit boyutlu bir özellik haritasına yansıtabilir ve bu da geleneksel ROI havuzlama katmanının sorununu çözer. Eksen hizalı aday kutular sorununu ele alın; geleneksel maksimum olmayan bastırma (NMS, Maksimum Bastırma Olmayan) algoritması yalnızca eksene hizalı aday kutuları işleyebilir.Herhangi bir dönüş yönünde örtüşen metin aday kutuları NMS problemini çözmek için, dönüş odaklı bir tasarım tasarladık Eğik-NMS (Eğimli Olmayan Maksimum Bastırma) algoritması aday çerçeveler, Eğimli-NMS algoritması, en iyi seçimi seçmek için eğimli aday çerçevelerin özelliklerini dikkate alır.

Rotation-RPN'ye dayalı sahne metni algılama yöntemi, herhangi bir yöndeki metinler için uçtan uca bir metin algılama yöntemidir.Farklı metin ölçekleri, farklı şekiller ve dedektörün ölçeğe olan aşırı duyarlılığı sorunlarını etkili bir şekilde çözebilir, bu da büyük ölçüde iyileşir. Algılama bağlantısının doğruluğu.

(2) Bağlı metin öneri ağına dayalı metin algılama yöntemi

Genel nesne algılamada, yalnızca bir bağımsız hedef vardır (örneğin insanlar, kediler, köpekler, vb.) Genel nesne algılamanın aksine, metin bir Sıradır (bir dizi karakter, bir karakterin bir bölümü ve birden çok karakter). CTPN yönteminin temel fikrine dayanarak, Çapalar, evrişimli ağın özellik haritasından çıkarılır ve her Çapanın puanı hesaplanır.Skor hesaplama sürecinde, her satırın bağlam bilgisi ve metin dizisi özellikleri kapsamlı bir şekilde kullanılır ve RNN, Metnin puanını belirlemek için model.

Şekil 5 Bağlı metin öneri ağına dayalı metin algılama modelinin mimari diyagramı

Geleneksel Aşağıdan Yukarı algılama yöntemi bağlamı dikkate almaz, sağlamlığı zayıftır ve karmaşık ve kullanışsızdır, bu da metin algılama performansındaki darboğazdan kurtulmayı zorlaştırır. Yukarıdan aşağıya yöntemini kullanıyoruz, yani önce metin alanını tespit ettikten sonra metin satırını bulup geleneksel tespit yöntemlerinden daha iyi sonuçlar elde ediyoruz.

Deneyler, CNN aracılığıyla derin özelliklerin çıkarılmasının ve sıra öğrenimi için RNN ile birleştirilmesinin, özellikle uzun metinlerin (belirli bir eğim açısına sahip yatay ve uzun metinler) algılanmasında algılama doğruluğunu büyük ölçüde artırabileceğini kanıtladı.

(3) Tam evrişimli ağa dayalı metin algılama yöntemi

Şekil 6 FCN'ye dayalı metin algılamanın akış şeması

Fully Convolutional Network'e (FCN) dayalı yöntem, sahne metnini algılamak için hem Segmentasyon hem de Sınırlayıcı Kutu Regresyonunu kullanır ve doğrudan kelime veya metin satırı düzeyinde tahminler üretir (dönen dikdörtgen veya Herhangi bir dörtgen), nihai sonuç maksimum olmayan bastırma yoluyla üretilir.

Şekil 7 FCN'ye dayalı metin algılamanın ağ yapısı diyagramı

FCN'ye dayalı bir metin algılama yöntemi tasarladık. Metin algılama ağı (Şekil 7'de gösterildiği gibi) iki çıktı üretir: Puan Haritası ve metin sınırlama kutusunun regresyon sonucu (regresyon hedefi bir dikdörtgen olduğunda, 5 serbestlik derecesinin koordinatları ve açısıdır, regresyon Herhangi bir dörtgen için koordinatlar 8 serbestlik derecesidir). Bunlar arasında, puan haritasının piksel değeri, aynı konumda tahmin edilen geometrik boyutun güvenirliğini temsil eder.Önceden tanımlanmış eşiği aşan puana sahip geometrik şekil, etkili bir sonuç tahmini olarak kabul edilir ve son olarak, nihai metin algılama, maksimum olmayan dirençle üretilir. sonuç.

3. Bazı sahne resimlerinin metin algılama efekti diyagramı

Tencent'in hassas öneri ekibi tarafından geliştirilen OCR teknolojisi, şirket içindeki birçok işletmede yaygın olarak kullanılmaktadır. Reklam malzemeleri, oyun resimleri, hassas reklamlar vb. Gibi çeşitli senaryolarda iyi sonuçlar elde edilir ve bazı metin algılama efektleri Şekil 8'de gösterilmiştir.

(1) Reklam resmi

(2) Doğal sahne resimleri

(3) Oyun resimleri

(4) Banka kartı resmi (yazının bir kısmı gizliliği korumak içindir)

Şekil 8 Sahne görüntülerinde görüntü metni algılamanın dikey uygulamasına bir örnek

Şu anda, Shuping'in hassas öneri ekibi tarafından geliştirilen OCR ile ilgili teknoloji, şirketin birçok dahili ürününde kullanılmaktadır, örneğin: Tencent Eyes, Mobile QQ Watch, Topic Circle, Tianyu, sosyal reklamcılık ve diğer işletmeler, özellikle reklam önerileri sahnesinde. OCR teknolojisi, reklamların yaratıcı materyalini daha fazla tanır ve anlar, bu da kullanıcı tıklama oranı tahmininin etkisini büyük ölçüde geliştirir.

Tencent'in hassas öneri ekibi, gerçek zamanlı kesinlik önerisi, devasa büyük veri analizi ve madencilik alanlarında teknolojilerin araştırma ve geliştirme ve uygulanmasına kendini adamıştır. OCR açısından, yıllar içinde birikmiş çeşitli teknolojiler biriktirdik ve OCR teknolojisiyle ilgili gereksinimleri olan herhangi bir ticari meslektaşımızla iletişim kurmaya ve işbirliği yapmaya ve sektör lideri veriler, algoritmalar ve sistemler oluşturmaya devam etmeye hazırız.

"Yanxi Sarayı Stratejisi" nin Cariye Gao'su, düşük yakalı gümüş batı tarzı bir gömlek ve yakışıklı bir içbükey biçimli.
önceki
Guan Xiaotong, yüksek topuklu bir yular etek giyen ve tapınaklarda kırmızı çiçeklerle dolu bir "dans eden kız" oldu.
Sonraki
Tencent Dijital Ping Doğru Öneri | OCR Teknolojisi Tanıma
Xie Na çok genç, yüksek topuklu eklenmiş bir elbise giyiyor, cildi hassas ve 18 yaşında olduğunu söyledi.
Doğru Dijital Ping Önerisi | OCR Teknoloji Sistemi Bölümü
Ying Er çok sert, 10 cm yüksek topuklu siyah ince bir elbise giyiyor, ayakları dik.
Doğru Dijital Ping Önerisi | OCR Teknoloji Verileri
Fu Jing'in uzun bacakları vardı ve yüksek belli pantolonlu çizgili bir gömlek giymişti, aurası 1.8 metreye yükseldi.
Üçüncü "Faydası Hangzhou" Parti Binasında İşten Çıkarma · Binlerce Halk Yürüyüşü düzenlendi
Yang Mi çok fazla, yaz geliyor ve 3 üst ve yün şapka giyiyorum, ekranda kendimi sıcak hissediyorum
Odak noktası Bir numarayı ağa taşırken "çok sayıda çukur": uygulama sorunları, ağ "ikinci sınıf bir kullanıcı" haline gelecektir
Oyunda Wu Jin'in romantizminin rakibi, kısa etekli baskılı bir gömlek giyiyor, kısa gri ve sarı saçlı oldukça güzel.
Kırmızı dantel ve siyah takım elbise ile Lou Yixiao gerçekten göz alıcı, belinin etrafında "iki delik kazmak" daha dikkat çekici.
Teixeira Elder, Tosic'in zorlu kurtarıcısı, Suning 5-1 R&F çift zil sesi
To Top