Sentetik verilere dayalı sahne metninin derinlik gösterimi yöntemi

1. Metin tanımanın araştırma durumu

Mevcut karakter tanıma konusunda iki ana araştırma vardır. Birincisi, geleneksel metin tanıma, yani belgedeki metin tanıma, esas olarak OCR teknolojisi, teknolojisi nispeten olgun ve etkisi görece kararlı. Öte yandan, resimdeki metni insanların anlayabileceği bir dile çeviren sahne tabanlı metin tanıma yani resimlerde metin tanımadır. Bu sürecin aşağıdaki hedeflere ulaşması gerekir: metnin başlangıç konumu, bitiş konumu ve yüksekliği dahil olmak üzere metnin resimde göründüğü konumu elde edin; konumdaki resimde bulunan metin verilerini insanların anlayabileceği bilgilere dönüştürün. Tüm bu süreç metin tanımadır.

Derin öğrenmenin sahne anlayışına başarıyla uygulanabilmesinin nedeni, çok sayıda metin ek açıklaması içeren bir veri setinin olmasıdır. Bununla birlikte, eğitilmiş modeli doğrudan metin tanımaya uygulamak mümkün değildir Anahtar sorun, metnin genel sahne nesnelerine kıyasla özel olmasıdır. Metni eğitmek için geleneksel veri setlerini kullanmak mümkün değildir ve metin etiketleme de çok zordur çünkü metin şekli, rengi ve uzamsal konumdaki değişikliklerin tam olarak tahmin edilmesi zordur. Yukarıdaki problemler nasıl çözülür? Cevap sentetik verilerdir. Sözde bileşik veri, bir resimdeki belirli alanlara metin eklemek ve yazı tiplerinde, renklerde ve konumlarda değişiklikler gibi farklı değişiklikler yapmaktır. Yukarıdaki yöntemle elde edilen sentetik verileri bir veri seti olarak kullanarak bir ağ eğitilebilir. Bunun etkisi iyi olmayabilir, ancak başka yöntemlerle iyileştirilebilir.

2. Metin Kutuları: Sinir ağına dayalı metin algılama

Raporun başında belirtildiği gibi, metin tanımanın iki görevi tamamlaması gerekir, bir görev metin alanını tespit etmek (Sahne Metni Algılama) ve diğer görev metin alanını tanımaktır (Sahne Metin Tanıma). Bu makale ilk göreve odaklanacaktır.

Bu çalışmada, algılama görevi için eğitim setinde 800.000 resim ve tanıma görevi için eğitim setinde 9 milyon sentetik veri bulunmaktadır. ICDAR sahnesinde eğitilmiş modelin tespit ve tanıma doğruluğu% 90'ın üzerine çıkabilir ki bu şu anda en iyi sonuçtur. Makalede önerilen ağ bu amaca ulaşır: model doğrudan bir metin paketi oluşturabilir ve metin paketinin metin içerip içermediğine karar verebilir ve yoksa metin paketini atabilir.

TextBoxes ağında, her katman karşılık gelen evrişimi hesaplar, yanıtını ve ayrımını hesaplar ve son olarak ilgili sonucu elde etmek için tüm denetim bilgilerini bir araya getirir. Elde edilen sonuçlar, yinelenen sonuçları atmak için maksimum olmayan bastırma işlemi gerektirir. Ağ başlatma sürecinde, metni daha iyi sunmak için varsayılan kutunun belirli becerilere göre ayarlanması gerekir. Bir diğer önemli nokta da evrişim çekirdeğinin ayarlanmasıdır: Genel evrişim çekirdeği karedir, ancak metinde evrişim çekirdeğinin uzunluğu genişlikten büyük olmalıdır. Yukarıdaki tekniklerle ağ etkisi büyük ölçüde geliştirilebilir.

Aşağıdaki resimler bazı örneklerdir, sözcükler arasındaki boşlukların, yazı tipi değişikliklerinin, ışık değişikliklerinin, karmaşık arka planların vb. Etkin bir şekilde tanımlanabildiğini görebilirsiniz. Burada çok önemli bir hile var yani tespit sırasında bir hata olsa bile önemli değil, çünkü nihai tanıma sonucu ile bazı hatalar giderilebilir. Bunun nedeni, metnin karakterinin genel problemden farklı olmasıdır, tek doğru sonucu olan bir sıra çıkarır. Sonuç makul bir kelime ise, doğru bir sonuç olarak değerlendirilebilir, aksi takdirde yanlış bir sonuç olarak kaldırılabilir.

Algılama görevini ve tanıma görevini birleştirdikten sonra, sonuç iki bölüme ayrılır: Tespit ve Tanıma. Tespit etme yalnızca metin kutusunun mümkün olduğunca doğru konumlandırılıp konumlandırılmayacağına dikkat eder ve uçtan uca Tanıma yalnızca metin algılamanın etkisine değil, aynı zamanda tanıma sonucunun doğru olup olmadığına da bağlıdır. TextBoxes'in tüm göstergeleri diğer algoritmaların önündedir.

3. CRNN: Uçtan uca sahne metni tanıma

Yukarıdaki çalışma, esas olarak ilgili metin algılama çalışmasını tanıtmaktadır ve metin tanımanın içeriğini kapsamamaktadır. Aşağıda ilgili metin tanıma çalışması açıklanmaktadır: CRNN. CRNN'nin bileşimi, konuşma tanımada tekrarlayan sinir ağından (RNN) ödünç alır. RNN'de, bir karakter dizisi veya konuşma gibi bir sıra girerseniz, bağlama duyarlı modelleme elde edersiniz ve metin benzer şekilde ele alınabilir. Bununla birlikte, algılanan metin alanının kendisi hala bir görüntüdür, bu nedenle özellik çıkarma işlemi gerçekleştirmek ve bunu bir diziye dönüştürmek gerekir. Ortaya çıkan dizi, tekrarlayan sinir ağına verilir ve sonunda İngilizce karakterler veya sayılar gibi anlaşılabilir kelimelere dönüştürülür. Buna bu şekilde bakmak çok basit ve anlaşılırdır RNN modeli iki şey yapar, biri bağlam ilişkisini belirlemek, diğeri ise dizinin çıktısıdır.

Şekildeki 50 / 1k, sözlük boyutunu belirtir ve hiçbiri, sözlüğün olmadığını gösterir. Açıkçası, bir sözlük olduğunda sonuç daha iyidir ve sözlük olmadan etkisi daha kötüdür, ama aynı zamanda çok iyidir. Genel olarak CRNN, geleneksel yöntemlerden ve diğer derin öğrenme algoritmalarından daha üstündür.

Farklı yazı tipleri, özel karakterler, bulanık metin ve gölgeler söz konusu olduğunda, tanıma için geleneksel yöntemleri kullanmanın hala çok zor olduğu, ancak sinir ağları tarafından çok iyi yapılabileceği unutulmamalıdır. Bu, sinir ağının değişen metin sinyalleri üzerinde çok iyi bir tanıma etkisine sahip olduğunu gösterir, bu da birçok tanıma görevinin performansında önemli iyileştirmeler sağlayabilir, böylece bazı pratik ihtiyaçları karşılayabilir.Bu nedenle birçok şirket, metin tanımayı temel bir araştırma yönü olarak görür. sebep. Ek olarak, bazı tanıma hataları var, ancak insan gözü net göremiyorsa, sinir ağı için zor olamaz.

CRNN yönteminin bazı özellikleri kayda değerdir. Birincisi, CRNN eğitiminin metin karakterlerini kesmesi gerekmez ve sözlük gerekli değildir - bir sözlük olduğunda kesme efekti daha iyi olsa da, ayrıca CRNN modeli geleneksel sinir ağlarından çok daha küçüktür.

Dördüncü, sağlam sahne metni tanıma

Sinir ağı, deforme olmuş metni işlemede iyi değildir.Metin ideal görünmesi için önüne bir deformasyon düzeltme algoritması eklenirse, efekt kesinlikle iyileştirilecektir. Nasıl başarılabilir? Birincisi, ağ modelinin yatay olmayan metni kesebilen metni kesme yeteneğine sahip olması; ayrıca metni tutarsız genişliklerde dengeleyebilecek yönü değiştirme yeteneğine sahip olması; son olarak da eğimli olabilen metni düzleştirme yeteneğine sahip olması gerekir. Düzeltin.

Eğitilen model tanıma görevini yerine getirdiğinde, normal koşullar altında iyileşmenin açık olmadığı, çünkü bu resimlerin hala nispeten iyi olması ve düzeltme algoritmasının etkinliğini yansıtamamasıdır. Veri kümesini görüntü değişikliği ve şekil değişikliğine ayrılmış iki veri kümesine değiştirirseniz, etkisinin mevcut yöntemlerden önemli ölçüde daha iyi olduğunu göreceksiniz.

5. Farklı senaryolarda metin tanıma uygulaması

Saf metin tanımanın uygulama aralığı geniş değildir, ancak metin ipucu olarak kullanılırsa, farklı senaryolarda uygulanabilir. Tek başına şekle bakarsanız resimde evin amacını belirlemek zordur ancak metin bilgisi varsa zor değildir. Başka bir örnek olarak, tüm web resimleri ve videolarının etiketleri olacaktır. Etiketleri sahnelerle birleştirirseniz, birçok yararlı şeyi analiz edebilirsiniz. Yani birçok yönden metin tanıma bir eğilimdir. Ancak, metin tanıma yapan insanlardan çok daha fazla sahne yapan insan var Bu ikisi birleştirilirse, daha büyük atılımlar olacaktır. Sonuç olarak, çok özellikli füzyon büyük bir trend. Metin özelliklerinin ve resim özelliklerinin farklı ifadelerini birleştiren hem resimler hem de metin büyük bir rol oynayabilir. Hala keşfedilmeye değer birçok şey var.

Düşük kaliteli video görüntülerinin nasıl tanımlanacağı, alınacağı ve anlaşılacağı da tartışılmalıdır. Gerçek uygulamalarda zayıf video veya görüntülerle karşılaşılacaktır Bu durumda bunların nasıl tanımlanacağı da bir araştırma eğilimidir. Görüntü tanımanın doğruluğunun bu kadar yüksek olmasının nedeni budur, ancak çok fazla pratik uygulama yoktur: gerçek durum oldukça karmaşıktır.

İşte bazı metin tanıma uygulamalarını tanıtmak için bazı özel örnekler.

1. Soruları resimlerle arayın

Resimlerle soru aramanın amacı, resimdeki metne göre soru bankasındaki eşleşen soruları bulmaktır. İlgili şirketlerin algoritma tanınırlığı çok yüksekti. Neden iyi yapabilirler? Yaptığı şey sadece gerekli olduğu için herkes kullanabilir ve kullanıcıları kararlıdır.

2. Plaka tespiti

Bir maraton yüzbinlerce resim alabilir ve bu kadar çok resim arasından belirli bir katılımcının resmini bulmak çok zordur. Manuel olarak tanınırsa uzun zaman alır ancak fotoğraflar sunucuya yüklenir ve derin öğrenme ile sınıflandırılırsa o kadar zor değildir. Ayrıca oyun sırasında bir kişinin yerini tespit etmeniz gerekiyorsa, yüz ifadesine göre bulmak nispeten zordur, çünkü yüz ifadesi değişir ve vücut duruşu sürekli değişir, ancak plakaya göre bulmak daha kolaydır. .

6. Özet ve Görünüm

Gelecekteki eğilim, metin, video ve görüntülerle elde edilen tüm görev bilgilerini entegre etmek için kaynak olarak metni kullanmak ve ardından doğal dil işleme, kamuoyu analizi, görüntü anlama vb. Gibi diğer takip görevlerini yerine getirmektir. Başka bir deyişle, gelecekteki eğilim, karmaşık bir görevi tamamlamak için çoklu entegrasyon ve çoklu öğrenmeyi kullanmaktır.

QA

Soru: Resimdeki metni kesmeden nasıl sekans oluşturulur? Kaç kelime olduğunu nasıl tahmin edebilirim?

Öğretmen Bai: Bu çok güzel bir soru. Aslında, eğitim alırken, metni bir yüksekliğe ölçeklendiririz, uzunluk aynı kalır ve yükseklikten plan yaparız, böylece dizinin uzunluğu değiştirilebilir. Nihai çıktı sonucu önce uzunluktaki değişikliğin üstesinden gelebilir ve algoritmamız tekrarlanan tanımayı birleştirebilir. Bu nedenle, uzunlukta belirli bir elastik değişikliğe izin verilebilir.

Soru: Mevcut metin düzeltme efekti ideal değil mi?

Öğretmen Bai: Düzeltme hala oldukça zor. Geleneksel düzeltme yöntemi, bazı iyi görüntülerle uğraşmaktır.Derin öğrenme ağının amacı, çeşitli durumların buna göre tanımlanıp ayarlanabileceğini ummaktır. Ama tabii ki şu anki aşamanın hala birçok belirsizlik içeren keşif aşamasında olduğunu düşünüyorum.

AIDL gönüllüsü Bian Xuewei'ye organizasyondaki yardımı için teşekkürler!

  • Orijinal bağlantı:
Milyar düzeyindeki siparişlerin siparişlerini senkronize etmenin keşfi ve uygulaması
önceki
Kukla kedi gerçekten de kediler arasında gerçek bir "peri" dir!
Sonraki
Karmaşık açık sahnelerde metin anlama
CTR tahminine resim özellikleri nasıl eklenir? Görüntü özellikleri nasıl çıkarılır?
Bu pratik olmayan evcil hayvan malzemelerinden kaç tane satın aldınız?
Derin Açma: Derin ağ ile geleneksel model arasında bir köprü
Skip-Gram bağlamının tahmin algoritmasını anlamak için bir makale
"Xiang" Yuben Binyıl Seramik Becerilerinin Kalıcılığı ve Yeniliği
Chen Erpu Sağlık Merkezi Aile Hekimi: Köylülerin sağlığının "bekçisi" olun
Çin'deki üniversite öğrencilerini kim destekliyor?
Dinamik bellek ağı: genel NLP'ye bir adım daha yakın
Taobao kategori öznitelik sistemi hakkında konuşmak: ürün aramanın ardındaki mantıksal yapı
Kaç tane otoriter kedi gördün?
Flink sürgülü pencere optimizasyonu
To Top