Karmaşık Sahnelerde Radon Düzeltmesine ve MSER'ye Dayalı Metin Konum Algoritması Araştırması

Liu Yang

(Bilgi ve Elektrik Mühendisliği Okulu, Çin Madencilik ve Teknoloji Üniversitesi, Xuzhou, Jiangsu 221116)

Karmaşık sahnelerde metin arka planının karmaşıklığından kaynaklanan hatalı metin konumlandırma sorununu hedefleyen Radon eğim düzeltmesi ve MSER'yi (Maksimum Kararlı Uç Değer Bölgesi) birleştiren bir algoritma önerilmiştir Bu algoritmaya dayanarak metin tanımlanır. Karmaşık bir arka planda konumlandırın. İlk olarak, görüntüyü önceden işleyin, görüntünün kenarını algılamak için Canny operatörünü kullanın ve eğik görüntüyü düzeltmek için Radon dönüşümünü kullanın. Daha sonra görüntü, gürültüyü gidermek için ikili dalgacık dönüşümü ile geliştirilir. Son olarak, MSER çıkarılır, kaba işleme ve ince işlemeden sonra metnin konumu tespit edilir. Deneysel sonuçlar, MSER ile birlikte Radon eğim düzeltmesine dayalı yöntemin metin konumlandırmanın doğruluğunu etkili bir şekilde artırabileceğini göstermektedir.

Radon eğim düzeltmesi; Canny operatörü; ikili dalgacık dönüşümü; maksimum uç değer alanı; metin konumlandırma

Basit bir arka plandaki metinler için (belge görüntüleri gibi), düzen tasarımı nispeten sabittir, bu da okuyucuların okuması için uygundur ve metin alanı bölümlemesinin zorluğunu azaltır [1].

Karmaşık sahnelerde, plaka numaraları ve işaretler gibi çeşitli zengin bilgiler vardır. Bu nedenle, karmaşık bir sahnede metin alanının konumunu elde etmek, etkili bilginin çıkarılması için faydalıdır. Bununla birlikte, aydınlatma, çekim açısı ve arka planın çok karmaşık olması nedeniyle, karmaşık sahnelerde metin konumlandırma ve metin tanıma uygulaması basit arka planlara göre daha zordur ve tanıma doğruluğu daha düşüktür.

Metin yerelleştirme algoritmaları, esas olarak bağlantılı etki alanlarına dayalı yerelleştirme yöntemlerini, doku özelliklerine dayalı yerelleştirme yöntemlerini ve uç özelliklerine dayalı yerelleştirme yöntemlerini içerir. Yukarıdaki yöntemlere dayanarak, insanlar çok fazla araştırma ve uygulama yaptı [2-8]. Bununla birlikte, yukarıdaki yöntemlerin, düşük metin konumlandırma doğruluğu ve karmaşık sahnelerde yavaş algoritma çalışması gibi dezavantajları vardır. Yukarıdaki analize dayanarak, bu makalenin konumlandırma algoritması önerilmiştir.

2 metin konumlandırma algoritması

2.1 Algoritma tasarımı

Metni karmaşık sahnelerde bulmak için Radon eğim düzeltmesini ve bağlantılı alan analizini birleştiren bir algoritma kullanılır. Metin konumlandırma algoritmasının akış şeması Şekil 1'de gösterilmektedir.

Bu makaledeki algoritmanın metni aşağıdaki gibidir: İlk olarak, görüntüyü ön işlemden geçirin. Çekim açısı probleminden dolayı, elde edilen görüntü az ya da çok eğimli olduğundan düzeltilmiş görüntüyü elde etmek için yatay ve dikey kenarları tespit etmek için Radon tilt düzeltmesi kullanılır.

Önişlemeden sonra, renkli görüntü hala elde edilir ve Canny kenar algılama operatörü, gürültü oluşturan ve görüntü bilgilerinin bir kısmının kaybına neden olan Radon eğim düzeltmesinde kullanılır. Bu nedenle, görüntünün iyileştirilmesi gerekir, yani görüntü ikili dalgacık dönüşümü ile işlenir. Görüntü geliştirme işleminden sonra, görüntüdeki metin alanının konumunu elde etmek için görüntünün MSER tarafından çıkarılması, ardından kaba işleme, ince işleme ve son olarak bağlantılı alan analizi gerekir.

2.2 Radon eğim düzeltmesi

Radon eğim düzeltmesi geometrik döndürme, JPEG sıkıştırma, filtreleme, vb. İçin iyi bir dayanıklılığa sahiptir [9]. Bu yazıda, Canny operatörü ilk olarak gri tonlamalı görüntünün yatay ve dikey yönlerdeki kenarlarını tespit etmek için kullanılmıştır [10]. Ön işlemeden sonra Radon eğim düzeltmesi yapılır.

2.3 İkili dalgacık dönüşümüne dayalı görüntü iyileştirme algoritması

Görüntü eğim düzeltme işleminden sonra, görüntüde kaçınılmaz olarak parazit görünür. Metin alanı yerelleştirmesinin doğruluğunu artırmak için, görüntü işlemeyi geliştirmek için ikili dalgacık dönüşüm algoritması kullanılır [11]. Her katmanın dalgacık ayrışması, hem yatay hem de dikey yönlerde düşük frekans bileşenleri, yatay düşük frekans, dikey yüksek frekans, yatay yüksek frekans, dikey düşük frekans ve hem yatay hem de dikey yüksek frekans bileşenleri içeren dört alt bant görüntüye ayrıştırılacak görüntüyü ayrıştırmalıdır. Ve bu 4 alt bant görüntüsü sırasıyla şu şekilde işaretlenmiştir: LL, LH, HL, HH.

İki boyutlu ikili dalgacık dönüşümünün yeniden inşa formülü:

Görüntü işleme sürecinde geliştirme faktörü, görüntünün gürültü seviyesi ve ilgilenilen detayların ölçeği tarafından seçilebilir. Geliştirme katsayısının Wj olduğunu varsayalım, bu katsayıyı ekledikten sonra yeniden yapılandırma formülü şuna dönüştürülür:

Bunlar arasında, j ölçek faktörüdür ve i, LH, HL ve HH'nin 1, 2 veya 3 olabilen üç görüntüsünü temsil eder.

Görüntüye işlem eklemek için ikili dalgacık kullanmanın ana adımları şunlardır:

(1) Güçlü bir algoritmaya, görüntünün dalgacık ayrışmasına dayanmaktadır.

(2) Her katmanın ikili dalgacık katsayılarını elde etmek için Wj, i geliştirme katsayılarını tanıtın ve ardından aşağıdaki formüle göre dönüştürün:

(3) Geliştirilmiş bir görüntü elde etmek için elde edilen dalgacık katsayıları üzerinde ters ikili dalgacık dönüşümü gerçekleştirin.

2.4 Metin konumlandırma için MSER (Maximum Extreme Value Stable Region) algoritmasına dayalı

İkili dalgacık sayesinde, görüntü kalitesi önemli ölçüde iyileştirildi. Bundan sonra MSER algoritması görüntüdeki metin alanını bulmak için kullanılır.

2.4.1 MSER ekstraksiyonu

MSER algoritması iki bölge içerir: MSER + ve MSER-. Yeni pikseller eklerken, hangi alana ait olduklarını belirleyin ve bunları bu alanda birleştirin. Daha fazla piksel olduğunda, alan artar ve birbiriyle birleşir ve daha sonra maksimum kararlılık durumuna göre, alanın maksimum uç değer kararlı alan olup olmadığına karar verilir [12].

2.4.2 Kaba işlem

MSER'nin çıkarılmasıyla, görüntüde birden çok MSER belirir. Her bir MSER'nin dış dikdörtgeninin konumunu ve yüksekliğini hesaplayın ve bu MSER'leri ilgili MSER + ve MSER- olarak sınıflandırın. Karmaşık bir sahnedeki karakter dağılımı, yatay sürekli aralıkların özelliklerine de uyduğundan, burada [13] referansındaki kaba işleme yöntemi kullanılmaktadır.

İlk önce her iki MSER'nin konumsal ilişkisini analiz edin ve çıkarılan MSER'lerin sayısını N olarak ayarlayın, ardından bir N × N matrisi elde edilebilir. İ-inci MSER ile j-inci MSER arasındaki merkez mesafesi koşulu karşılıyorsa:

Ardından M [i] [j] ve M [j] [i] değerini 1 olarak ayarlayın.

Bunlar arasında, dikey mesafe ve yatay mesafe, sırasıyla dikey mesafeyi ve yatay mesafeyi temsil eder. maxPlateWidth ve maxPlateHeight sırasıyla metin alanının mümkün olan maksimum genişliğini ve yüksekliğini temsil eder.

Yukarıdaki analize göre, aranan aday alan, N × N matrisinin sağ üst köşesindeki dört alandaki tüm bağlantılı noktalara karşılık gelen MSER'dir.

2.4.3 İnce işleme

Elde edilen sonuçlar üzerinde bağlantılı alan analizi yapın. Görüntüde birden fazla dikdörtgen aday bölge vardır ve aşağıdaki kısıtlamalar önceden bilgi ile belirlenir:

(1) Gerçekte karakter sayısı görece fazla olduğundan, karakter sayısı 2'ye eşit veya daha az olduğunda, metin olmayan alan olarak kabul edilir ve kaldırılır;

(2) Önceki manzara noktasındaki piksel sayısının aday alandaki piksel sayısına oranı% 50'den fazlaysa, metin olmayan alan olarak değerlendirilir ve ayrıca elenir;

(3) Aday alanın genişliğinin yüksekliğe oranı 120 ile 20 arasında ise, metin dışı alan olarak kabul edilir ve ortadan kaldırılması gerekir.

3 Simülasyon ortamı ve deneysel sonuçlar ve analiz

Bu yazıda önerilen algoritmayı simüle etmek için MATLAB simülasyon platformunu kullanın. Bu algoritma ile görüntü işlemenin her adımı Şekil 2 ~ Şekil 7'de gösterilmiştir.

4. Sonuç

Karmaşık sahnelerde metin alanının yetersiz konumlandırma doğruluğunu hedefleyen bu makale, farklı çekim açılarının konumlandırma doğruluğu üzerindeki etkisini azaltabilen ve görüntüyü geliştirmek için ikili dalgacık dönüştürme algoritmasını kullanabilen Radon eğim düzeltme ve MSER kombinasyonuna dayalı bir algoritma önermektedir. İşleme, gürültünün etkisini daha da ortadan kaldırın ve son olarak metnin bulunduğu alanı hızlı ve etkili bir şekilde bulmak için MSER algoritmasını kullanın. Metin alanının etkili bir şekilde konumlandırılması, sonraki metin tanımanın doğruluğunun iyileştirilmesine yardımcı olur.

Referanslar

[1] Jia Wenjing, Zeng Chao, Ao Yongxia ve diğerleri. Dış mekan sahnelerinde işaret metninin algılama ve çıkarma teknolojisine genel bakış J. Yunnan Milliyetler Üniversitesi Dergisi (Natural Science Edition), 2010,19 (3): 157- 161. 2 Wang Jing, Tian Yangyang, Huangfu Haiyan. Bağlı alan eşiklerine dayalı doğal sahne metin görüntüsü segmentasyon teknolojisi J. Journal of Xinjiang Normal University (Natural Science Edition), 2015,34 (1): 12-15.

[3] MATAS J, CHUM O, URBAN M, et al. Maksimum kararlı dış bölgelerden sağlam geniş taban çizgisi stereo C. İngiliz Makine Görme Konferansı Bildirileri, Cardiff, İngiltere, 2002: 384393.

4 Mo Huiyu, Wang Zhuping MSER ve SIFT operatörlerini birleştiren bir özellik algılama yöntemi J. Journal of Donghua University (Natural Science Edition), 2011,37 (5): 624-628.

5 BAI Y P. BP ağı, el yazısı dijital görüntü özelliği çıkarımına dayalı based J. Uygulamalı Matematikteki Gelişmeler, 2014, 3 (2): 104-111.

[6] Wang Jian, Zhou Yuanhua Doku enerjisine dayalı bir JPEG görüntü metni yerelleştirme algoritması J. Journal of Shanghai Jiaotong University, 2004,38 (9): 1492-1495.

[7] He Liqiang, Liu Hao, Chen Yong. Kenar ve gri algılamayı birleştiren sahne görüntü metni yerelleştirmesi J. Çin Görüntü ve Grafik Dergisi, 2013, 18 (2): 1601-1609.

[8] Jia Dongqin, Wang Hongyuan, Cheng Qicai Uyarlanabilir eşik Canny operatörüne dayalı video metni yerelleştirme yöntemi J. Changzhou Üniversitesi Dergisi (Natural Science Edition), 2014, 26 (1): 47-52.

9 He Bing, Wang Xi, Zhao Jie.Radon dönüşümüne dayalı anti-rotasyon saldırısı için sıfır filigran algoritması J Bilgisayar Mühendisliği, 2009, 35 (16): 128-129.

[10] Chen Hongxi Kenar koruma yumuşatma filtresine dayalı Canny operatör kenar algılama J Lanzhou Jiaotong Üniversitesi Dergisi, 2006,25 (1): 86-90.

[11] Tur Hongjiang, Eskar, Wujimamat ve diğerleri. İkili dalgacık dönüşümüne dayalı geliştirme teknolojisi J. Journal of Xinjiang Normal University (Natural Science Edition), 2006, 25 (4): 613.

12 Xiao Chengqiu, Ji Lixin, Gao Chao, vb Ağaç budama ve çok özellikli füzyona dayalı sahne metni algılama J. Journal of Information Engineering University, 2015, 16 (5): 590-595.

13 Xiao Yi, Jiang Jun. Plaka konumu ve maksimum kararlı uç değer alanına dayalı karakter segmentasyonu J. Bilgisayar ve Dijital Mühendislik, 2015, 43 (12): 2272-2274.

AET üyeleri için yıl sonu avantajları!

3,8 metrelik su derinliği 0,5 metre olarak yanlış değerlendirildi.Boğulmakta olan bebeği kurtarma tehlikesiyle babam hayatını kaybetti ve vatandaşlar tarafından kurtarıldı
önceki
Kötü başlıklar yüzünden neredeyse kaçırdığım iyi filmler birden fazla "Mutlu Ses"
Sonraki
WeChat 2018 veri raporunu yayınladı: Sesli ve görüntülü görüşme sayısı geçen yıla göre% 100 artışla 410 milyona ulaştı
SIFT Özelliklerine Göre Demiryolu Algılama Görüntülerini Eşleştirme Yöntemi
Feng Xiaogang'ın yeni çalışması "Fang Hua" 30 Eylül'de olacak, Huang Xuan ordunun kuruluşunun 90. yıldönümüne bir saygı duruşunda bulunuyor.
Unutulmaz Bir Savaşçı Sun Zhong, "11.27" de Zhazidong'dan son kaçış
Batarya Yönetim Sistemi için Denge Kontrol Devresinin Tasarımı
Hala elle mi yıkıyor? Çamaşır makinesini değiştirme zamanı
Denizaşırı Film Haberleri "Deadpool 2" yeni makyaj fotoğrafı "Bumblebee" duyurdu
Lenovo, küresel zeka dağıtımını hızlandırmak için yeni nesil akıllı PC'leri piyasaya sürdü CES 2019
Film Haritası "City of Philharmonic" ile Los Angeles turu
Yüksek hassasiyetli yankı veri toplama modülünün tasarımı
Ekran Süresi | "Elf Prensi" Orlando Bloom
Geek Food: Hızlı ve Hafif Cheesecake
To Top