Bezier eğrisine ve RNN'ye dayalı yeni el yazısı tanıma yöntemi

Cihazlarla etkileşim kurmanın önemli bir yolu olan el yazısı girdisi, çeşitli üreticiler tarafından, özellikle girdi için klavye yerine el yazısını kullanmayı tercih eden orta yaşlı ve yaşlı arkadaşlar için her zaman değerli olmuştur. Ek olarak, el yazısı girdisi bazı karmaşık diller, etkileşimli gösteri senaryoları, deneme öğretimi vb. İçin vazgeçilmez bir rol oynar.

Google, 15 yılda 82 dili destekleyen bir el yazısı girişini başlattı ve geçen yıl 100 dile yükseltildi. Ancak makine öğreniminin hızla gelişmesiyle birlikte araştırmacılar, kullanıcılara daha hızlı ve daha doğru bir deneyim sunmak için geçmiş yöntemleri sürekli olarak yeniden gözden geçiriyor.

Önceki model, giriş vuruşlarını ayrı karakterlere bölen ve anlamak için karşılık gelen kod çözücüyü kullanan bir manuel tasarım yöntemine dayanmaktadır. Doğruluğu ve hızı artırmak için, araştırmacılar tekrarlayan bir sinir ağına dayalı uçtan uca bir el yazısı tanıma sistemi geliştirdiler.Giriş vuruşlarını analiz ve işleme için Bezier eğri dizisine dönüştürerek, daha yüksek bir doğruluk tanıma sonucu elde etmek için RNN kullanıldı. Bu makalede araştırmacılar, Latin alfabesini örnek olarak kullanarak yeni el yazısı karakter tanımanın arkasındaki hikayeyi ayrıntılı olarak açıkladılar.

Kişiler, eğriler ve tekrarlayan sinir ağları

Herhangi bir el yazısı karakter tanıma sisteminin parmak / giriş cihazının dokunma noktalarını tanıması gerekir. Ekrana veya el yazısı tahtasına girdiğimiz vuruşlar, zaman damgaları içeren bir dizi çıkış noktası dizisi olarak görülebilir. Araştırmacılar, giriş cihazlarının boyut ve çözünürlük bakımından farklı olduğunu göz önünde bulundurarak önce giriş dokunma koordinatlarını normalleştirdiler. Ardından, temas sırasını tanımlamak için kübik bir Bezier eğrisi kullanılır, böylece RNN vuruş dizisinin şeklini daha iyi anlayabilir.

Bezier eğrisi, el yazısı tanımada uzun bir uygulama geçmişine sahiptir.Bezier eğrisine dayalı olarak, giriş verileri daha sürekli ifade edilebilir ve farklı örnekleme hızları ve çözünürlükleri için daha sağlamdır. Bezier eğrisinin ifadesinde, her eğri, başlangıç noktası, bitiş noktası ve iki kontrol noktasının bir polinomu olarak ifade edilebilir ve daha az sayıda parametre, giriş vuruşlarını doğru bir şekilde ifade edebilir.

Bu yöntem, Google'ın önceki bölümleme-kod çözme şemasının yerini alır. Önceki şema, giriş vuruşlarını ayrı karakterlere bölmeli ve ardından en olası karakterleri bulmak için kod çözme yöntemini kullanmalıdır. Giriş vuruşlarını ifade etmek için Bezier eğrilerini kullanmanın bir başka avantajı, giriş dokunma sırasını daha kompakt bir şekilde ifade edebilmesidir, bu da modelin girdiden girdinin zamanlama bağımlılığını çıkarmasını kolaylaştıracaktır. Yukarıdaki şekil, bir Bezier eğrisiyle bir "git" karakterinin yerleştirilmesi işlemini göstermektedir. Orijinal giriş noktası seti 186 kontak koordinatı içerir. G harfi için şekildeki sarı, mavi, pembe ve yeşil noktalar dört kübik Bezier eğrisinin sırasını temsil etmek için kullanılabilir ve o harfi için turuncu, Zümrüt yeşili ve beyazla temsil edilen üç Bezier eğrisinden oluşan bir dizi tanımlanmıştır. Bezier eğri dizisi tarafından temsil edilen girdiye bağlı olarak, temsil edilen karakteri elde etmek için dizinin kodunu çözmemiz gerekir. RNN, dizi girişini işlemenin etkili bir yoludur, bu nedenle araştırmacılar, dizi verilerini çözmek için çok katmanlı RNN kullanır ve her giriş dizisi tarafından temsil edilen harflerin olasılığını temsil eden bir matris oluşturur, böylece el yazısı vuruşlarla temsil edilen karakterleri hesaplar. .

Gerçek süreçte, araştırmacılar işleme modeli olarak iki yönlü yarı döngüsel bir sinir ağını seçtiler.Bu modelde, dönüşümlü evrişim ve regresyon katmanları teoride paralel işleme olasılığına sahiptir ve ağ ağırlığı da nispeten yüksektir. Modeli daha az durumda sürdürme yeteneği. El yazısı karakter tanıma çoğunlukla mobil cihazlarda yapıldığından, hızı korumanın anahtarı küçük boyutlu bir modeldir.

Eğri dizisinin kodunu çözmek ve karşılık gelen karakterleri tanımlamak için, döngüsel sinir ağı, harf olasılığını temsil eden bir kod çözme matrisi oluşturacaktır. Matrisin her sütunu bir Bezier eğrisini temsil eder ve her satır, giriş eğrisine karşılık gelen bir harfin olasılığını temsil eder. Yukarıdaki şekildeki kod çözme matrisinde, her bir sütun için, bunun ve önceki dizinin birlikte 26 harfe karşılık gelen olasılık dağılımını oluşturduğunu görebiliriz. Birinci ila üçüncü eğri dizileri boşluğa karşılık gelir (karakterin CTC algoritmasından tanınmadığını gösterir) ve dördüncü eğriye ulaşıldığında ağın g harfinde daha yüksek bir olasılığı vardır, bu da RNN'nin İlk dört eğride g harfi tanınır ve arkadaki sekizinci eğride, o harfine karşılık gelen pozisyonun daha yüksek bir olasılığa sahip olduğunu görebiliriz. Eğri, dizi işleme yoluyla karşılık gelen karakterlere dönüştürülebilir.

Ek olarak, kayda değer iki ilginç fenomen vardır: g harfinin tanınması için, dördüncü sütundaki y harfinin (ikinciden sona) aktivasyonu da nispeten yüksektir, çünkü g ve y benzer görünür. O harfinin tanınmasına gelince, her eğriye karşılık gelen o olasılığı, her eğriyi girdikten sonra sürekli artmaktadır.Bu aynı zamanda sezgilerimizle de uyumludur. O ile gösterilen daire ne kadar eksiksiz olursa, o olasılığı o kadar büyük olur. Ek olarak, araştırmacılar ağın çıktısını birleştirmek için sonlu durum dil modeli kod çözücüyü de tanıttı.Bazı yaygın karakter kombinasyonları için, kodu çözülen karakterlerin hızlı bir şekilde çıktı için kelimelere dönüştürülebilmesi için daha büyük bir girdi olasılığı vardır. . Özetle, yeni yöntem üç ana adıma bölünmüştür: İlk olarak, dokunma dizisi kompakt bir Bezier eğrisine dönüştürülür, ardından kod çözme için QRNN kullanılır ve son olarak karşılık gelen kelimeleri birleştirmek için karakter sonuçları kullanılır. Basit görünmesine rağmen, bu yöntem tanıma hatası oranını orijinal yönteme göre% 20 -% 40 oranında azaltır!

Model eğitimi hakkında

Modelin eğitimi iki kısma ayrılmıştır; biri, modelin bağlantısalcı zamansal sınıflandırma (CTC) kaybına dayalı olarak eğitilmesi, diğeri ise Bayes optimizasyonuna dayalı kod çözücü ayarlamasıdır. Eğitim verileri temel olarak üç veri kümesini içerir: IAM-OnDB çevrimiçi el yazısı karakter veri kümesi, IBM-UB-1 İngilizce veri kümesi ve ICDAR 2013'ün Çince İzole Karakterleri ve Vietnamca ICFHR2018 veri kümesi. Ayrıntılı veri seti bağlantıları için lütfen makalenin sonundaki referanslara bakın.

Ekipman dağıtımı

El yazısı tanıma için hız garantisi olmayan doğru bir model kullanıcılar için dayanılmazdır. El yazısı girdisinin gecikmesini azaltmak için, araştırmacılar modeli tensorflow Lite üzerinde uyguladılar ve modelin boyutunu ve son uygulama kurulum paketini nicelik gibi bir dizi yöntemle başarılı bir şekilde azalttılar. Mükemmel model ve kompakt uygulama, cep telefonlarının el yazımızı okumasını kolaylaştıracaktır.

Yepyeni ekoloji Lenovo, yeni Thinkplus ürünlerini piyasaya sürüyor
önceki
2. yaş günün kutlu olsun Switch!
Sonraki
Kâr peşinde koşan tüketici kredileri: bazıları mutlu, bazıları endişeli
"Rüzgarın Laneti" 100 milyon gişe videosunu kırdı ve anne ve oğul buluştuğunda seyirci gözyaşlarına boğuldu.
Yeni yılda yeni otomobil yapım güçlerinin ilk dalgası Zero Run S01 neden genç tüketicileri çekiyor?
Teknoloji Videosu Ulusal Tur-Guangzhou İstasyonu İşe Alım
"Crasher Wolf Racing Remake" üç kısa fragmanı duyurdu
İlk CIIE'de ne hissetmelisiniz?
"Misyon İmkansız 6: Tamamen Dağılma" Efsaneye Giden Yol
Geleceği sürün, Dell Tour de France ile el ele verdi
# Trend Anında# Bir hafta boyunca trendin sıcak haberlerini ve KAWS COMPANION bebeğini ücretsiz izleyin
Makyaj da çok güzel! "Kraliçe İmparatoriçe" Qin Lan, Bahar Şenliği Gala provasını izlemek için metroyu sıktı
Çin'in ekonomik beklentilerine% 3 açık oranı tartışmasından bakmak
"Kashen", "Alita: Savaş Meleği" nin "uzun süredir planladığını" açıkladı 12.21 şok grev
To Top