RPA çağını mümkün kılan Microsoft, eğitim öncesi modeli LayoutLM hakkında genel bir belge yayınladı

Kaynak: Microsoft Research AI manşetleri

Bu makale hakkında 3900 kelime , Okumanız tavsiye edilir 10+ dakika

Belge yapısı bilgilerinin ve görsel yapı bilgilerinin etkili kullanımı, model doğruluğunu önemli ölçüde artırır.

Etiket: Natural Language Processing

Son yıllarda, popüler Robotik Süreç Otomasyonu (RPA), insanları karmaşık elektronik belge işleme görevlerinden kurtarmak için AI teknolojisini kullanıyor.En önemli şey otomatik belge analizi ve tanıma teknolojisidir. Çok sayıda etiketlenmemiş elektronik belgeyle karşı karşıya kalan mevcut büyük ölçekli eğitim öncesi dil modeli, eğitim öncesi aşamada metinde bulunan anlamsal bilgileri etkili bir şekilde yakalayabilir, ancak belgedeki görsel yapı bilgilerini göz ardı eder. Microsoft Research Asia, kısa süre önce belge yapısı bilgilerini ve görsel bilgileri birleştiren genel bir belge ön eğitim modeli LayoutLM yayınladı. Form anlama, bilet anlama ve belge görüntü sınıflandırması testlerinde en iyi sonuçları elde etti. Model, kod ve Tüm makaleler indirilmeye açık.

Birçok endüstrinin dijital dönüşümü ile, elektronik iş belgelerinin yapılandırılmış analizi ve içerik çıkarımı sıcak bir araştırma konusu haline geldi. Elektronik iş belgeleri genellikle iki kategori içerir: biri kağıt belgenin taranmış görüntüsü, diğeri bilgisayar tarafından oluşturulan dijital belgedir Bu belgeler satın alma makbuzlarını, sektör raporlarını, iş e-postalarını, satış sözleşmelerini, istihdam sözleşmelerini ve ticari faturaları kapsar. , Kişisel özgeçmiş vb.

Genel olarak, elektronik iş belgeleri, şirketin iç ve dış konuların işleme ayrıntılarını içerir ve büyük miktarda endüstri ile ilgili kuruluş bilgisi ve dijital bilgi içerir. Geçmişte, elektronik iş belgelerinin bilgi işlemesi genellikle manuel olarak yapılırdı, ancak, manuel bilgi çıkarma yalnızca zaman alıcı ve yoğun emek gerektirmez, aynı zamanda düşük yeniden kullanılabilirliğe sahiptir, bu da işletme operasyonlarının verimliliğini büyük ölçüde sınırlar ve engeller. Bu nedenle, elektronik belgelerin otomatik, doğru ve hızlı bir şekilde işlenmesi, kurumsal üretkenliğin iyileştirilmesi için çok önemlidir ve bu da gelişmekte olan bazı endüstrilerin ortaya çıkmasına neden olarak geleneksel endüstrilerin dijital dönüşümü gerçekleştirmesine yardımcı olur ve üretkenliği artırır.

Son yıllarda, Robotik Süreç Otomasyonu (Robotik Süreç Otomasyonu, RPA) Kuruluşların üretkenliğini artırmak için bir dizi destekleyici otomasyon aracı sağlayan, karmaşık elektronik belge işleme görevlerinden çok sayıda insan gücüne yardım etmek için yapay zeka teknolojisinin kullanılmasıdır. Bunların arasında en kritik çekirdek teknoloji, otomatik belge analizi ve tanıma teknolojisidir.

Geleneksel belge analizi ve tanıma teknolojileri, genellikle manuel olarak özelleştirilmiş kurallara veya öğrenme için az miktarda etiketlenmiş veriye dayanır. Bu yöntemler, yetersiz sayıda özelleştirilmiş kural ve öğrenilebilir örnek olması nedeniyle belirli bir düzeyde performans iyileştirmesi sağlayabilse de, çok yönlülüğü genellikle sonsuzdur. Beklendiği gibi, farklı belge türleri için analiz geçiş maliyeti yüksektir.

Derin öğrenme ön eğitim teknolojisinin gelişmesi ve çok sayıda etiketsiz elektronik belgenin birikmesi ile belge analizi ve tanıma teknolojisi yeni bir döneme girmiştir. Birçok araştırma sonucu şunu gösteriyor: Büyük ölçekli eğitim öncesi dil modelleri, kendi kendini denetleyen görevler aracılığıyla eğitim öncesi aşamada metinde bulunan anlamsal bilgileri etkili bir şekilde yakalayabilir ve aşağı akış görevlerinde ince ayar yapıldıktan sonra modelin etkisini etkili bir şekilde iyileştirebilir. Bununla birlikte, mevcut eğitim öncesi dil modelleri esas olarak metnin tek moduna odaklanır ve belgenin kendisinin ve metnin görsel yapı bilgisini göz ardı eder.

Bu sorunu çözmek için, bir Genel belge ön eğitim modeli LayoutLM, modelleme belge yapısı bilgileri (Belge Yerleşim Bilgileri) ve görsel bilgiler (Görsel Bilgiler) , Modelin eğitim öncesi aşamada çok modlu hizalama yapmasına izin verin. Üç farklı aşağı akış görevinde doğrulama yapıyoruz: Form Anlama, Makbuzu Anlama ve Belge Görüntü Sınıflandırma.

Deneysel sonuçlar, ön eğitimde sunduğumuz yapısal ve görsel bilgilerin alt görevlere etkili bir şekilde aktarılabileceğini göstermektedir. Sonunda, üç aşağı akış görevinde özellikle:

  • Form anlama görevinde, yöntemimiz yalnızca metin ön eğitimini kullanan modelden 8,5 yüzde puan daha yüksektir;
  • Fatura anlama görevinde, yöntemimiz ICDAR 2019 fatura bilgisi çıkarma rekabet yönteminden 1,2 puan daha yüksektir;
  • Belge görüntü sınıflandırması görevinde, yöntemimiz yayınlanan en iyi sonuçlardan% 1.3 daha yüksektir.

Şu anda, ön eğitim modeli ve kodu indirilebilir:

Kod bağlantısı:

https://github.com/microsoft/unilm/tree/master/layoutlm

Kağıt bağlantısı:

https://arxiv.org/abs/1912.13318

Belgedeki çok modlu bilgiler

  • Belge yapısı bilgileri

Birçok durumda, Belgedeki metnin konum ilişkisi zengin anlamsal bilgi içerir . Örnek olarak aşağıdaki şekildeki formu alın: Form genellikle bir anahtar / değer çifti biçiminde görüntülenir (örneğin, "TARİH: 11/28/84"). Normal koşullar altında, anahtar / değer çiftlerinin düzeni genellikle sol-sağ veya üst-alt şeklindedir ve özel bir tür ilişkisine sahiptir. Benzer şekilde, bir tablo belgesinde, tablodaki metin genellikle bir ızgarada düzenlenir ve başlık genellikle ilk sütun veya satırda görünür. Ön eğitim yoluyla, metinle doğal olarak hizalanan konum bilgisi, aşağı akış bilgi çıkarma görevleri için daha zengin anlamsal bilgiler sağlayabilir.

Şekil 1: Örnek görüntü belgesi

  • Görsel bilgi

Zengin metin belgeleri için, metnin kendisinin konumsal ilişkisine ek olarak, metin biçiminde sunulan görsel bilgiler de aşağı akış görevlerine yardımcı olabilir. Belirteç düzeyindeki görevler için, metnin boyutu, eğimli olup olmadığı, kalın olup olmadığı ve yazı tipleri ve diğer zengin metin biçimleri karşılık gelen semantiği yansıtabilir. Genel olarak konuşursak, bir anahtar / değer çiftinin anahtarı genellikle kalın olarak verilir. Genel belgeler için, makalenin başlığı genellikle büyütülmüş ve kalın, özel kavramların isimleri ise italik olarak gösterilir. Belge düzeyindeki görevler için, genel belge görüntüsü genel yapısal bilgi sağlayabilir. Örneğin, kişisel bir özgeçmişin genel belge yapısı ile bilimsel literatürün belge yapısı arasında açık bir görsel fark vardır. Bu modal olarak hizalanmış zengin metin biçimleri tarafından görüntülenen görsel özellikler, görsel modeller tarafından çıkarılabilir ve eğitim öncesi aşamada birleştirilebilir, böylece sonraki görevlere etkili bir şekilde yardımcı olur.

Genel ön eğitim programı

Yukarıdaki bilgileri modellemek için, bu bilginin etkili bir temsilini bulmamız gerekiyor. Ancak gerçekte, belge formatları zengin ve çeşitlidir.İyi tanımlanmış elektronik belgelere ek olarak, taranmış raporlar ve faturalar gibi çok sayıda grafik belge de vardır. Bilgisayarda oluşturulan elektronik belgeler için, metni ve karşılık gelen konum ve biçim bilgilerini kolayca elde etmek için ilgili araçları kullanabiliriz. Taranan görüntü belgeleri için, ilgili bilgileri elde etmek için işleme için OCR teknolojisini kullanıyoruz. İki farklı yöntem aracılığıyla, eğitim öncesi verilerin ölçeğini garanti ederek, eğitim öncesi için neredeyse tüm mevcut belge verilerini kullanabiliriz.

LayoutLM model yapısı

Yukarıdaki bilgileri kullanmak için, önceden eğitilmiş modele dayalı olarak iki yeni Gömme katmanı, 2 Boyutlu Konum Gömme ve Görüntü Gömme ekledik, böylece belge yapısı ve görsel bilgiler etkili bir şekilde birleştirilebilir.

Şekil 2: LayoutLM modeli yapı diyagramı

  • 2-B Konum Gömme

OCR ile elde edilen metin Sınırlama Kutusu'na göre metnin belgedeki belirli konumunu alabiliriz. Karşılık gelen koordinatları sanal koordinatlara dönüştürdükten sonra, x, y, w ve h'nin dört Gömme alt katmanına karşılık gelen koordinatların temsilini hesaplıyoruz.Son 2 Boyutlu Konum Gömme, dört alt katmanın Gömme toplamının toplamıdır.

  • Görüntü Gömme

Görüntü Gömme bölümünde, her metne karşılık gelen Sınırlayıcı Kutuyu, karşılık gelen yerel özellikleri çıkarmak için Daha Hızlı R-CNN'deki Teklif olarak kabul ediyoruz. Özellikle, sembol tüm girdi metninin anlamını temsil etmek için kullanıldığından, modal hizalamayı korumak için tüm belge görüntüsünü konumun Görüntü Gömme olarak da kullanırız.

Ön eğitim görevi

Eğitim öncesi aşamada, LayoutLM özelliklerine göre iki kendi kendini denetleyen eğitim öncesi görev öneriyoruz: 1) Maskeli Görsel Dil Modeli (MVLM, maskelenmiş görsel dil modeli) 2) Çok etiketli Belge Sınıflandırması (MDC, çok etiketli belge sınıflandırması) ).

  • Görev 1: MVLM maskeli görsel dil modeli

Çok sayıda deney, MLM'nin eğitim öncesi aşamada kendi kendini denetleyen öğrenmeyi etkili bir şekilde gerçekleştirebileceğini kanıtladı. Bu temelde bir değişiklik yaptık: mevcut kelimeyi maskeledikten sonra, ilgili 2-B Konum Gömme ipucunu koruyun, modelin karşılık gelen kelimeyi tahmin etmesine izin verin. Bu yöntemde, model, mevcut bağlama ve karşılık gelen görsel ipuçlarına dayalı olarak maskelenmiş kelimeleri tahmin eder, böylece model, metin konumu ve metin semantiği arasındaki modal hizalama ilişkisini daha iyi öğrenebilir.

  • Görev 2: MDC çok etiketli belge sınıflandırması

MLM, kelime düzeyinde bilgileri etkili bir şekilde temsil edebilir, ancak belge düzeyinde temsil için, daha yüksek düzeyde anlamsal bilgi sunmak için belge düzeyinde eğitim öncesi görevlere ihtiyacımız var. Eğitim öncesi aşamada, kullandığımız IIT-CDIP veri seti, her belge için çok etiketli belge türü ek açıklamaları sağlar ve MDC çok etiketli belge sınıflandırma görevini tanıtırız. Bu görev, modelin ilgili belge kategorilerini toplamak ve belge türü bilgilerini yakalamak için bu denetim sinyallerini kullanmasını ve böylece daha etkili bir yüksek düzeyde anlamsal temsil elde etmesini sağlar.

  • Ön eğitim süreci

Ön eğitim süreci için IIT-CDIP veri setini kullanıyoruz. IIT-CDIP veri seti, taranmış görüntülerden oluşan büyük ölçekli bir açık veri kümesidir.İşlendikten sonra, belge sayısı yaklaşık 11.000.000'a ulaşır. Denemeleri test etmek için rastgele 1.000.000 örnekledik ve son olarak tüm ön eğitim için tüm verileri kullandık.

Aşağı akış görev ince ayarı

On milyonlarca belgenin düzenine ilişkin ön eğitim ve aşağı yöndeki görevlerde ince ayar yaparak, test edilen üç farklı alt görev türünde en iyi sonuçları elde ettik: FUNSD veri setinde, form anlamanın F1 değeri 70,72'den artırıldı 79.2'ye; ICDAR 2019 SROIE yarışmasında birincilik puanını 94.02'den 95.24'e yükseltin; RVL-CDIP belge görüntü sınıflandırma veri setinde mevcut en iyi sonucu 93.07'den 94.42'ye yükseltin.

  • Form Anlama

Form anlama görevi için test veri seti olarak FUNSD kullanıyoruz.Veri setindeki 199 açıklamalı belge 31.485 kelime ve 9.707 anlamsal varlık içeriyor. Bu veri setinde, veri setindeki formlardan anahtar-değer çiftlerini çıkarmamız gerekir. Konum bilgisinin ön eğitimini başlatarak, modelimiz bu görevde önemli bir gelişme elde etti. Deneysel sonuçlar aşağıdaki tabloda gösterilmektedir.

Tablo 1: LayoutLM'nin FUNSD veri kümesindeki deneysel sonuçları

  • Makbuz Anlama

Fatura anlama görevinde, test olarak SROIE değerlendirme yarışmasını seçiyoruz. SROIE fatura kapsamı, her biri dört anlamsal varlığa sahip 1000 etiketli fatura içerir: mağaza adı, mağaza adresi, toplam fiyat ve tüketim süresi. SROIE değerlendirmesindeki modelimiz olan bu veri setinde ince ayar yaparak, F1 değeri ilkinden (2019) 1,2 puan daha yüksek ve% 95,24'e ulaşıyor.

Tablo 2: SROIE değerlendirmesinde LayoutLM'nin deneysel sonuçları

Şekil 3: SROIE değerlendirme sıralama durumu (Mart 2020 itibariyle)

  • Belge Görüntü Sınıflandırması

Belge görüntü sınıflandırması görevi için, test için RVL-CDIP veri setini seçiyoruz. RVL-CDIP veri seti, toplam 400.000 belge ile 16 kategori içerir ve her kategori 25.000 belge verisi içerir. Modelimiz, bu veri setinde ince ayar yaptıktan sonra sınıflandırma doğruluğunu yüzde 1,35 puan artırarak% 94,42'ye ulaştı.

Tablo 3: RVL-CDIP veri kümesinde LayoutLM'nin deneysel sonuçları

Analiz deneyi

Deneysel ayarlara göre de analiz ettik. Eğitim verilerinin, adım boyutunun, model yapısının ve başlatma yapısının analizine göre, LayoutLM daha fazla kullanılma potansiyeline sahiptir.

  • Eğitim verileri ve adım boyutu

Aşağıdaki tabloya göre, eğitim verilerini ve eğitim adım uzunluğunu artırmanın model etkisini önemli ölçüde iyileştirebileceğini görebiliriz.

Tablo 4: Farklı eğitim adımları ve veri hacimleri altında FUNSD veri kümesinde LayoutLM'nin deneysel sonuçlarının karşılaştırılması

  • Model yapısı ve başlatma ağırlıkları

BASE / LARGE ağ yapısı ve BERT / RoBERT ağırlık başlatma kullanarak kontrollü bir deney gerçekleştirdik. Deneysel sonuçlara göre, daha büyük bir ağ yapısı ve daha etkili ağırlıkların kullanılmasının, diğer deneysel ayarlar aynı olduğunda modelin etkisini önemli ölçüde etkileyebileceğini bulduk.

Tablo 5: LayoutLM'nin (Metin + Düzen, MVLM) deneysel sonuçlarının FUNSD veri setinde farklı ağırlık başlatmaları ve farklı ağ ölçekleri altında karşılaştırılması

sonuç olarak

Deneyler yoluyla, belge içeriğini anlama görevlerinde, eğitim öncesi aşamada belge yapısını ve görsel bilgiyi tanıtmanın, aşağı akış görevlerinde modelin performansını etkili bir şekilde iyileştirebileceğini gözlemledik. Gelecekteki çalışmalarda, görüntü bilgilerini LayoutLM'ye kodlamak için eğitim öncesi aşamada Görüntü Gömme ile Erken Füzyon gerçekleştirmeye çalışacağız. Aynı zamanda, diğer etkili eğitim öncesi görevleri de deneyeceğiz ve LayoutLM potansiyelini genişletmek için daha büyük ölçekli eğitim verileri sunacağız.

Kağıt ve kod

Belgeler ve önceden eğitilmiş modeller yayınladık ve ince ayarlı kod örnekleri sağladık. Daha fazla bilgi için lütfen aşağıdaki bağlantıyı ziyaret edin.

Kağıt bağlantısı:

https://arxiv.org/abs/1912.13318

Kod bağlantısı:

https://github.com/microsoft/unilm/tree/master/layoutlm

Referanslar:

https://rrc.cvc.uab.es/?ch=13com=evaluationtask=3

https://paperswithcode.com/sota/document-image-classification-on-rvl-cdip

https://ir.nist.gov/cdip/

https://rrc.cvc.uab.es/?ch=13com=evaluationtask=3

Editör: Huang Jiyan

Redaksiyon: Lin Yilin

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " THU Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Büyük insan riskleriyle başa çıkmak için süper zeka nasıl kullanılır?
önceki
Raspberry Pi + Movidius NCS'de hedef algılamayı tamamlamak için YOLO ve Tiny-YOLO kullanın
Sonraki
Aradaki fark 2,3 milyona ulaşacak! Büyük veri yeteneklerinin bunlara dikkat etmesi gerekiyor
Veri analizinizin çalışmasına yardımcı olacak 7 özel Python becerisi
2019 NLP Ansiklopedisi: Makaleler, bloglar, eğitimler ve mühendislik ilerlemesinin tümü sıralandı (bağlantılar)
17 yaşındaki bir lise öğrencisi bağımsız olarak dünyanın en sıcak salgın izleme web sitesini geliştirdi! İdolü Jobs
IJCAI 2020 Thanos tarzı ret, AI incelemesi daha adil mi?
TusStar, 62 kuruluşla birlikte "Yıldız Projesi" ni başlattı
78 yaşındaki Li Mingbo mahkemeye çıktı ve bitkin görünüyordu.Savcı 23 yıl hapis istedi
Dayan! Gözyaşlarını silip, arkalarına bakmadan kavgaya girdiler
Xi Jinping'in Bahar Şenliği grup ziyaretindeki konuşmasındaki dört "kalp"
Büyük veri çağında, "anti-salgın" daha bilimsel hale getirilmeli
Amazon'un ilk "insansız süpermarket" sisteminde bir hata var mı? ! Muhabir kıyafetlerini değiştirdi ve kamerayı aldattı
İdari büyük veri-yerli makalelerin açılması (bağlantı ile)
To Top