HKUST iFlytek, 2019'un en iyi bilgisayarla görme konferansı CVPR ve ICDAR değerlendirmesini kazandı

İFLYTEK AI Araştırma Enstitüsü ve Çin Bilim ve Teknoloji Üniversitesi'nin (bundan böyle toplu olarak iFLYTEK ve Çin Bilim ve Teknoloji Üniversitesi'nin ortak ekibi olarak anılacaktır) Ulusal Konuşma ve Dil Bilgi İşleme Laboratuvarı (NELSLIP) kısa süre önce en iyi bilgisayar vizyonu konferansı CVPR 2019'u ve en iyi konferans belge analizi ve tanınması ICDAR 2019'u düzenledi Aşağıdaki konularda birden fazla değerlendirme görevinde şampiyonluğu kazandı:

1. Uluslararası Bilgisayar Görüsü ve Örüntü Tanıma Konferansı (CVPR 2019) tarafından düzenlenen DIW 2019'da (Vahşi Zorlukta Algılama Atölyesi 2019) Objects365 Tiny Track'de birincilik ve Objects365 Full Track'de üçüncülük elde etti;

2. Uluslararası Belge Analizi ve Tanıma Konferansı (ICDAR 2019) tarafından düzenlenen bir dizi yarışmada, CROHME'deki (El Yazısıyla Yazılmış Matematiksel İfadelerin Tanıma Yarışması) ve sahne metni görsel sınav yarışması ST- VQA (Sahne Metni Görsel Soru Cevaplama) yarışmasındaki üç görev de şampiyondu ve Street View Tabelası Çin Metin Tanıma Yarışmasında ReCTS (Tabelada Çince Metni Okuma) tek kelime tanıma görevi şampiyonunu kazandı.

Bu olağanüstü başarılar dizisi, HKUST iFlytek'in bilgisayar görüşü alanında giderek daha fazla biriktiğini ve her zaman ileri düzeyde ve keşif hızını sürdürdüğünü göstermektedir.

DIW 2019 Mücadelesi

DIW 2019 Challenge, Megvii Technology ve Beijing Zhiyuan Yapay Zeka Araştırma Enstitüsü tarafından ortaklaşa düzenlenmektedir.Etkinliğe Tencent, Baidu ve Bytedance dahil 300'den fazla ekip çekilmiştir. Tarafından kullanılan Objects365 veri seti 630.000 içermektedir. 365 günlük nesne kategorisini kapsayan, manuel olarak etiketlenmiş 10 milyona kadar çerçeve olan görüntüler, en büyük genel nesne algılama veri kümesi olarak adlandırılabilir.

Tanınmış ImageNet ve COCO veri setleriyle karşılaştırıldığında, Objects365 veri seti doğal sahnelere daha yakındır, daha fazla kategoriyi kapsar ve daha yoğun açıklamalar sağlar.Aşırı dengesiz veri dağıtımı nedeniyle rekabetin zorluğunu büyük ölçüde artırır. Algoritma daha yüksek gereksinimleri ortaya koymaktadır.

Bilgisayarla görmenin iki temel görevi olan nesne algılama ve bölümleme, her zaman endüstrideki ana araştırma yönleri olmuştur. Ekim 2018'de, iFlytek ekibi Uluslararası Otonom Sürüş Otoritesi Değerlendirmesi Şehir Manzaraları'nın iki alt görevinin (sürüş sahnelerinin anlamsal bölümlendirmesi ve örnek bölümleme) dünya rekorunu kırdı.

Önceki görüş teknolojisinin birikimine dayanan bu DIW2019 yarışmasında, iFLYTEK-USTC ortak ekibi, nesne ölçeklerinin çeşitliliğine ve bu görevdeki örnek sayılarının eşit olmayan dağılımına dayanan, nesne algılama için klasik bir çerçeve olan Faster-RCNN'nin bir analizini gerçekleştirdi. Hedeflenen iyileştirmeler: Karma örnek veri geliştirme stratejisi, ağın genelleme yeteneğini geliştirir; çok seviyeli deforme olabilir evrişim, ağın alıcı alanını karşılık gelen ölçekte aday çerçeveler için daha uygun hale getirir; kademeli algılama şeması, aday çerçevelerin kalitesini kademeli olarak iyileştirir. Ek olarak, daha zorlu Tiny Track görevi (az sayıda örnek) için Objects365 Full Track modeli, Objects365 Tiny Track'in performansını iyileştirmek için taşınır ve Full Track'in algılama etkisini daha da iyileştirmek için iki yol modeli entegre edilir.

Nesne algılama ve bölümleme, endüstride çok çeşitli uygulama olanaklarına da sahiptir.HKBTÜ'nün iki temel görevinin teknik birikimi, yalnızca ekibin çeşitli yarışmalarda rekabet gücünü korumaya devam etmesini sağlamakla kalmaz, aynı zamanda uygulama için sağlam bir teknik garanti sağlar. Xunfei çevirmenindeki görüntü ve metin tanıma, tıbbi görüntüleme alanında yardımcı tanı ve video yapılandırma teknolojisindeki video anlayışı olsun, hepsi aralıksız çekirdek teknolojisi arayışını ve uygulama inişinin sağlamlığını içerir. kararlılık.

CROHME Mücadelesi

2018 ICPR MTWI Grafik Tanıma Yarışmasında, Çin Bilim ve Teknoloji Üniversitesi Yapay Zeka Araştırma Enstitüsü, Çin Bilim ve Teknoloji Üniversitesi'nin doğal sahne metin tanıma teknolojisindeki liderliğini tam olarak gösteren üç görevin de şampiyonluğunu kazandı. Bu kez, iFLYTEK-USTC ortak ekibi, daha zor bir el yazısı matematiksel formül tanıma görevi olan CROHME'yi seçti. Yarışmaya Amerika Birleşik Devletleri'ndeki Rochester Teknoloji Enstitüsü ev sahipliği yapıyor ve MyScript, Samsung, WIRIS (MathType), Çin Bilimler Akademisi Otomasyon Enstitüsü ve Sun Yat-sen Üniversitesi gibi el yazısıyla yazılmış matematiksel formül tanıma alanında birçok tanınmış yerli ve yabancı araştırma kurumunun katılımını çekti. .

İFLYTEK-USTC ortak ekibi, Çevrimiçi El Yazısıyla Yazılmış Matematiksel İfadeleri Tanıma ve Çevrimdışı El Yazısıyla Yazılmış Matematiksel İfadeleri Tanıma'nın iki ana görevine katıldı. Bu iki görev arasındaki fark, önceki Giriş, elle yazılmış matematik formülün vuruş yörüngesidir. Kontur yazma sırasını kaydeder. Genellikle gerçek zamanlı çevrimiçi el yazısı tanıma uygulama senaryolarında kullanılır. Çevrimiçi el yazısı tanıma sisteminin, cep telefonları ve tabletler gibi çevrimiçi giriş cihazlarında kullanıcı tarafından yazılan karakterleri toplaması gerekir. Yörünge sisteme girilir; ikincisinin girişi, genellikle resim çekme ve tarama gibi çevrimdışı el yazısı tanıma uygulama senaryolarında kullanılan el yazısı matematiksel formüllerin görüntüsüdür.Bu senaryoda, kullanıcıların yalnızca el yazısı karakterlerin fotoğraflarını çevrimdışı el yazısı tanıma sistemine göndermesi gerekir. Tam analiz ve tanımlama.

CROHME 2019 tarafından kullanılan veri seti, Amerika Birleşik Devletleri'ndeki Rochester Institute of Technology tarafından toplanan ve not verilen el yazısı matematiksel bir formüldür. 9993 eğitim seti, 986 doğrulama seti ve 1199 test seti vardır. Bu yarışma sadece katılımcı sistemin formülü tanımlamasını gerektirmez. İçindeki her karakter için, yarışma sisteminin tanınan karakterler arasındaki konumsal ilişkiyi de sağlaması gerekir.Bu nedenle, geleneksel OCR görevi ile karşılaştırıldığında, bu görevin zorluğu şudur:

1) Pozisyon ilişkisi

Konumsal ilişki artık geleneksel OCR görevlerinde tek bir sol-sağ veya yukarı-aşağı ilişkisi değildir, aynı zamanda dikey, sınırlama, alt simge ve alt simge gibi birden çok yapısal ilişkiye ve bu yapısal ilişkiler arasında birleşik iç içe geçmeye sahiptir;

2) Karakter boyutu

Matematiksel formüllerdeki karakter boyutu farkı, geleneksel OCR görevlerinden daha büyüktür;

3) Yazma stili

Yazarın yazma stili, bazı farklı karakterlerin karıştırılmasını kolaylaştıracaktır ve aynı karakter farklı yazarlar tarafından yazılmıştır, yalnızca karakter morfolojisi büyük ölçüde değişmeyebilir, çevrimiçi görevler için vuruş yörüngesinin sırası da olabilir. Tutarsız

HKUST iFLYTEK, uzun yıllardır el yazısıyla yazılmış karakter tanıma ile yakından ilgilenmektedir. Karakter tanımayı ve konum ilişkisi tanımayı ayrı ayrı modelleyen geleneksel matematiksel formül tanıma fikrinden farklı olarak, HKUST IFLYTEK tarafından kullanılan rekabet sistemi, matematiksel formülü gerçekleştirmek için el yazısı metin tanıma teknolojisindeki uzamsal dikkat mekanizmasına dayanan Kodlayıcı-Kod Çözücü fikrinden ödünç almıştır. Aynı zamanda, karakter boyutundaki büyük farkın neden olduğu tanınan karakter kaybı sorununu çözmek için çok ölçekli bir mekansal dikkat mekanizması önerilmiştir. Ek olarak, farklı yazarların farklı yazma stillerine yanıt olarak, dikkatin doğruluğunu uzay ve zamanın iki boyutundan iyileştirmek ve son olarak çeşitli farklı modalitelerden gelen bilgileri entegre etmek için bir uzamsal dikkat yönlendirme mekanizması ve bir zaman dikkat mekanizması önerilmiştir. Sistemin nihai kararının etkisini iyileştirin.

Yapay zekanın güçlü çekirdek teknolojisine dayanan iFlytek, aktif olarak uygulama alanına iniyor. Özellikle eğitim alanında, endüstri lideri yüksek hassasiyetli el yazısı tanıma teknolojisi ve akıllı değerlendirme teknolojisi ile temsil edilen akıllı işaretleme sistemi, CET ve birçok yerde birçok lise giriş sınavında uygulanmıştır. Markalamanın kalitesini maksimum garanti eder. Aynı zamanda, günlük öğretim sürecinde, her öğrencinin bireysel ev ödevi uygulama testinin doğru tanımlanmasına ve derinlemesine veri madenciliğine dayanan HKUST IFLYTEK, veri odaklı kişiselleştirilmiş ve doğru bir öğretim oluşturmuştur. Grafik tanıma, akıllı değerlendirme ve her öğrencinin bilgi hakimiyetindeki zayıflıkların analizi yoluyla, hedeflenen kişiselleştirilmiş öğrenme önerileri gerçekleştirilir, böylece her çocuk eve döndükten sonra kendi yetenek seviyesi için farklı ödevlere sahip olabilir, böylece her öğretmen daha fazlasına sahip olabilir. Öğrencilere yetenekleri doğrultusunda öğretme zamanı.

ST-VQA Mücadelesi

ST-VQA (Sahne Metni Görsel Soru Cevaplama), CVC (Bilgisayar Görme Merkezi) tarafından organize edilen, insanlar gibi görüntülerdeki varlıklar arasındaki ilişkiyi analiz etmek ve soruları doğru cevaplamak için algoritmalar gerektiren görsel bir sorudur. Bir yandan algoritmanın görüntü tespiti ve segmentasyonu gibi ön uç teknolojilerle ilgili gereksinimleri ortaya koyarken, diğer yandan algoritmanın yapay zekanın gelecekteki geliştirme yönlerinden biri olan çok modlu veri füzyonu, anlayışı ve muhakeme yeteneğine sahip olmasını da gerektiriyor.

Örneğin aşağıdaki sahnede mavi otobüsün varış noktasını bulmak için öncelikle mavi otobüsün yerini doğru bir şekilde belirlememiz ve otobüsün varış noktasının otobüsün önündeki elektronik ekranda görüntülendiğini ve son olarak Elektronik ekrandaki içeriği tanımlamak için algoritmalara ihtiyaç vardır.

ST-VQA yarışması, Task1-Strongly Contextualized, Task2-Weakly Contextualized ve Task3-Open Dictionary olmak üzere toplam üç göreve ayrılmıştır.Bu üç görev arasındaki fark, Task1'in her resme aday kelimelerin bir listesini vermesidir. Görev2, tüm veri seti için bir aday kelime dağarcığı verirken, Görev3'ün cevap tahminine yardımcı olacak ek bir kelime haznesi yoktur. Bu üç görevin zorluğu giderek arttı iFLYTEK-USTC ortak ekibi üç yarışmaya da katıldı ve şampiyonluğu kazandı.

Bu sefer katılan ST-VQA görevi için, iFLYTEK-USTC ortak ekibi, modeli görsel bir anlayış ön uç modeli ve görsel bir akıl yürütme arka uç modeli olarak böldü. Metin algılama ve nesne algılama modelleri, görüntülerden etkili varlıkları çıkarmak için ön uç modeller olarak kullanılır.Ayrıca, veri setinde daha az külliyat sorunu için, HKUST iFlytek'in SQuAD2.0 değerlendirme görevinde denetimsiz ön eğitim modellerini kullanma fikri referans için kullanılır ve iyileştirilir , Ön uç modülüne başarıyla entegre edildi.

Ekip, arka uç ağının tasarımında, yukarıda belirtilen varlık bilgilerini ve görüntüden çıkarılan soru verilerini birleştirmek ve yanıtı tahmin etmek için karşılık gelen Kodlayıcı-Kod Çözücü modelini tasarladı.Ayrıca, Kod Çözücü-Kod Çözücü modeli birden çok Görev tasarımı fikri onu üç görevle uyumlu hale getirir, böylece bu üç görev aynı anda eğitilebilir ve birbirini geliştirebilir. ST-VQA yarışmasına katılmak, Xunfei'nin görsel anlayış ve çok modlu veri füzyonunda ileriye dönük keşfidir.Yarışmada kullanılan teknoloji, şirketin çok modlu etkileşimde gelecekteki gelişiminin temelini oluşturur.

Asya-Pasifik bölgesinde tanınmış bir akıllı ses ve yapay zeka şirketi olarak iFLYTEK, iFLYTEK Ultrain çevresindeki stratejik en iyi teknoloji konseptine ve ürün inişine bağlı kalmaktadır ve temel teknolojilerde sürekli yenilikler yapmaktadır. Buna dayanarak, HKUST iFLYTEK akıllı ses, doğal dil işleme alanlarında büyük başarılar elde etmiş ve görsel sahne anlama alanında da büyük ilerleme kaydetmiş ve ilgili izleme teknolojilerinin uygulanmasını aktif olarak desteklemiştir. İyi sonuçlar. Gelecekte iFLYTEK, temel teknolojilerin optimizasyon yinelemesini ve uygulamasını çok yönlü bir şekilde teşvik etmeye devam edecek ve şirketin yapay zeka ile daha iyi bir dünya inşa etme misyonunu yerine getirmeye çalışacaktır.

Hafif ve zarif! "Monster Hunter World: Icefield" Orman Kralı Zehirli Kuş Seti Gösterisi
önceki
2019 CIT: Noble Truth'un ultra yüksek özellikli Dolby Atmos özel sineması parlıyor
Sonraki
HGUC gölge spreyi Gustav Karl
Zafer Kralı: Hafife alınan iki kahraman, biri çirkin görünüyor ve beğenilmiyor
En ateşli kim? Master Lu, "2019'un İlk Yarısında Cep Telefonu Sıcaklık Sıralaması" nı yayınladı
"Akıllı otel" mevcut trend haline geldi. Youzhi akıllı aynanın sahip olduğu siyah teknoloji nedir?
"Split Cell" ve "Assassin's Creed" çıkacak! Ancak yalnızca VR için
Switch Lite'ın yeni sürümü gerçekten küçük bir erkek kardeş, kullanılamayan çok sayıda aksesuar var
Zafer Kralı: Resme bak ve kahramanı tahmin et, ilki çok kolay, ikincisi biraz zor
Duvar kağıdına uygun ilk EVA telefonun çizimleri, elektrikle çalışan ilk telefon.
"Gülümseme yüzü" çelik tırnak sihirli yengeç değişimi, herkes bunu tanıyabilir mi?
Sanat, Gunpla ile buluştuğunda, soyut RX78 Gunpla değiştirilir
Sert boyalı Amuro ordusu, buna dayanabilecek
Her şeyi donduran antik ejderha "Garip Av Dünyası" - Buz Lanetli Ejderha seti haritası yayınlandı
To Top