Chen Hua derleyin ve organize edin
Qubit Raporu | Genel Hesap QbitAI
Günümüzde çoğu insanın günlük hayatı, cep telefonundaki sanal klavye olmadan yapamaz ve çoğu, sanal klavyenin kullanımının kolay olmadığını düşünmektedir. Veriler, fiziksel klavye ile karşılaştırıldığında, kullanıcının sanal klavye ile yazma hızının% 35 daha yavaş olduğunu göstermektedir.
Sonuç olarak Google, yapay zeka teknolojisinin kullanımını gördü. Android sisteminin Gboard giriş yöntemini optimize ettiler. Amaç, hangi dili seçerseniz seçin daha hızlı girdi getirebilecek, yazım önerileri ve hata düzeltme işlevleri sağlayan akıllı bir mekanizma oluşturmaktır.
Resmi Google Araştırma blogu dün, Gboard optimizasyonlarını tanıtan bir makale yayınladı. Kübitler şu şekilde derlendi:
Bir mobil klavyenin dokunmatik girişi metne dönüştürme şeklinin, bir ses tanıma sisteminin ses girişini metne dönüştürmesine benzer olduğunu fark ettik. Bu nedenle, bu projede Konuşma Tanıma konuşma tanıma teknolojisi deneyimini kullandık.
İlk olarak, kaotik dokunma noktaları dizisini klavyedeki tuşlarla eşleştirmek için uzamsal bir model oluşturduk. İkinci olarak, dokunma girdisi dizisine dayalı bir sözcük dizisinin olasılığını belirlemek için sonlu durum makinesine (FST) dayalı güçlü bir çekirdek kod çözme motoru geliştirdik. FST'nin matematiksel formu ve konuşma tanıma uygulamalarındaki yaygın başarısı nedeniyle, FST'nin çeşitli karmaşık klavye giriş davranışlarını ve dil işlevlerini desteklemek için gerekli esnekliği sağlayabileceğini biliyoruz. Bu makale, bu iki sistemin gelişimini tanıtacaktır.
Giriş yapmak için bir mobil cihaz kullanırken, hata genellikle "kalın parmaklardan" kaynaklanır veya girişi kaydırırken, yanlış giriş, aşağıdaki şekilde gösterildiği gibi, boşluktaki harf kayan izine çok yakın olan başka bir kelime haline gelir.
Ek olarak, kullanıcılar bazen kelimeleri yanlış yazabilir ve kelimelerdeki harfleri eklemeye, silmeye veya değiştirmeye ihtiyaç duyar. Akıllı klavyelerin bu hataların olasılığını göz önünde bulundurması ve kullanıcının girmek istediği kelimeyi hızlı ve doğru bir şekilde tahmin etmesi gerekir. Bu nedenle Gboard için gerçek tuşlarla ekrandaki dokunma noktalarına karşılık gelen ve bu hataları harf seviyesinde çözen bir mekansal model geliştirdik.
Daha önce Gboard, kullanıcıların yanlışlıkla bitişik düğmelere tıklama olasılığını ölçmek için Gauss modelini kullanıyordu ve bilişsel ve parmak hareketi hatalarını yargılamak için kurala dayalı bir model kullanıyordu. Bu modeller basit ve sezgiseldir, ancak girdi kalitesiyle ilgili göstergeleri doğrudan optimize etmeye yardımcı olmaz. Sesli arama akustik modelindeki deneyimi kullanarak, Gauss modelini ve kural tabanlı modeli birleşik ve verimli bir LSTM (Uzun Kısa Süreli Bellek) modeliyle değiştirdik ve CTC (Bağlı Zaman Sınıflandırması) özelliğini kullanarak eğittik.
Ancak bu modelin eğitimi beklediğimizden daha karmaşık. Akustik modelin eğitimi, kaydedilmiş insan sesi verilerini kullanır, ancak milyonlarca temas noktası dizisini ve kayan izi kaydedemiyoruz. Bu nedenle ekip, kullanıcı etkileşim sinyallerini kullandı. Örneğin, kullanıcı, zengin bir eğitim ve test veri seti oluşturmak için eğitim sırasında pozitif ve negatif sinyaller olarak kullanılan otomatik düzeltme veya giriş önerisi işlevi tarafından verilen önerileri değiştirebilir.
NSM modelini küçültmek ve herhangi bir cihaza uygulanabilecek kadar hızlı çalıştırmak amacıyla NSM modelinde konuşma tanımadan birçok teknoloji kullanılır. TensorFlow temel platformu, klavye üzerinde görünen kelime tamamlama, giriş önerisi ve kayan giriş gibi çeşitli sinyalleri optimize etmek için yüzlerce modeli eğitmek için kullanılır. Bir yıldan fazla çalışmanın ardından, nihai sonuç ilk versiyondan yaklaşık 6 kat daha hızlıydı ve hacim 10 kat azaldı. Ek olarak, otomatik düzeltme sırasındaki hata oranı yaklaşık% 15 azaltıldı ve çevrimdışı veri kümesindeki hareketlerin hata kod çözme oranı% 10 azaltıldı.
NSM modeli, kullanıcının tıklamasının konumunu veya slaydın yörüngesini belirlemek için uzamsal bilgileri kullanır. Ancak, giriş yönteminde başka kısıtlamalar da vardır: sözcük ve dilbilgisi. Sözcükbilim bize bir dilde ne tür sözcüklerin olduğunu söylerken, olasılık temelli dilbilgisi bize ne tür sözcüklerin bir sözcüğü takip etme olasılığının daha yüksek olduğunu söyler.
Bu bilgileri Gboard'a entegre etmek için FST kullanıyoruz. Google'ın konuşma tanıma ve sentez sisteminde, FST her zaman önemli bir parça olmuştur. Sinir dili işleme teknolojisi için bu, çeşitli olasılık modellerini (sözcüksel, dilbilgisel ve düzenlileştirme araçları gibi) ifade etmenin ilkeli bir yolunu sağlar.
Gboard'da, klavye sözlüğünü ifade etmek için "anahtar kelime" dönüştürücü kullanılır. Bu dönüştürücü, birden çok anahtar dizisini ve olası uzamsal modelleri desteklemek için anahtar dizileri ve sözcükler arasındaki eşleştirme ilişkisini kodlar.
Genel FST ilkesi, yeni klavye kod çözücüleri geliştirmemize yardımcı olan dinamik modelleri destekleyebilir. Ancak yine de FST'ye yeni özellikler eklememiz gerekiyor. Konuşurken, söylediğiniz sözcüğü otomatik olarak tamamlamak için bir kod çözücü kullanmanıza veya söylemek istediğiniz sonraki sözcüğün ne olduğunu tahmin etmenize gerek yoktur. Bununla birlikte, klavyeden girdiğinizde, kelime tamamlama ve tahmin işlevlerine sahip olmak isteyeceksiniz. Ek olarak, klavyenin sorunsuz bir şekilde çoklu dil desteği sağlayabileceğini umuyoruz.
Böyle yeni bir kod çözücünün geliştirilmesi çok karmaşıktır, ancak FST'nin özelliklerinin kendisi çok yardımcı olmuştur. Örneğin, Hintçe gibi dillerde harf çevirisini desteklemek istiyorsanız, yalnızca genel kod çözücüyü genişletmeniz yeterlidir.
FST ayrıntıları:
Karmaşık karakterlere sahip birçok dilde, Roma sistemi karakterleri Latin harflerine dönüştürmek ve telaffuz karşılıklarını elde etmek için kullanılır. Örneğin, Çince pinyin "xiexie" Çince "teşekkür ederim" karakterine karşılık gelebilir. Pinyin, kullanıcıların QWERTY klavyesiyle rahatça giriş yapmasına ve Latin harflerini otomatik olarak hedef karakterlere "çevirmesine" yardımcı olur.
Benzer şekilde, Hintçe klavye de kullanıcının girişine benzer şekilde yardımcı olabilir, örneğin "daanth", "" (dişler) 'e karşılık gelir. Bununla birlikte, Hanyu Pinyin normalleştirilmiş bir Romanizasyon sistemidir, ancak Hintçe'nin çevirisi daha kafa karıştırıcıdır. Örneğin, "daant" aynı zamanda "" harfine karşılık gelebilir.
Anahtar dizilerini kelimelere dönüştürmek için dönüştürücüler kullanıyoruz ve belirli bir kelime dizisinin olasılığını sağlamak için ağırlıklı dil modeli otomasyon teknolojisi kullanıyoruz. Benzer şekilde, Latin harflerinin dizisini 22 Hint dili için hedef karakter dizisine eşlemek için ağırlıklı bir dönüştürücü geliştirdik.
Bazı dillerin birden fazla yazım sistemi vardır (örneğin, Bodo Bengalce veya Sanskritçe yazılabilir) Bu nedenle, sadece birkaç ay içinde, Latin alfabesi ile yerel dil arasındaki farkı anlamak için 57 yeni giriş yöntemi geliştirdik. Arasında yazışmalar.
FST kod çözücünün özellikleri, otomatik yazım, tahmin, kayan giriş ve diğer birçok kullanıcı arayüzü işlevini desteklemek için çok fazla çaba harcamadan geçmişte elde ettiğimiz sonuçlardan yararlanmamıza yardımcı olur ve Hintli kullanıcılar için hızla zengin bir deneyim sağlar.
Son çalışmamız, kod çözme gecikmesini% 50 kısalttı, kullanıcıların manuel olarak düzeltmek için ihtiyaç duydukları kelimeleri% 10'dan fazla azalttı, kullanıcıların 22 Hint dilini girmek için harf çevirisini kullanmasına olanak tanıdı ve fark etmiş olabileceğiniz birçok yeni fikir getirdi. Özellikleri.
Bu son değişikliklerin yazma deneyiminizi optimize edeceğini umuyoruz. Ancak mobil cihazlardaki giriş sorunlarının tamamen çözülmediğini de biliyoruz. Gboard tarafından yapılan önerilerden bazıları hâlâ mantıksız görünüyor veya bunları hiç kullanmıyorsunuz. Kullanıcı hareketlerinin kodunun çözülmesi ayrıca seçilmesi tamamen imkansız olan kelimelere karşılık gelebilir.
Bununla birlikte, daha güçlü makine zekası algoritmalarının geliştirilmesi için yeni bir alan açtık. Küresel kullanıcılar için daha yararlı araçları ve ürünleri aktif olarak keşfedip geliştireceğiz.
Bitiş
Bir şey daha...
Bugün AI dünyasında başka nelere dikkat etmeye değer? Yapay zeka endüstrisini ve tüm ağımızdan toplanan araştırma eğilimlerini görmek için QbitAI resmi hesap diyalog arayüzünde "bugün" yanıtını verin. Yeniden doldur ~