Google Input'un arkasındaki makine zekası: Ne düşündüğünüzü, ne düşündüğünüzü düşünün!

Pek çok insan mobil cihaz klavyelerini kullanarak her gün çok fazla zaman harcıyor: e-posta oluşturmak, kısa mesaj göndermek, sosyal medyaya katılmak vb. Bununla birlikte, mobil klavyeler işlem hızı açısından hala dezavantajlı durumda. Bir mobil cihazdaki ortalama kullanıcı yazma hızı, fiziksel klavyeye göre% 35 daha yavaştır. Google ekibi, bunu değiştirmek için kısa süre önce Android için Gboard'a birçok iyileştirme sağladı. Daha hızlı ve daha kaliteli girdi elde etmek için kullanıcılara seçtikleri herhangi bir dilde önerilerde bulunabilecek ve hataları düzeltebilecek akıllı bir klavye oluşturmaya kararlıdır.

Aslında, mobil klavyenin dokunmatik girişi metne dönüştürme yöntemi, ses tanıma sisteminin ses girişini metne dönüştürme şekline benzer. Leifeng.com, ekibin dokunmatik girişi uygulamak için ses tanıma deneyimini kullanacağını öğrendi.

  • Ekip ilk olarak, sesi konuşma birimlerinin sırasına yerleştirmek için akustik modelin kullanıldığı gibi, orijinal dokunma noktalarının bulanık sırasını klavyedeki tuşlarla eşleyen güçlü bir uzamsal model oluşturdu.

  • İkinci olarak, belirli bir giriş dokunma dizisi için en olası karakter sırasını belirlemek için sonlu durum sensörüne (FST) dayalı bir çekirdek kod çözme motoru oluşturun. Matematiksel biçimcilik ve konuşma uygulamalarının yaygın başarısıyla, FST kod çözücüleri, çeşitli karmaşık klavye giriş davranışlarını ve dil özelliklerini desteklemek için gereken esnekliği sağlayacaktır. Bu yazımızda bu iki sistemin gelişimini detaylı olarak tanıtacağız.

Sinir alanı modeli

Mobil klavye girişindeki hatalar genellikle "şişman parmak yazma" (veya aşağıdaki şekilde gösterildiği gibi kayarak yazmada benzer uzamsal konumlara sahip kelimeleri bulma) ve bilişsel ve işlemsel hatalarla (yazım hataları, karakter ekleme olarak gösterilir) ilişkilendirilir , Silme veya takas vb.). Akıllı klavyelerin bu hataları çözmesi ve doğru kelimeleri hızlı ve doğru bir şekilde tahmin etmesi gerekir. Leifeng.com'a göre ekip, bu hataları karakter düzeyinde ele almak ve ekrandaki temas noktalarını gerçek düğmelerle eşlemek için Gboard için mekansal bir model oluşturdu.

Benzer konumlara sahip iki kelime: "vampir" ve "değer" in ortalama kayan yolu

Yakın zamana kadar Gboard, bilişsel ve eylem hatalarını ifade etmek için bitişik tuşlara ve kural tabanlı modellere basma olasılığını ölçmek için hala Gauss modellerini kullanıyordu. Bu modeller basit ve sezgiseldir, ancak daha yüksek yazma kalitesiyle ilgili göstergeleri doğrudan optimize etmezler. Sesli arama akustik modellerinin deneyimine dayanarak, bağlantı süresi sınıflandırma (CTC) standardıyla eğitilmiş tek bir verimli uzun vadeli kısa süreli bellek (LSTM) modeli, Gauss modelinin ve kural tabanlı modelin yerini alır.

Ancak, bu modeli eğitmek beklenenden çok daha karmaşıktır. Akustik model, insan tarafından yazılan ses verilerinden eğitilmiş olsa da, milyonlarca temas noktası dizisini ve kayan izi kolayca kopyalayamaz. Bu nedenle ekip, negatif ve pozitif yarı denetimli öğrenme sinyalleri olarak otomatik düzeltme ve öneri seçimi gibi kullanıcı etkileşim sinyallerini kullanır ve böylece zengin bir eğitim ve test seti oluşturur.

"Olabilir" (solda) kelimesine karşılık gelen orijinal veri noktaları ve her örnekleme varyansının normalleştirilmiş örnekleme yörüngesi (sağda)

NSM modelini yinelemek için konuşma tanıma literatüründen çok sayıda teknik kullanılır, bu da onu herhangi bir cihazda çalışacak kadar küçük ve yeterince hızlı hale getirir. TensorFlow altyapısı, yüzlerce modeli eğitmek ve klavyede görüntülenen çeşitli sinyalleri optimize etmek için kullanılır: tamamlama, öneriler, kaydırmalar vb.

Bir yıldan fazla süren sıkı çalışmanın ardından, tamamlanan model ilk versiyondan 6 kat daha hızlıdır ve boyutu orijinalin yalnızca onda biri kadardır. Aynı zamanda, çevrimdışı veri kümelerindeki otomatik hata düzeltmenin hataları yaklaşık% 15 oranında azalttığını, yanlış kodu çözülen hareketlerin ise% 10 oranında azalttığını da gösterdi.

Sonlu durum dönüştürücü

NSM, konturlu veya kaydırılmış karakterin ne olduğunu belirlemeye yardımcı olmak için uzamsal bilgileri kullansa da, tolere edilebilecek bazı ek kısıtlamalar (kelime bilgisi ve dilbilgisi) vardır. Sözlük bize dilde hangi kelimelerin göründüğünü söyler ve olasılıksal dilbilgisi bize hangi kelimelerin diğer kelimeleri takip edebileceğini söyler. Bu bilgiyi kodlamak için sonlu durum dönüştürücü kullanılır. FST (Sonlu Durum Dönüştürücüleri) her zaman Google'ın konuşma tanıma ve entegre sisteminin önemli bir bileşeni olmuştur. Doğal dil işlemede kullanılan çeşitli olasılık modellerini (sözlükler, dilbilgisi, normalleştirme, vb.) Ve ayrıca manipülasyon, optimizasyon, kombinasyon ve arama modelleri için gerekli matematiksel çerçeveyi temsil etmek için ilkeli bir yol sağlar.

Gboard'da, bir tuş sensörü, aşağıdaki şekilde gösterildiği gibi klavye kelimesini kompakt bir şekilde temsil eder. Anahtar dizilerinden kelimelere eşlemeyi kodlayarak alternatif anahtar dizilerine ve isteğe bağlı boşluklara izin verir.

Dönüştürücü, başlangıç durumundan (kalın 1) son duruma (iki durum 0 ve 1) giden yol boyunca "Ben", "Ben varım" ve "Eğer" i kodlar. Her yay bir giriş tuşu (":" öncesinde) ve karşılık gelen bir çıkış karakteri (":" sonrasında) ile işaretlenir, burada bir boş sembolü kodlar. "Ben" deki kesme işareti atlanabilir. Kullanıcılar bazen boşluk çubuğunu atlar. Bu noktayı açıklamak için, dönüştürücüdeki kelimeler arasındaki geçiş boşluk çubuğu isteğe bağlıdır. ve boşluklardan sonra birden çok kelimeye izin verilir.

Olasılıksal değişken sensör, klavyenin dil modelini temsil etmek için kullanılır. Modeldeki durum, (en fazla) n-1 kelimelik bir bağlamı temsil eder ve bu durumdan çıkan yay, sonraki bir karakter olarak ve bağlamı takip etme olasılığı (metin verileriyle tahmin edilir) olarak işaretlenir. Bunlar, tuşa dokunma sekansları (kayarken ayrı dokunuşlar veya sürekli hareketler) imkanı veren uzamsal modellerle birleştirilir ve ışın arama ile keşfedilir.

Akış, dinamik model desteği vb. Gibi genel FST ilkeleri, yeni klavye kod çözücülerinin yapımına büyük yardım sağlamıştır, ancak bazı yeni işlevlerin eklenmesi gerekir. İnsanlar konuşurken, söylediklerinizi mükemmelleştirmek için bir kod çözücüye ihtiyaç duymazlar veya daha sonra birkaç heceyi kurtarmak için ne söyleyeceğinizi tahmin ederler; ancak yazdığınızda, kelime tamamlama ve tahminin yardımını hissedeceksiniz. . Ekip, klavyenin aşağıda gösterildiği gibi kesintisiz çok dilli destek sağlayabileceğini umuyor.

Gboard'a üç dil girin

Yeni bir kod çözücüyü pratik uygulamaya koymak karmaşık bir iştir, ancak FST ilkesinin birçok faydası vardır. Örneğin, Hintçe gibi dillerde harf çevirisi desteği, kod çözücünün yalnızca basit bir uzantısıdır.

Harf çevirisi modeli

Karmaşık alfabelere sahip birçok dilde, karakterleri genellikle telaffuzlarına bağlı olarak Latin harflerine eşlemek için Latin harflerine dönüştürme sistemleri geliştirilmiştir. Örneğin, pinyin "xièxiè", Çince "teşekkür ederim" karakterine karşılık gelir. Pinyin klavyesi, kullanıcıların kelimeleri QWERTY düzenine rahatça girmesine ve bunları otomatik olarak hedef metne "çevirmesine" olanak tanır. Benzer şekilde, çevirisi yapılmış bir Hintçe klavye, kullanıcıların "daanth" (dişler) "" girmelerine olanak tanır. Pinyin kesinlikle Romanize edilmiş bir sistem olsa da, Hintçe harf çevirisi daha belirsizdir; örneğin, "daant" "" yerine etkili bir alternatif olacaktır.

Hintçe için kayan karakter dönüşümü

Harf dizilerinden kelimelere (sözlükler) sensör eşlemesi ve kelime dizileri için olasılıklar sağlayan ağırlıklı dil modeli otomasyonu gibi, ekip de Latin tuş dizileri ve hedef yazı simge dizileri için Hint dili ağırlıklı 22 dönüştürücü eşlemesi oluşturdu. Bazı diller birden çok yazma sistemine aittir (örneğin, Bodo Bengalce veya Sanskrit alfabesiyle yazılabilir), bu nedenle harf çevirisi ve yerel düzen arasında yalnızca birkaç ayda 57 yeni giriş yöntemi oluşturulmuştur.

FST kod çözücünün temel niteliği, tüm işlerin, tahminlerin, kayarak yazmanın ve birçok UI işlevinin ek çalışma gerektirmeden tamamlanmasını destekleyecek ve böylece Gboard'un Hintli kullanıcılara en başından itibaren zengin bir deneyim, daha akıllı bir klavye sunmasını sağlayacak.

Sonuç olarak, son çalışmalar kod çözme gecikmesini% 50 azalttı, kullanıcılar tarafından manuel olarak düzeltilen kelimelerin sayısını% 10'dan fazla azalttı, Hindistan'ın 22 resmi dili için harf çevirisi desteği sağladı ve birçok yeni özelliği etkinleştirdi.

Google ekibi, bu son değişikliklerin kullanıcının yazma deneyimini iyileştireceğini umsa da, mobil cihazlarda yazma sorununun asla çözülemeyeceğinin de farkındadır. Gboard yine de sezgisel olmayan veya verimsiz görünen önerilerde bulunmaya devam edecek ve hareketle kod çözme önerileri yine de insanların asla seçmeyeceği kelimeler olabilir. Ancak ekibin çalışması, güçlü makine zekası algoritmalarının dönüşümü için yeni bir alan açtı ve Google, dünyanın her yerindeki kullanıcılara daha kullanışlı araçlar ve ürünler sağlamak için aktif olarak keşif yapıyor.

Research.googleblog aracılığıyla, Leifeng.com tarafından derlenmiştir

Tao Piao bileti ilk sayısı | "Ejderhanın Peşinde" Donnie Yen Andy Lau, güçlü takımdan kardeşlere birbirlerine karşı
önceki
Xinruida sadece lider endüstriyel kontrol ekranı değil, akıllı evi hedefliyor
Sonraki
Seste AI bilgeliği Honor FlyPods Pro gerçek kablosuz Bluetooth kulaklık incelemesi
Filmde bahsedilmeyenler bu "Dunkirk" te.
"Guangming" savaşı! 5 usta AlphaGo'yu kuşattı ve yine kaybetti
FPGA anti-yüksek darbe havadan radar yankı depolama sistemi tasarımına dayalı "Radar Teknolojisi"
Tek bir hareket 100.000 BT bütçesinden tasarruf sağlar, zaman sınırlıdır ve bunu anlamazsınız!
"Dark Souls Remake" Çince test istemcisi çevrimiçi
Piçler! Hâlâ böyle "Gintama" denebilir mi?
Dört büyük banka kredi akışıyla ilgili hangi gerçekleri ortaya koyuyor?
"Kale Gecesi" neden yurtdışındaki en sıcak battle royale oyunu haline gelebilir?
Borsa araştırmasına uygulanan LSTM Networks
89. Çin Elektronik Gösterisi hakkındaki tüm bunları biliyor musunuz?
[ChainDeDe Exclusive] Küresel Kripto Para Birimi Piyasası Yıllık Raporu: 224 Ülke ve Bölgedeki Düzenleyici Politikaların Özeti ve Araştırması
To Top