"Hey Siri" nin arkasındaki siyah teknoloji ortaya çıktı!

Kaynak: CSDN

Bu makale hakkında 1993 kelimeleri , Okumanız tavsiye edilir 4 dakika

Bu makale Siri'nin öncülünü, nasıl çalıştığını ve arkasındaki algoritmayı tanıtıyor.

Aşağıdaki çeviridir:

Günümüzde, Apple cep telefonları "Hey Siri" komutlarını her an algılayıp yanıtlayabiliyor. Bazıları merak edebilir, günlük konuşmalarımızı herhangi bir zamanda kaydediyor mu?

cevap olumsuz!

"Hey Siri" düşündüğümüz kadar fazlasını yapamaz!

"Hey Siri!" Nin geliştirme geçmişine bir göz atalım.

"Hey Siri!" Önceden yüklenmiş ses asistanı Siri'nin ek bir işlevi olarak, Eylül 2014'te iOS 8'de piyasaya sürüldü. Ancak, iOS 9'da (Eylül 2015), kullanıcıyı tanımlamak için yalnızca kişiselleştirilmiş sesin kullanılmasına izin verecek şekilde yükseltilmiştir.

Google Asistan bu özelliğe 2013'ten önce sahipti, ancak ekranınız kapalıyken bu özelliği destekleyemez. Şimdi bile, birçok Android telefon bu özelliği desteklemiyor.

Kullanıcı deneyimini aşağıda gösterildiği gibi karşılaştıralım:

Normal yol ve "Hey Siri!"

Geleneksel yöntem şudur: kullanıcı telefonu kaldırır- > Ana düğmeye uzun basın > Siri başlar.

"Hey Siri!" Modunda, kullanıcının Siri'yi başlatmak için bir düğmeye basmadan yalnızca "Hey Siri!" Demesi gerekir.

Bunun bir avantajı, kullanıcı elle çalıştırmayı kullanmak için uygun olmadığında (örneğin araç kullanırken), kullanıcının cep telefonunun bazı işlevlerini de kullanabilmesidir.

Siri'nin öncülü: M9 hareket yardımcı işlemcisi

"Yardımcı işlemci", telefon boştayken bile "her zaman açık" işlevine erişimi desteklemek için sınırlı işlevlere ve pil tüketimine sahip yardımcı bir işlemci olarak anlaşılabilir (ekran kapalıyken).

M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürülen Apple yardımcı işlemci ailesinin üçüncü nesil ürünüdür. Güçlü işleme yetenekleri ve minimum pil tüketimine sahip ARM tabanlı 64 bit A9 çip üzerinde sistemi sayesinde, bu Apple cep telefonunun ünlü "uyandırma" işlevi gerçekleştirilebilir. M9 bazen "her zaman açık işlemci (AOP-Her Zaman Açık İşlemci), hareket yardımcı işlemcisine gömülü" olarak tanımlanır.

"Hey Siri!" Nasıl çalışır?

Bu özelliği ilk kez etkinleştirdiğinizde, sizden belirli sayıda "Hey Siri!" Demenizi isteyecektir. Daha sonra iPhone'unuz bu sesleri kaydeder ve ileride kişiselleştirilmiş sesinizi tanımak için bir "tetikleme tuşu" olarak kullanır.

Bu kişiselleştirilmiş "tetikleme tuşu", işlemcide saklanır, telefonunuz boşta olsa bile, yardımcı işlemci mikrofona düşen tüm sesleri (duymak yerine) dinleyecektir.

Bu nedenle, ses mikrofona düştüğünde ve "tetikleme tuşu" ile başarılı bir şekilde eşleştiğinde, yardımcı işlemci kayda başlamak için ana işlemciyi etkinleştirecektir (tıpkı Siri'yi açmak için ana ekran düğmesine uzun bastığımız gibi). Daha sonra kayıt sunucuya gönderilir ve her ses asistanına benzer bir süreçte açıklanır.

Bu işlemi sanki binlerce anahtarınız var ve hangi anahtarın açmak istediğiniz kilide tam olarak uyduğunu bulmaya çalıştığınızı hayal edin.

Burada dikkat edilmesi gereken önemli nokta, AOP işlemcisinin (A9) kullanıcının sesini "dinlemek" yerine her zaman "dinlediğidir". Bebek gibi, insanları dinliyor ama duyduklarını tam olarak işleyemiyor, ancak adı söylendiğinde tetiklenecek ve çalışmaya başlayacak.

M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürüldü. Ancak bu makalenin başında belirtildiği gibi, "Hey Siri!" İşlevi Eylül 2014 gibi erken bir tarihte başlatıldı. Peki iPhone'un ilk sürümleri nasıl "pasif" dinleyebilir?

Peki, iPhone 6'ya sahip birini tanıyorsanız, "Hey Siri!" Yi kontrol edebilirsiniz. Telefonunuz boşta olsa bile (ekran kapalı), bu işlev yalnızca şarj modunda çalışabilir. Basitçe çıkarabileceğimiz gibi, şarj olurken yalnızca az miktarda ekstra güç elde edebilir. İPhone 6 Siri ayarlarının aşağıdaki ekran görüntüsüne bir göz atın:

"Hey Siri!" Nin arkasındaki algoritma

Kullanıcının sesi kare olarak 0,01 saniyelik birimler halinde örneklenir ve ardından bu tür 20 kare (0,2 saniye), her seferinde derin sinir ağına (DNN) sürekli olarak girilir ve sinir ağı bu sesleri olasılık yoğunluğu işlevlerine dönüştürür. , Fonksiyon değeri minimum eşiği aştığında, ana işlemci etkinleştirilir.

DNN eğitimi

Buradaki eşik sabit değildir ancak arka plan gürültüsüne göre değişir. Bu nedenle, daha net bir anlayış için, DNN'nin her zaman eşiği hesapladığını söyleyebilirsiniz.

Ayrıca, ses örneğinizi ilk kez kaydedip bir "tetikleme anahtarı" oluşturduğunuzda, aslında DNN'yi eğitiyorsunuz ve olasılığı hesaplamak için ağırlıkları tanımlıyorsunuz.

Farklı aksanlar için DNN eğitimi farklıdır. Örneğin, "Hey Siri" nin telaffuzu, noktalama işareti olmaması dışında Amerikan İngilizcesinde biraz "Ciddi" gibidir. "Hey Siri!" Deki "i" uzunluk olarak farklı telaffuz edilir ve bir ünlem işaretine sahiptir.

"Hey Siri" nin arkasındaki matematik

Aşağıdaki içerik tüm makine öğrenimi meraklıları içindir :).

Bu, Derin Sinir Ağı (DNN) modelidir:

DNN modeli

Toplam olasılık işlevi aşağıdaki gibidir:

onların arasında:

  • F (i, t), modeldeki i durumunun kümülatif puanıdır
  • q (i, t) akustik modelin çıktısıdır. Bu çıktı konuşma kategorisinin logaritmik skorudur ve verilen konuşma örüntüsünün i-inci durumu t zamanına yakın
  • s (i) i durumunda kalma ile ilgili maliyettir
  • m (i) i durumundan geri gitmenin maliyetidir

Burada s (i) ve m (i), "tetikleme anahtarı" tanımlanırken eğitimin ağırlığı ile ilgilidir. Aşağıdaki gibi varsayılabilir:

s (i) - Perde ve hacim gibi parametrelere bağlı olarak, "tetikleme tuşunun" tek bir çerçevesi tarafından belirlenir.

m (i) - "tetikleme tuşunun" frekansına veya kısaca s (i) parametresi değişikliğinin hızına ve boyutuna ve hızına bağlıdır.

Örneğin: m (i) ve s (i) Eminem ve Adele için çok farklı çünkü Eminem daha hızlı şarkı söylüyor (aslında çok daha hızlı) , Değişiklik küçük olsa da. Adele daha yavaş şarkı söyledi ve daha çok değişti.

İşlemci (32 katman) ve ana işlemci (192 katman) için işlem gücü ve pil tüketimi hesaba katıldığında, DNN seviyesi farklıdır.

"Hey Siri!" Özelliği geniş çapta tanıtılmamış olsa da, otomasyona ve cep telefonlarının kullanım kolaylığını artırmaya yönelik devrim niteliğinde bir adımdır. Küçük bir değişikliğin kullanıcı deneyimi üzerinde nasıl büyük bir etkiye sahip olabileceğinin ve bu küçük devrim niteliğindeki değişikliklerin bazen kapsamlı araştırma gerektirdiğinin iyi bir örneği olarak da görülebilir.

Orijinal bağlantı: https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

-Bitiş-

Tsinghua-Qingdao Veri Bilimi Enstitüsü'nün resmi WeChat kamu platformunu takip edin " AI Veri Pastası "Ve kız kardeş numarası" Veri Pastası THU "Daha fazla ders avantajı ve kaliteli içerik elde edin.

Yeni taç araştırma verileri nerede bulunur? Bilimsel araştırma çalışanları için mutlaka görülmesi gereken bir yer (bağlantılı)
önceki
Grafiksel makine öğrenimi: herkesin anlayabileceği algoritma ilkeleri
Sonraki
Hücreleri bilgisayara dönüştürmek için protein mantık kapılarını kullanan Çinli genç bilim adamları bilim üzerine çalışıyor
Dünyanın ilk çeviri motoru evrimden döndü ve "ayrıntı çılgınlığı", klasik Çince lehçesini ele alıyor
"Virüs" yerine "bilgi" yay! Programcılar "el yıkamayı" 500'den fazla dilde tercüme ediyor
Tsinghua AI ekibi, üst yüz algoritmasını aldatmak ve ardından güvenlik açığını güçlü bir şekilde düzeltmek için bir AI güvenlik platformu başlattı
Farklı makine öğrenimi modellerinin karar sınırı (kodlu)
Küçük robotlar dışarı çıkmaya yardım ediyor! Zhongguancun Dongsheng Bilim ve Teknoloji Parkı, bu "önleme silahları" çalışmaya ve üretime devam etmeye yardımcı olur
Isıtma borusu sıcak değil, su borusu sızdırıyor ... topluluk "parkur ekibi" 60 günde 1.000'den fazla tamir etti
Bilim ve Teknoloji İnovasyon Kurulunun "Bilim ve İnovasyon Nitelikleri" nasıl değerlendirilir? SFC yönergeleri burada
Chen Yixin: Wuhan'ın savunma savaşı, belirleyici savaş ve zaferin yeni bir aşamasına girdi
OPPO'nun ilk akıllı saati OPPO Watch tanıtılacak, fiyatı 3.000 yuan veya buna yakın olacak
Zhouzhuang'da yaşam Kasaba yeniden baharda, Yangtze Nehri'nin güneyine puslu yağmur çekiyor
CCTV muhabiri İran'ın kaza mahalline şahit oldu
To Top