Yazar | Vishant Batta
Çevirmen | Su Benru, sorumlu editör | Wu Xingling
Üretildi | CSDN (ID: CSDNnews)
Aşağıdaki çeviridir:
Günümüzde, Apple cep telefonları "Hey Siri" komutlarını her an algılayıp yanıtlayabiliyor. Bazıları merak edebilir, günlük konuşmalarımızı herhangi bir zamanda kaydediyor mu?
cevap olumsuz!
"Hey Siri" düşündüğümüz kadar fazlasını yapamaz!
"Hey Siri!" Nin geliştirme geçmişine bir göz atalım.
"Hey Siri!" Önceden yüklenmiş ses asistanı Siri'nin ek bir işlevi olarak, Eylül 2014'te iOS 8'de piyasaya sürüldü. Ancak, iOS 9'da (Eylül 2015), kullanıcıyı tanımlamak için yalnızca kişiselleştirilmiş sesin kullanılmasına izin verecek şekilde yükseltilmiştir.
Google Asistan bu özelliğe 2013'ten önce sahipti, ancak ekranınız kapalıyken bu özelliği destekleyemez. Şimdi bile, birçok Android telefon bu özelliği desteklemiyor.
Kullanıcı deneyimini aşağıda gösterildiği gibi karşılaştıralım:
Normal yol ve "Hey Siri!"
Geleneksel yöntem şudur: kullanıcı telefonu kaldırır- > Ana düğmeye uzun basın > Siri başlar.
"Hey Siri!" Modunda, kullanıcının Siri'yi başlatmak için bir düğmeye basmadan yalnızca "Hey Siri!" Demesi gerekir.
Bunun bir avantajı, kullanıcı elle çalıştırmayı kullanmak için uygun olmadığında (örneğin araç kullanırken), kullanıcının cep telefonunun bazı işlevlerini de kullanabilmesidir.
Siri'nin öncülü: M9 hareket yardımcı işlemcisi
"Yardımcı işlemci", telefon boştayken bile "her zaman açık" işlevine erişimi desteklemek için sınırlı işlevlere ve pil tüketimine sahip yardımcı bir işlemci olarak anlaşılabilir (ekran kapalıyken).
M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürülen Apple yardımcı işlemci ailesinin üçüncü nesil ürünüdür. Güçlü işleme yetenekleri ve minimum pil tüketimine sahip ARM tabanlı 64 bit A9 çip üzerinde sistemi sayesinde, bu Apple cep telefonunun ünlü "uyandırma" işlevi gerçekleştirilebilir. M9 bazen "her zaman açık işlemci (AOP-Her Zaman Açık İşlemci), hareket yardımcı işlemcisine gömülü" olarak tanımlanır.
"Hey Siri!" Nasıl çalışır?
Bu özelliği ilk kez etkinleştirdiğinizde, sizden belirli sayıda "Hey Siri!" Demenizi isteyecektir. Daha sonra iPhone'unuz bu sesleri kaydeder ve ileride kişiselleştirilmiş sesinizi tanımak için bir "tetikleme tuşu" olarak kullanır.
Bu kişiselleştirilmiş "tetikleme tuşu", işlemcide saklanır, telefonunuz boşta olsa bile, yardımcı işlemci mikrofona düşen tüm sesleri (duymak yerine) dinleyecektir.
Bu nedenle, ses mikrofona düştüğünde ve "tetikleme tuşu" ile başarılı bir şekilde eşleştiğinde, yardımcı işlemci kayda başlamak için ana işlemciyi etkinleştirecektir (tıpkı Siri'yi açmak için ana ekran düğmesine uzun bastığımız gibi). Daha sonra kayıt sunucuya gönderilir ve her ses asistanına benzer bir süreçte açıklanır.
Bu işlemi sanki binlerce anahtarınız var ve hangi anahtarın açmak istediğiniz kilide tam olarak uyduğunu bulmaya çalıştığınızı hayal edin.
Burada dikkat edilmesi gereken önemli nokta, AOP işlemcisinin (A9) kullanıcının sesini "dinlemek" yerine her zaman "dinlediğidir". Bebek gibi, insanları dinliyor ama duyduklarını tam olarak işleyemiyor, ancak adı söylendiğinde tetiklenecek ve çalışmaya başlayacak.
M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürüldü. Ancak bu makalenin başında belirtildiği gibi, "Hey Siri!" İşlevi Eylül 2014 gibi erken bir tarihte başlatıldı. Peki iPhone'un ilk sürümleri nasıl "pasif" dinleyebilir?
Peki, iPhone 6'ya sahip birini tanıyorsanız, "Hey Siri!" Yi kontrol edebilirsiniz. Telefonunuz boşta olsa bile (ekran kapalı), bu işlev yalnızca şarj modunda çalışabilir. Basitçe çıkarabileceğimiz gibi, şarj olurken yalnızca az miktarda ekstra güç elde edebilir. İPhone 6 Siri ayarlarının aşağıdaki ekran görüntüsüne bir göz atın:
"Hey Siri!" Nin arkasındaki algoritma
Kullanıcının sesi kare olarak 0,01 saniyelik birimler halinde örneklenir ve ardından bu tür 20 kare (0,2 saniye), her seferinde derin sinir ağına (DNN) sürekli olarak girilir ve sinir ağı bu sesleri olasılık yoğunluğu işlevlerine dönüştürür. , Fonksiyon değeri minimum eşiği aştığında, ana işlemci etkinleştirilir.
DNN eğitimi
Buradaki eşik sabit değildir ancak arka plan gürültüsüne göre değişir. Bu nedenle, daha net bir anlayış için, DNN'nin her zaman eşiği hesapladığını söyleyebilirsiniz.
Ayrıca, ses örneğinizi ilk kez kaydedip bir "tetikleme anahtarı" oluşturduğunuzda, aslında DNN'yi eğitiyorsunuz ve olasılığı hesaplamak için ağırlıkları tanımlıyorsunuz.
Farklı aksanlar için DNN eğitimi farklıdır. Örneğin, "Hey Siri" nin telaffuzu, noktalama işareti olmaması dışında Amerikan İngilizcesinde biraz "Ciddi" gibidir. "Hey Siri!" Deki "i" uzunluk olarak farklı telaffuz edilir ve bir ünlem işaretine sahiptir.
"Hey Siri" nin arkasındaki matematik
Aşağıdaki içerik tüm makine öğrenimi meraklıları içindir :).
Bu, Derin Sinir Ağı (DNN) modelidir:
DNN modeli Toplam olasılık işlevi aşağıdaki gibidir:
onların arasında:
F (i, t), modeldeki i durumunun kümülatif puanıdır
q (i, t) akustik modelin çıktısıdır. Bu çıktı konuşma kategorisinin logaritmik skorudur ve verilen konuşma örüntüsünün i-inci durumu t zamanına yakın
s (i) i durumunda kalma ile ilgili maliyettir
m (i) i durumundan geri gitmenin maliyetidir
Burada s (i) ve m (i), "tetikleme anahtarı" tanımlanırken eğitimin ağırlığı ile ilgilidir. Aşağıdaki gibi varsayılabilir:
s (i) - Perde ve hacim gibi parametrelere bağlı olarak, "tetikleme tuşunun" tek bir çerçevesi tarafından belirlenir.
m (i) - "tetikleme tuşunun" frekansına veya kısaca s (i) parametresi değişikliğinin hızına ve boyutuna ve hızına bağlıdır.
Örneğin: m (i) ve s (i) Eminem ve Adele için çok farklı çünkü Eminem daha hızlı şarkı söylüyor (aslında çok daha hızlı) , Değişiklik küçük olsa da. Adele daha yavaş şarkı söyledi ve daha çok değişti.
İşlemci (32 katman) ve ana işlemci (192 katman) için işlem gücü ve pil tüketimi hesaba katıldığında, DNN seviyesi farklıdır.
"Hey Siri!" Özelliği geniş çapta tanıtılmamış olsa da, otomasyona ve cep telefonlarının kullanım kolaylığını artırmaya yönelik devrim niteliğinde bir adımdır. Küçük bir değişikliğin kullanıcı deneyimi üzerinde nasıl büyük bir etkiye sahip olabileceğinin ve bu küçük devrim niteliğindeki değişikliklerin bazen kapsamlı araştırma gerektirdiğinin iyi bir örneği olarak da görülebilir.
Orijinal bağlantı: https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do
Bu makale bir CSDN çevirisidir, lütfen yeniden basımın kaynağını belirtin.
Sıcak makale önerisi
Kubernetes'te PaaS benzeri basit bir platform kurmak çok kolay!
Megvii ikili şube ağı BBN'den bahsediyor: Uzun kuyruklu gerçek dünya görevinin üstesinden gelmek | CVPR 2020 Oral