"Hey Siri" nin arkasındaki siyah teknoloji ortaya çıktı

Yazar | Vishant Batta

Çevirmen | Su Benru, sorumlu editör | Wu Xingling

Üretildi | CSDN (ID: CSDNnews)

Aşağıdaki çeviridir:

Günümüzde, Apple cep telefonları "Hey Siri" komutlarını her an algılayıp yanıtlayabiliyor. Bazıları merak edebilir, günlük konuşmalarımızı herhangi bir zamanda kaydediyor mu?

cevap olumsuz!

"Hey Siri" düşündüğümüz kadar fazlasını yapamaz!

"Hey Siri!" Nin geliştirme geçmişine bir göz atalım.

"Hey Siri!" Önceden yüklenmiş ses asistanı Siri'nin ek bir işlevi olarak, Eylül 2014'te iOS 8'de piyasaya sürüldü. Ancak, iOS 9'da (Eylül 2015), kullanıcıyı tanımlamak için yalnızca kişiselleştirilmiş sesin kullanılmasına izin verecek şekilde yükseltilmiştir.

Google Asistan bu özelliğe 2013'ten önce sahipti, ancak ekranınız kapalıyken bu özelliği destekleyemez. Şimdi bile, birçok Android telefon bu özelliği desteklemiyor.

Kullanıcı deneyimini aşağıda gösterildiği gibi karşılaştıralım:

Normal yol ve "Hey Siri!"

Geleneksel yöntem şudur: kullanıcı telefonu kaldırır- > Ana düğmeye uzun basın > Siri başlar.

"Hey Siri!" Modunda, kullanıcının Siri'yi başlatmak için bir düğmeye basmadan yalnızca "Hey Siri!" Demesi gerekir.

Bunun bir avantajı, kullanıcı elle çalıştırmayı kullanmak için uygun olmadığında (örneğin araç kullanırken), kullanıcının cep telefonunun bazı işlevlerini de kullanabilmesidir.

Siri'nin öncülü: M9 hareket yardımcı işlemcisi

"Yardımcı işlemci", telefon boştayken bile "her zaman açık" işlevine erişimi desteklemek için sınırlı işlevlere ve pil tüketimine sahip yardımcı bir işlemci olarak anlaşılabilir (ekran kapalıyken).

M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürülen Apple yardımcı işlemci ailesinin üçüncü nesil ürünüdür. Güçlü işleme yetenekleri ve minimum pil tüketimine sahip ARM tabanlı 64 bit A9 çip üzerinde sistemi sayesinde, bu Apple cep telefonunun ünlü "uyandırma" işlevi gerçekleştirilebilir. M9 bazen "her zaman açık işlemci (AOP-Her Zaman Açık İşlemci), hareket yardımcı işlemcisine gömülü" olarak tanımlanır.

"Hey Siri!" Nasıl çalışır?

Bu özelliği ilk kez etkinleştirdiğinizde, sizden belirli sayıda "Hey Siri!" Demenizi isteyecektir. Daha sonra iPhone'unuz bu sesleri kaydeder ve ileride kişiselleştirilmiş sesinizi tanımak için bir "tetikleme tuşu" olarak kullanır.

Bu kişiselleştirilmiş "tetikleme tuşu", işlemcide saklanır, telefonunuz boşta olsa bile, yardımcı işlemci mikrofona düşen tüm sesleri (duymak yerine) dinleyecektir.

Bu nedenle, ses mikrofona düştüğünde ve "tetikleme tuşu" ile başarılı bir şekilde eşleştiğinde, yardımcı işlemci kayda başlamak için ana işlemciyi etkinleştirecektir (tıpkı Siri'yi açmak için ana ekran düğmesine uzun bastığımız gibi). Daha sonra kayıt sunucuya gönderilir ve her ses asistanına benzer bir süreçte açıklanır.

Bu işlemi sanki binlerce anahtarınız var ve hangi anahtarın açmak istediğiniz kilide tam olarak uyduğunu bulmaya çalıştığınızı hayal edin.

Burada dikkat edilmesi gereken önemli nokta, AOP işlemcisinin (A9) kullanıcının sesini "dinlemek" yerine her zaman "dinlediğidir". Bebek gibi, insanları dinliyor ama duyduklarını tam olarak işleyemiyor, ancak adı söylendiğinde tetiklenecek ve çalışmaya başlayacak.

M9 hareket yardımcı işlemcisi, Eylül 2015'te iPhone 6s ile birlikte piyasaya sürüldü. Ancak bu makalenin başında belirtildiği gibi, "Hey Siri!" İşlevi Eylül 2014 gibi erken bir tarihte başlatıldı. Peki iPhone'un ilk sürümleri nasıl "pasif" dinleyebilir?

Peki, iPhone 6'ya sahip birini tanıyorsanız, "Hey Siri!" Yi kontrol edebilirsiniz. Telefonunuz boşta olsa bile (ekran kapalı), bu işlev yalnızca şarj modunda çalışabilir. Basitçe çıkarabileceğimiz gibi, şarj olurken yalnızca az miktarda ekstra güç elde edebilir. İPhone 6 Siri ayarlarının aşağıdaki ekran görüntüsüne bir göz atın:

"Hey Siri!" Nin arkasındaki algoritma

Kullanıcının sesi kare olarak 0,01 saniyelik birimler halinde örneklenir ve ardından bu tür 20 kare (0,2 saniye), her seferinde derin sinir ağına (DNN) sürekli olarak girilir ve sinir ağı bu sesleri olasılık yoğunluğu işlevlerine dönüştürür. , Fonksiyon değeri minimum eşiği aştığında, ana işlemci etkinleştirilir.

DNN eğitimi

Buradaki eşik sabit değildir ancak arka plan gürültüsüne göre değişir. Bu nedenle, daha net bir anlayış için, DNN'nin her zaman eşiği hesapladığını söyleyebilirsiniz.

Ayrıca, ses örneğinizi ilk kez kaydedip bir "tetikleme anahtarı" oluşturduğunuzda, aslında DNN'yi eğitiyorsunuz ve olasılığı hesaplamak için ağırlıkları tanımlıyorsunuz.

Farklı aksanlar için DNN eğitimi farklıdır. Örneğin, "Hey Siri" nin telaffuzu, noktalama işareti olmaması dışında Amerikan İngilizcesinde biraz "Ciddi" gibidir. "Hey Siri!" Deki "i" uzunluk olarak farklı telaffuz edilir ve bir ünlem işaretine sahiptir.

"Hey Siri" nin arkasındaki matematik

Aşağıdaki içerik tüm makine öğrenimi meraklıları içindir :).

Bu, Derin Sinir Ağı (DNN) modelidir:

DNN modeli Toplam olasılık işlevi aşağıdaki gibidir:

onların arasında:

  • F (i, t), modeldeki i durumunun kümülatif puanıdır

  • q (i, t) akustik modelin çıktısıdır. Bu çıktı konuşma kategorisinin logaritmik skorudur ve verilen konuşma örüntüsünün i-inci durumu t zamanına yakın

  • s (i) i durumunda kalma ile ilgili maliyettir

  • m (i) i durumundan geri gitmenin maliyetidir

Burada s (i) ve m (i), "tetikleme anahtarı" tanımlanırken eğitimin ağırlığı ile ilgilidir. Aşağıdaki gibi varsayılabilir:

s (i) - Perde ve hacim gibi parametrelere bağlı olarak, "tetikleme tuşunun" tek bir çerçevesi tarafından belirlenir.

m (i) - "tetikleme tuşunun" frekansına veya kısaca s (i) parametresi değişikliğinin hızına ve boyutuna ve hızına bağlıdır.

Örneğin: m (i) ve s (i) Eminem ve Adele için çok farklı çünkü Eminem daha hızlı şarkı söylüyor (aslında çok daha hızlı) , Değişiklik küçük olsa da. Adele daha yavaş şarkı söyledi ve daha çok değişti.

İşlemci (32 katman) ve ana işlemci (192 katman) için işlem gücü ve pil tüketimi hesaba katıldığında, DNN seviyesi farklıdır.

"Hey Siri!" Özelliği geniş çapta tanıtılmamış olsa da, otomasyona ve cep telefonlarının kullanım kolaylığını artırmaya yönelik devrim niteliğinde bir adımdır. Küçük bir değişikliğin kullanıcı deneyimi üzerinde nasıl büyük bir etkiye sahip olabileceğinin ve bu küçük devrim niteliğindeki değişikliklerin bazen kapsamlı araştırma gerektirdiğinin iyi bir örneği olarak da görülebilir.

Orijinal bağlantı: https://hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

Bu makale bir CSDN çevirisidir, lütfen yeniden basımın kaynağını belirtin.

Sıcak makale önerisi

Microsoft bir kişi için bir şirket mi satın alıyor? Sony programlarını kırın, hacker romanları yazın ve sağlam program hayatını izleyin!

Luckin Coffee, 2,2 milyar yuan'lık sahte işlemleri açığa çıkardı ve Uygulama İLK 1'i geri aldı

Programcının tekerlekleri yapması için doğru duruş

Temel programlama bilgisi gerçekten mucizevi bir beceri mi?

Kubernetes'te PaaS benzeri basit bir platform kurmak çok kolay!

Megvii ikili şube ağı BBN'den bahsediyor: Uzun kuyruklu gerçek dünya görevinin üstesinden gelmek | CVPR 2020 Oral

2020'de herkesin bildiği bu 20 kripto borsası nasıl gidiyor?

Python ne zaman değiştirilecek?
önceki
Terminal öykünücüsü büyük PK, kimi seçersiniz?
Sonraki
Endüstriyel İnterneti iyice anlamanıza yardımcı olacak 11 soru
Bilgisayar korsanları "öldürmek için bıçak ödünç alırlar", Alibaba'nın 14 yıllık deneyimi size DDoS saldırılarına karşı nasıl savunma yapacağınızı öğretecek
C dili en ciddi güvenlik açıklarına sahiptir ve PHP en savunmasız olanıdır.Programcılar nasıl kod yazmalıdır?
Alibaba Cloud uzmanları size BT mimarisini nasıl yeniden şekillendireceğinizi öğretiyor
Luckin Coffee 2,2 milyarlık sahte işlemi açığa çıkarıyor ve Uygulama İLK 1'i geri alıyor
Programcıların bilmesi gereken 89 temel işletim sistemi kavramı
Yazdığım kod değil, ama ...
İnternetin babasına yeni bir taç teşhisi kondu, bir efsane: Google'ın başkan yardımcısı ve NASA'da misafir bilim insanı olarak görev yaptı
Google, Büyük Ölçekli Ölçeklendirilebilir Kapsamlı Güçlendirmeli Öğrenim için Yeni Bir Mimari olan SEED RL Kaynaklarını Açıyor
Kız arkadaşım yüksek matematik öğreniyor, onun için bir yığın ile bir hesap makinesi yazmak için 15 dakika harcadım | Güç Projesi
Şok! İş parçacığını bu şekilde sonlandırmak hizmetin çökmesine neden olur mu?
Fuzhou: Kapok sokakları giydiriyor
To Top