g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Apple, "Hey Siri" nin gelişiminin detaylarını ortaya koyuyor.Sadece iki aşamalı tespit değil, aynı zamanda konuşmacının tanımlanması da var.

Leifeng.comun Yapay Zeka Teknolojisi Yorumu: Appleın makine öğrenimi geliştirme günlüğünün yeni sayısı burada ~ Bu sefer Apple, Siri'yi konuşma yoluyla uyandırabilen "Hey Siri" işlevinin teknik olarak nasıl gerçekleştirildiğini tanıttı ve ayrıca tanıtıldı Kullanıcı deneyimi perspektifinden "Hey Siri" nin performansını iyileştirmek için, Apple mühendislerinin yaptığı değiş tokuşlar ve ayarlamalar. Önceki makalede olduğu gibi, Appleın ürün geliştirmesinde şok edici yeni teknolojiler yok, ancak cilalama ürünlerinin titiz, titiz, kullanıcı merkezli tutumu baştan sona. Leifeng.com AI Technology Review'in tam metni aşağıdaki gibi derlenmiştir.

İOS cihazlardaki "Hey Siri" işlevi, kullanıcıların cihaza dokunmadan Siri'yi uyandırmasına olanak tanır. İOS cihazlarda, her zaman çalışan çok küçük bir konuşma tanıyıcı var, sadece bu iki kelimeyi duymayı bekliyor. Kullanıcının "Hey Siri" dediğini algıladığında, Siri'nin diğer bölümleri bir sonraki sesi bir kontrol komutuna veya sorguya ayrıştırır. "Hey Siri" algılayıcıda, konuşma modelinizi her an farklı konuşma seslerinin olasılık dağılımına dönüştüren derin bir sinir ağı (DNN) kullanılır. Duyulan ses için bir güven puanı hesaplamak ve konuştuğunuz kelimenin "Hey Siri" olup olmadığına karar vermek için bir zaman entegrasyon süreci kullanır. Bu puan yeterince yüksekse, Siri uyanacaktır. Bu makale, içerdiği teknolojiyi kısaca tanıtmaktadır. Ana hedef okuyucuları, makine öğrenimi konusunda biraz bilgi sahibi olan ancak konuşma tanıma hakkında pek fazla bilgisi olmayan araştırmacılardır.

Dokunmadan Siri ile etkileşim kurun

Siri'nin bir şey yapmasını istiyorsanız, "Hey Siri" demeniz yeterli. "Hey Siri" dediğinizde, cihazdaki herhangi bir düğmeye basmanıza gerek kalmaz, bu da Siri'nin ona dokunmadan çalışmasını sağlar. Bu basit görünüyor, ancak perde arkasında Siri'nin hızlı ve verimli bir şekilde uyanmasını sağlayacak pek çok hikaye var. Donanım, yazılım ve ağ hizmetleri, mükemmel bir kullanıcı deneyimi sağlamak için birlikte sorunsuz bir şekilde çalışır.

Şekil 1. iPhone'daki Hey Siri işlevinin iş akışı

Yemek pişirmek veya araba kullanmak gibi elleriniz meşgulken Siri'yi bir düğmeye basmadan kullanabilmek özellikle yararlıdır ve bu, Apple Watch kullanırken de geçerlidir. Şekil 1'de gösterildiği gibi, tüm sistem birçok bileşen içerir. Siri'nin işlevlerinin çoğu, ana otomatik konuşma tanıma, doğal dil anlatımı ve çeşitli zengin bilgi hizmetleri dahil olmak üzere bulutta uygulanıyor. Cep telefonundaki dedektörün akustik modelini güncelleyen bazı sunucular da bulunmaktadır. Bu makale, sistemin yerel aygıtlarda (iPhone veya Apple Watch gibi) çalışan bölümlerine odaklanmaktadır. Bu makale, dedektöre özel bir dikkat göstermektedir: Her zaman dinleyen ve yalnızca uyandırma ifadesini dinleyen özel bir konuşma tanıyıcı (daha yeni bir iPhone'da, "Hey Siri" işlevi açıldığında).

Dedektör: "Hey Siri" yi duymayı bekliyor

İPhone veya Apple Watch'taki mikrofon, sesinizi saniyede 16.000 kez örnekleme hızında kısa süreli dalga biçimi örnekleri akışına dönüştürür. Bir spektrum analizi aşaması, dalga formu örneklerini bir dizi ses çerçevesine dönüştürür ve her çerçeve, yaklaşık 0.01 saniyelik ses spektrumunu açıklar. Akustik modele yaklaşık 20 kare (0,2 saniyelik ses) gönderildiği her seferinde. Bu, ses örneklerinin her birini konuşma sesi kategorilerinin olasılık dağılımlarına dönüştüren derin bir sinir ağıdır: "Hey Siri Cümlelerde veya sessizlikte ve diğer seslerde kullanılan sesler, yaklaşık 20 ses kategorisi ekler. Ayrıntılar için Şekil 2'ye bakın.

Bu derin sinir ağı, esas olarak matris çarpımı ve mantıksal doğrusal olmama durumundan oluşur. Her gizli katmanın içeriği, eğitimden sonra DNN tarafından keşfedilen orta katmanın temsilidir ve son olarak filtredeki her kanalın girişi farklı ses kategorilerine dönüştürülür. Doğrusal olmayan son aşama, esasen bir Softmax işlevidir (yani, genel bir mantık veya düzenlenmiş üstel işlev), ancak Apple'ın mühendisleri logaritmik olasılık istediği için, gerçek matematiksel hesaplamalar bundan daha basit olacaktır.

Şekil 2. "Hey Siri" yi algılamak için kullanılan derin sinir ağı. Gizli katman tamamen bağlıdır. En üst düzey, bir zaman entegrasyon sürecidir. Gerçek derin sinir ağı, şekildeki kesikli kutunun daire içine aldığı kısımdır.

"Hey Siri" yi farklı cihazlarda çalıştırırken, farklı bilgi işlem kaynakları vardır.Buna dayanarak, Apple mühendisleri gizli katmanda farklı sayıda nöron ayarlar. Appleın ağı genellikle, aygıtın belleğine ve enerji kısıtlamalarına bağlı olarak her biri aynı sayıda nörona sahip beş gizli katman içerir; sayı 32, 128 veya 192'dir. Apple, iPhone'da biri ilk algılama ve diğeri ikinci adım için olmak üzere iki ağ tasarladı. İlk tespitteki nöron sayısı, ikinci adımdakinden daha azdır.

Bu akustik modelin çıktısı, her çerçeve için konuşma kategorisinin olasılık dağılımını hesaplamaktır. Fonetik kategori, "önünde daha yüksek bir dil konumuna sahip bir ön sesli harf ve arkada bir ön sesli ile / s / telaffuzunun ilk kısmı" gibi bir şey olabilir.

"Hey Siri" yi algılamak için, bu hedef cümlenin akustik modelden geçtikten sonra telaffuzunun çıktısı, çıkış dizisinin önünde olmalıdır. Her kare için ayrı bir puan hesaplamak için, Apple mühendisleri bu kısmi değerleri kronolojik sırayla toplar. Bu kısım, Şekil 2'deki son katmanın (üst katman), aynı nöron ve sonraki nörona bağlantıları olan tekrarlayan bir ağın parçasıdır. Her nöronda maksimum operasyon ve ek operasyon vardır.

onların arasında:

Fi, t, modeldeki i durumunun kümülatif puanıdır
qi, t, akustik modelin çıktısıdır. Bu çıktı konuşma kategorisinin logaritmik skorudur ve verilen konuşma örüntüsünün i-inci durumu t zamanına yakın
si, i durumunda kalma ile ilgili maliyettir
mi, i durumundan geri gitmenin ek yüküdür

Bunların arasında si ve mi, konuşma bölümleme süresinin ve eğitim verilerindeki ilgili etiketlerin analizine dayalı olarak elde edilir. (Bu süreçte dinamik programlama kullanılır ve gizli Markov model HMM'ler fikrinden elde edilebilir)

Şekil 3, denklemin görsel açıklaması

Her kümülatif skor Fi, t, bir dizi maksimizasyon işleminin sonuçlarında gösterildiği gibi, önceki çerçevenin durumu ile etiketle ilişkilidir. Her çerçevenin nihai puanı Fi, t'dir ve bu konuşma paragrafının son durumu durum i'dir Bu sonuç, çerçeve dizisindeki toplam N çerçeve aracılığıyla elde edilir. (N, işlemlerin sırasını en üst düzeye çıkarmak için geriye doğru izleme ile elde edilebilir, ancak asıl yaklaşım çerçeve sayısını ileriye doğru yaymaktır, çünkü bu yol konuşma paragrafının ilk durumuna girer)

"Hey Siri" dedektörünün hesaplamasının neredeyse tamamı bu akustik modelde yapılmıştır. Bu zaman integrali hesaplamasının maliyeti hala nispeten düşüktür, bu nedenle model boyutunu veya hesaplama kaynaklarını değerlendirirken bunu dikkate almanız gerekmez.

Aşağıdaki Şekil 4'e bir göz atın, bu dedektörün nasıl çalıştığını daha iyi anlayabilmelisiniz. Bunlar arasında en küçük derin sinir ağının kullanıldığı varsayımı altında farklı aşamalardaki akustik sinyaller nelerdir? Altta mikrofon tarafından toplanan sesin spektrogramı bulunur. Bu örnekte, birisi "Hey Siri ne" diyor ve parlak kısım konuşma pasajının en gürültülü kısmı. "Hey Siri" nin ses düzeni, iki dikey çizgi arasındaki kısımdır.

Şekil 4. Dedektörden geçtikten sonra ses örneği

Sondan bir önceki yatay görüntü, algısal ölçüm sonuçlarına göre ağırlıkların farklı frekanslara atandığı Mel filtre bankası ile aynı konuşma segmentinin analiz edilmesinin sonucudur. Bu dönüşüm aynı zamanda spektrogramda görülebilen detayları daha pürüzsüz hale getirir.Bu, insan sesindeki aktivasyon özelliklerinin / s / gibi rastgele veya sürekli olan ince yapısından kaynaklanmaktadır. Resimdeki dikey çizgiler.

Şekil 4'te H1 ila H5 olarak etiketlenen yeşil ve mavi yatay çubuklar, 5 gizli katmandaki her bir nöronun değeridir (aktivasyon durumu). Bu resimde, her katmandaki 32 nöron, benzer çıktılara sahip nöronlar birbirine daha yakın olacak şekilde yeniden düzenlenmiştir.

İnternetteki yatay bir çubuk (sarı sinyalli) akustik modelin çıktısını gösterir. Her çerçevede, konuşma paragrafındaki her durum için bir çıktı olacak ve sessiz veya diğer ses seslerine karşılık gelen başka çıktılar olacaktır. Nihai puan en üstte görüntülenir ve her bir parçanın puanları, Formula 1'e göre ışıklı sinyal boyunca birleştirilerek elde edilir. Tüm konuşma pasajı sisteme girildikten sonra, nihai puanın en yüksek noktaya ulaşacağını belirtmekte fayda var.

Apple mühendisleri, Siri'yi etkinleştirip etkinleştirmemeye karar vermek için son puan için iki eşik belirledi. Aslında eşik sabit bir değer değildir. Apple mühendisleri, Siri'yi gürültülü bir ortamda yanlış etkinleştirmelerin sayısını önemli ölçüde artırmadan etkinleştirmeyi kolaylaştırmak için belirli bir esneklik düzeyi belirlediler. İki eşikten biri ana eşik veya normal eşiktir ve daha düşük bir eşik vardır. Bu düşük eşik değerine ulaşmak Siri'yi normal şekilde başlatmayacaktır. Nihai puan daha düşük bir eşiğe ulaşır ancak normal eşiğe ulaşmazsa, cihazın kullanıcının "Hey Siri" yi tanımaması olasıdır. Skor bu aralıkta olduğunda, sistem daha hassas bir duruma girecek ve birkaç saniye tutacaktır, böylece kullanıcı bu cümleyi yeniden söylerse, daha yüksek sesle ve daha net konuşmasa bile, Siri uyanacaktır. Bu "ikinci şans" mekanizması, sistemin kullanılabilirliğini büyük ölçüde geliştirdi ve yanlış uyanma oranını fazla artırmadı, çünkü cihaz bu çok hassas süre boyunca yalnızca çok kısa bir süre tutacaktır (daha fazla ayrıntı aşağıda tartışılacaktır. Oran testi ve ayarlaması)

Duyarlılığı ve güç tüketimini dengeleme: iki adımlı algılama

"Hey Siri" dedektörü yalnızca doğru algılama sonuçları gerektirmekle kalmaz, aynı zamanda önemli bir güç tüketimine neden olmadan yüksek tanıma hızına ulaşır. Aynı zamanda, özellikle en yüksek işlemci talebi için bellek ve işlemci talebini en aza indirmek de gereklidir.

İPhone'un ana işlemcisinin sadece aktivasyon ifadesinin duyulmasını beklemek için tüm gün çalışmasına izin vermemek için, iPhone 6S ve sonraki iPhone'lar küçük boyutlu ve düşük güçte olan Her Zaman Açık İşlemci (AOP) ile donatılmıştır. Maliyet açısından yoğun ortak işlemci, iPhone'daki M modeliyle başlayan hareket yardımcı işlemcisidir. Mikrofon tarafından toplanan sinyali alabilir. Apple mühendisleri, "Hey Siri" algılayıcısındaki derin sinir ağının küçültülmüş bir versiyonunu çalıştırmak için AOP'deki sınırlı bilgi işlem kaynaklarının küçük bir bölümünü aldı. Puan bir eşiğe ulaştığında, hareket yardımcı işlemcisi ana işlemciyi uyandıracak ve ana işlemci, ses sinyalini analiz etmek için daha büyük bir derin sinir ağı kullanacaktır. AOP destekli "Hey Siri" dedektörünün ilk versiyonunda, önceki yardımcı işlemcide bulunan dedektördeki 5 gizli katman, her gizli katmanda 32 nöron ve ikinci ana işlem Detektörde bulunan detektörde bulunan 5 gizli katmanın her birinde 192 nöron bulunmaktadır.

Şekil 5, iki aşamalı algılama

Apple Watch'a "Hey Siri" algılayıcısını uygularken, Apple mühendisleri, pili çok daha küçük olduğu için daha büyük zorluklarla karşılaştı. Apple Watch, akustik modelin boyutunun ilk adımdaki modelin boyutu ile az önce bahsedilen diğer iOS aygıtlarındaki ikinci adımın arasında olduğu tek adımlı bir algılama detektörü kullanır. Bu "Hey Siri" dedektörü yalnızca saatteki hareket işlemcisi bileğin kaldırıldığını algıladığında çalışmaya başlar ve aynı zamanda ekranı aydınlatır. Şu anda, WatchOS aslında pek çok şey yapmak zorunda, gücü uyandırmak, ekranı hazırlamak, vs., tüm sistem "Hey Siri" dedektörünün yalnızca çok küçük bir kısmını (yaklaşık% 5) zaten çok sınırlı olan bilgi işlem kaynaklarından ayıracaktır. Etkin kelimeleri yakalamak için zamanında ses yakalamaya başlamak bir zorluktur, bu nedenle Apple, detektörün başlatılması sırasında bazı süreksizliklere izin vermek için biraz yer ayırır.

Kişiselleştirilmiş "Hey Siri"

Her zaman açık "Hey Siri" dedektörü, yakındaki herkes tarafından söylenen etkinleştirme ifadelerine yanıt verebilir. Apple mühendisleri bunu başlangıçta böyle tasarladı. Yanlış aktivasyonun neden olduğu sorunu azaltmak için, iOS cihazında "Hey Siri" işlevini açtıktan sonra, kullanıcının kısa bir kayıt işlemi gerçekleştirmesi gerekir. Kayıt sürecinde, kullanıcıların "Hey Siri" ile başlayan beş cümle söylemesi gerekir, ardından bu ses örnekleri cihaza kaydedilecektir.

Gelecekte, cihazda kaydedilen herhangi bir "Hey Siri" sesi, saklanan örneklerle karşılaştırılacaktır. (Adım 2) Detektör, konuşma örneklerini sabit uzunlukta bir vektöre dönüştürebilen zaman bilgisi üretecektir Bu süreçte, her çerçeve her duruma hizalanacak ve ardından ortalaması alınacaktır. Ayrı, özel olarak eğitilmiş bir derin sinir ağı, bu vektörü bir "hoparlör alanına" dönüştürecektir. Bu tasarımın ana fikri, aynı konuşmacının ses örneklerinin daha yakın olacağı ve farklı konuşmacılar arasındaki ses örneklerinin daha uzak olacağı yönündedir. Tanıma sırasında, yeni ses ile önceki kayıt sırasında kaydedilen ses arasındaki mesafe, detektörü tetikleyen sesin kayıtlı kullanıcıdan ne kadar muhtemel olduğunu belirlemek için bir eşik ile karşılaştırılır.

Bu işlem yalnızca başka bir kullanıcının "Hey Siri" demesinin iPhone'u etkinleştirmesi olasılığını azaltmakla kalmaz, aynı zamanda Siri'yi etkinleştirmeye benzer ses çıkaran diğer kelimelerin olasılığını da azaltır.

bir kez daha emin olmak

İPhone üzerindeki tanıma katmanlarından geçtikten sonra bu ses Siri sunucusuna iletilecektir. Sunucudaki ana konuşma tanıyıcı içeriğin "Hey Siri" olmadığını düşünürse (örneğin, aslında "Hey Cidden"), sunucu tekrar uyku moduna geçirmek için telefona bir iptal sinyali gönderir (Şekil 1 Gösterilen). Bazı sistemlerde Apple, daha erken bir zamanda ek bir kontrol sağlamak için yerel cihazda ana konuşma tanıyıcının küçültülmüş bir sürümünü de kuracaktır.

Akustik model: eğitim

Derin sinir ağının akustik modeli "Hey Siri" nin özüdür. Nasıl eğitildiğine daha yakından bakalım. "Hey Siri" işlevi başlatılmadan çok önce, az sayıda kullanıcı Siri'yi bir komut söylemeden önce "Hey Siri" demek için kullandı; bu sırada Siri, bir düğmeye basılarak etkinleştirildi. Apple mühendisleri bu "Hey Siri" seslerini Amerikan İngilizcesi algılama modelinin ilk eğitim seti olarak kullandı. Ayrıca, ana konuşma tanımayı eğitmek için kullandıkları gibi, bazı genel konuşma örneklerini de kullandılar. Her iki durumda da Apple, eğitim ifadelerinin otomatik metin transkripsiyonunun sonuçlarını kullandı. Siri ekibi bu transkripsiyon sonuçlarından bazılarını kontrol etti ve doğru oranın yeterli olduğunu onayladı.

Apple, farklı diller için "Hey Siri" ifadelerinin ses özelliklerini ayrı ayrı tasarladı. Amerikan İngilizcesini örnek olarak alırsak, sistemde tasarlanmış iki farklı varyant vardır, burada "Siri" nin biri "ciddi" diğeri "Suriye" gibi iki farklı başlangıç ünlü vardır. Ayrıca, özellikle ifade virgülle "Hey, Siri" ile yazıldığında, iki kelime arasındaki kısa boşlukla nasıl başa çıkacaklarını da düşündüler. Her fonetik sembol üç fonetik kategoriye (başlangıç, orta ve son) bölünecek ve her biri akustik modelden geçtikten sonra kendi çıktısını alacaktır.

Apple, dedektörün derin sinir ağını eğitmek için bir diyalog külliyatı kullanır ve Siri'nin ana konuşma tanıyıcısı, her çerçeve için bir ses kategorisi etiketi sağlar. Ana ses algılayıcısında binlerce ses kategorisi vardır, ancak "Hey Siri" nin (bir başlangıç sesi dahil) telaffuzunu algılamak için yalnızca yaklaşık 20 ses kullanılır ve ardından diğer tüm sesler tek bir ana kategori altında sınıflandırılabilir. . Eğitim sürecinin amacı, DNN'nin çerçevenin çıktısını ilgili durum ve fonem ile yerel ses örneklerine dayalı olarak mümkün olduğunca 1'e yakın olarak ayırt etmesini sağlamaktır. Eğitim süreci, standart geri yayılma ve stokastik gradyan inişi yoluyla bağlantı ağırlıklarını ayarlar. Geliştirme süreci boyunca Apple, Theano, Tensorflow ve Kaldi dahil olmak üzere birçok farklı sinir ağı eğitim araç seti kullandı.

Eğitim süreci sırasında, ses birimlerinin ve durumların olasılığı, verilen yerel akustik örneklere göre tahmin edilir, ancak bu tahminler, eğitim setindeki (tercih edilen) ses birimlerinin görünme olasılığını içerecektir. Sahne alakalı değil, bu nedenle Apple mühendisleri akustik modeli uygulamadan önce bu ilk tercihleri telafi ettiler.

Bir modeli eğitmek genellikle bir gün sürer ve Apple genellikle birkaç modeli aynı anda eğitir. Genelde üç versiyon aynı anda eğitilir.Hareket yardımcı işlemcisinin ilk algılaması için küçük bir model, ana işlemcinin ikinci algılaması için büyük bir model ve Apple Watch için orta büyüklükte bir model kullanılır.

"Hey Siri" işlevi, Siri tarafından desteklenen tüm dilleri destekleyebilir, ancak Siri'nin dinlemeye başlaması için talimatın "Hey Siri" kelimeleri olması gerekmez. Örneğin, Fransızca konuşan bir kullanıcının "Dis Siri" demesi gerekir ve Korece konuşan bir kullanıcının "Siri " ("Siri Ya" gibi okunur) demesi gerekir. Rusya'da, kullanıcının " Siri" demesi gerekir ("Privet Siri" gibi) , Tayland'da " Siri" var ("Wadi Siri" gibi geliyor).

Test edin ve ayarlayın

Kullanıcı "Hey Siri" dediğinde, ideal bir dedektör diğer zamanlarda değil hemen etkinleştirilmelidir. Apple, dedektörün doğruluğunu açıklamak için iki farklı hata tanımı kullanır: Biri, bir hata oluştuğunda başlamak, diğeri ise doğru zamanda başlamamaktır. İlki, saat başına ortalama yanlış başlatma sayısı (veya yanlış başlatmalar arasındaki ortalama süre) olan yanlış kabul oranıdır (FAR veya yanlış alarm oranı); ikincisi, yanlış reddetme oranıdır (FRR), Siri'yi etkinleştirme girişimlerinin başarısızlığıdır. oran. (FAR'ı ölçmek için kullanılan birimlerin FRR'yi ölçmek için kullanılanlardan farklı olduğunu ve ölçülen göstergelerin bile farklı olduğunu belirtmek gerekir. Bu nedenle, FAR ve FRR'nin eşit olduğu bir durum yoktur)

Belirli bir akustik model için, iki hata oranı arasında bir değiş tokuş yapabilirsiniz, sadece aktivasyon eşiğini değiştirebilirsiniz. Şekil 6, iki erken geliştirme modeline dayanan bu değiş tokuşun bir örneğini göstermektedir İşlem, eğri boyunca eşiği değiştirmektir.

Geliştirme süreci sırasında, Apple mühendisleri sistemin doğruluğunu tahmin etmek için büyük bir test seti kullanmaya çalıştı.Böyle bir test setinin toplanması ve hazırlanması pahalıdır, ancak çok önemlidir. Test setinde pozitif ve negatif veriler var. Olumlu örnek veriler, hedef etkinleştirme sözcüklerini içerir. "Hey Siri" sistemi tarafından orijinal olarak toplanan sesle yapılamaz mı diye düşünüyor olabilirsiniz. Ama aslında, sistem Siri'yi etkinleştiremeyen sesleri yakalamadı ve Apple'ın amacı sistemin performansını iyileştirmek ve daha önce etkinleştirilemeyen sesi artık başarıyla etkinleştirmeye çalışmak.

İlk başta Apple, bazı kullanıcıların Ana Sayfa düğmesine basarken söylediği "Hey Siri" sesini kullandı, ancak gerçekte bu kullanıcılar Siri'nin söylediklerine dikkat etmesini sağlamaya çalışmadı (Ana Sayfa düğmesine basma eylemi bunu zaten ifade etmişti) Amaç) ve aynı zamanda mikrofon kullanıcının bir kolunda olmalıdır. Buna karşılık Apple, "Hey Siri" nin tüm odada etkili olabileceğini umuyor. Dolayısıyla Apple, özellikle mutfakta (uzak ve yakın), arabada, yatak odasında ve restoran gibi farklı ortamlara göre çok sayıda ses kaydetti; Apple, bu kayda katılmaları için çeşitli dillerde anadili olan konuşmacıları davet etti.

Olumsuz durum verileri, yanlış etkinleştirmeyi (ve yanlış uyandırmayı) test etmek için kullanılır. Sesli bloglar ve Siri tarafından alınan çeşitli dil seslerinde "Hey Siri" içermeyenler de dahil olmak üzere, veri kümesindeki farklı kaynaklardan binlerce saatlik kayıtlar vardır. Bunlar, arka plan seslerini (özellikle insan konuşmalarını) ve başkalarıyla konuşan kullanıcıları temsil eder. Bir kişi konuştuğunda ortaya çıkma eğiliminde olan kelimeler. Apple'ın büyük miktarda veri hazırlaması gerekiyor, çünkü hedef yanlış etkinleştirme oranı haftada bir kadar düşük (olumsuz örnek olarak tanımlanan verilerde etkinleştirme sözcükleri görünüyorsa, bu durum bir hata olarak değerlendirilmez)

Şekil 6, dedektörün doğruluğu. Daha küçük ve daha büyük derin sinir ağları, algılama eşiği için farklı seçeneklere sahiptir.

Sistemin ayarlanması, büyük ölçüde hangi eşiğin kullanılacağına karar verme sürecidir. Şekil 6'da, daha büyük derin sinir ağının alt takas eğrisindeki iki nokta, seçilen normal eşik ve "tekrar söyle" eşiğidir. Daha küçük modelin çalışma noktası (tek adımlı inceleme) en sağdadır. Şekildeki eğri, yalnızca dedektördeki iki aşamanın tespit hızı eğrisini gösterir ve sonraki kişiselleştirme aşamasını veya takip incelemesini içermez.

Test setinde iyi performans gösteren modeller için, Apple mühendisleri kesinlikle daha iyi olduklarından eminler, ancak çevrimdışı testlerin sonuçlarını güvenilir kullanıcı deneyimi tahminlerine dönüştürmek başka bir konudur. Bu nedenle Apple, yeni tanıtılan çevrimdışı teste ek olarak, yanlış tanıma oranını tahmin etmek için en son iOS cihazlarından ve Apple Watch'tan haftalık üretim verilerini (gerçek kullanıcı koşullarındaki veriler) örnekledi (kullanıcı "demedi" Siri, Hey Siri "olduğunda etkinleştirilir) ve sahte kabul oranı (dedektör kullanıcının sesiyle eğitilmiştir, ancak başka bir kişi" Hey Siri "dediğinde Siri de etkinleştirilir). Reddetme oranı bu verilerden elde edilemez (kullanıcı "Hey Siri" dedi ancak Siri yanıt vermedi), ancak bu gösterge sistem geliştiricisi tarafından eşiğin hemen üzerindeki gerçek aktivasyon eylemlerinin oranından ve cihazdaki kayıttan belirlenebilir. Eşiğe ulaşan olayların sayısından çıkarılır.

Apple mühendisleri, "Hey Siri" işlevini ve arkasındaki işlevi destekleyen modeli sürekli olarak değerlendirmek ve iyileştirmek için bu makalede tanıtılan eğitim ve test yöntemlerini ve türevlerini kullanır. Eğitime her zaman çeşitli diller dahil edilir ve testte her zaman çeşitli değişen koşullar dikkate alınır.

Bir dahaki sefere telefonunuza "Hey Siri" dediğinizde, Apple mühendislerinin bu cümleyi yanıtlamak için yaptığı tüm bunları düşünebilirsiniz, ancak Apple mühendisleri "işe yaradığını" hissedebileceğinizi umuyor!

Apple Machine Learning Journal, Lei Feng.com AI Technology Review Compilation aracılığıyla

Highlander 4WD Luxury ve Sharp 4WD Haorui nasıl seçilir? Hangi güvenlik faktörü daha iyidir?

Spielberg'in bilim kurgu şaheseri "Bir Numaralı Oyuncu" 30 Mart'ta yayınlanıyor! VR gelecekteki oyun hegemonyası