g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Parmak izi kilidi? Yapma! Daha havalı olabilirsin

Son zamanlarda, yazar, çeşitli üst düzey suç soruşturma tekniklerini gösteren "eski bir drama" - "Adli Öncü" peşinde koşuyor ve bazen laboratuvara giriyormuş gibi geliyor.

Son zamanlarda bir tür Ses izi tanıma teknolojisi . Biyolojik dünyada ses tanıma uygulaması uzun zamandır mevcuttur, ancak Ironman'ın kendi giysisini sesle kontrol etmesi gibi, elektronik ürünler çalışmak için ses izi bilgilerini nasıl kullanır?

1 Ses izi nedir?

Sözde "sesi duyarak insanları tanımak" olarak, konuşmacının kimliğini yargılamak için işitmemizi kullandığımız görülebilir.

Sesli baskılar söz konusu olduğunda, herkes kesinlikle parmak izlerini düşünecektir. Parmak izlerinin benzersizliğine benzer şekilde, her bir kişinin konuşma sürecinde yer alan kişilik özellikleri (telaffuz alışkanlıkları gibi) neredeyse benzersizdir. Taklit edilseler bile, konuşmacının en temel özelliklerini değiştiremezler (özellikle yetişkinlikten sonra, Uzun süre saklayın Nispeten istikrarlı ).

Ses izi davranışsal bir özellik olarak anlaşılabilir çünkü her kişinin konuşurken kullandığı dil, dişler, ağız boşluğu, ses telleri, akciğerler ve burun boşluğu gibi ses parçalarının boyutu ve şekli, yaş, kişilik ve dil alışkanlıkları farklıdır. Pek çok nedenden dolayı, bu parçaların ürettiği sesler, çeşitli pozlarda telaffuz edildiğinde kendilerine has özelliklere sahip olmalıdır. bu nedenle İki kişinin ses izi haritaları aynı değildir .

2 Ses izi tanıma sisteminin geliştirilmesi

Ses izi tanıma sisteminin gelişim süreci temel olarak şunları içerir: Ses izi onayı alanındaki gelişim ilerlemesi ile Ses izi tanıma alanındaki gelişim ilerlemesi .

Sesli baskı onayı alanında 1998 yılında, ses izi tanıma teknolojisi, telekomünikasyon ve finansın birleştirilmesi alanında Avrupa Telekomünikasyon Birliği tarafından kullanıldı. 2004'te Amerikan şirketi Beep Card, kredi kartı kullanıcısının kimliğini doğrulamak için kart sahibinin ses izi bilgilerini tanımlayabilen bir kredi kartı icat etti. 2006 yılında, US Voice Vault tarafından geliştirilen ses izi tanıma sistemi, Hollanda'daki bir bankada kimlik doğrulaması için kullanıldı. 2011 yılında, Çin İnşaat Bankası, bir sesli telefon bankacılığı sistemi geliştirmek için yerel ses izi tanıma teknolojisindeki en ünlü şirketle işbirliği yaptı. 2013 yılında, Çin Tiancong Corporation, Xiamen Kamu Güvenliği Bürosu ile bir "alarm ses izi edinim sistemi" oluşturmak için işbirliği yaptı. ". Son yıllarda, ses izi tanıma teknolojisi esas olarak çevrimiçi işlemlerde uzaktan kimlik doğrulama ve cep telefonu kullanıcı doğrulaması ve kilidi açma için kullanılmaktadır.

Ses izi tanıma alanındaki gelişme, ses izi doğrulama alanından çok daha yavaştır. Esas olarak kamu güvenliği, adalet ve askeri savunmada kullanılır.İlgili alanların hassasiyeti nedeniyle, çok az sistematik araştırma ilerlemesi ifşa edilmiştir.

3 Ses izi üzerine ilgili teorik araştırma

Ses izi tanıma teknolojisi teorisinin gelişimi temel olarak şunları içerir: Özellik çıkarmada teorik gelişim karşı Model oluşturmada teori geliştirme .

Öznitelik çıkarımı açısından ilk kullanılan ses izi tanıma teknolojisi spektrogram özelliğidir.Bilim adamları, spektrogram özelliğinin eşleştirmesini görsel gözlemle tamamlarlar.Bu yöntem zaman alıcı ve yoğun emek gerektirir ve doğruluğu yüksek değildir.

2010 Uluslararası World Wide Web Konferansı Makalesinden alınmıştır.

Uluslararası World Wide Web Konferansı.2010

Spektrogram

1969'da Luck ilk olarak konuşmanın Doğrusal Öngörücü Cepstral Katsayısı (LPCC) özelliğini inceledi ve bu özelliği, tanıma doğruluğunu artıran ve iyi sonuçlar elde eden ses izi tanıma teknolojisinde kullandı. Daha sonraki araştırmacılar, sistemin tanıma doğruluğunu iyi bir seviyeye yükselten ve konuşma sinyallerinin cepstrum özelliği üzerine bir araştırma artışı başlatan ses izi tanıma için LPCC özelliğine ek olarak temel frekans özelliğini kullanmayı önerdiler. Kısa süre sonra, PLP (Algısal Doğrusal Tahmin) özellikleri, LSPC (Çizgi Spektrum Çifti) spektral katsayı özellikleri ve MFCC (Mel Frekans Cepstrum Katsayısı) özelliklerinin tümü çalışıldı ve ses izi tanıma teknolojisinin geliştirilmesine daha fazla canlılık kattılar.

Model oluşturma açısından, şablon eşleştirme algoritması, ses izi tanıma teknolojisi için kullanılan ilk algoritmaydı ve ses izi tanıma teknolojisinin örüntü eşleştirme yoluyla araştırılmasının yolunu açtı; ondan sonra, DTW (Dinamik Zaman Bükme, dinamik zaman planlama) , HMM (Gizli Markov Modeli, Gizli Markov Modeli), VQ (Vektör Niceleme) vb. De art arda çalışılmış ve iyi sonuçlar elde edilmiştir.

1990'ların sonlarında Reynods, GMM'yi ses izi tanıma teknolojisi için bir model olarak kullanmayı önerdi ve bir kez önerildiğinde, GMM (C Genelleştirilmiş Momentler Yöntemi, Gauss Karışım Modeli) yüksek tanıma doğruluğu, basit çalışması ve güçlü sağlamlığı ile tanındı. Endüstride yaygın olarak kullanılan bu teknoloji, günümüzde ses izi tanıma teknolojisi alanında hala aktiftir.

2000 yılında Reynod, GMM modelinin numunelere olan büyük talebinin eksikliğini telafi etmek için GMM-UBM modelini (Genelleştirilmiş Momentler Yöntemi - Evrensel Arka Plan Modeli, Gauss Karışımı Modeli ve Evrensel Arka Plan Modeli) kullanmayı önerdi. Büyük katkı; 21. yüzyıla girdikten sonra, JFA (Ortak Faktör Analizi) ve i-vektör modelleri, GMM-UBM modelindeki Gauss bileşenlerinin birbirinden bağımsız olması gerektiği sınırlamasının üstesinden gelen ses izi tanıma teknolojisinde kullanılır. Son yıllarda derin öğrenme, ses izi tanıma teknolojisinde kullanılmaya başlandı ve güzel sonuçlar elde etti.

4 LPC (doğrusal tahmin) algoritması

Boylamsal olarak bakıldığında, ses izi tanıma sistemi iki ana bölümden oluşur, Bir kısım özellik çıkarma , Diğer kısım örüntü tanımadır .

LPC (Doğrusal Tahmin) Çok kullanışlı ses sinyali özelliği çıkarma yöntemlerinden biridir. Özü şudur: zaman alanı ses örnekleme noktaları arasında korelasyon vardır ve belirli bir ses sinyalinin mevcut değeri, önceki birçok ses sinyali örnek değerinin ağırlıklı doğrusal kombinasyonunu kullanabilir. Simülasyonda bu ağırlık katsayısı doğrusal tahmindir.

Zaman bölgesi konuşmasının örnek değeri ile doğrusal tahminin örnek değeri arasındaki fark önce hesaplanır ve ardından kare toplamı alınır ve ardından minimum değer tek tahmin katsayısı vektörünü belirlemek için kullanılır.

Zaman alanlı ses verilerinin örnek değer dizisi S (n), n = 1, 2, 3, ... m olsun, burada S (n) zaman alanı ses örneğinin mevcut değerini, yani n'inci andaki örneği temsil eder. Değerin boyutu. Mevcut örnek değerinin S (n) önceki q örnek değerlerinin ağırlıklı toplamına dayalı olarak tahmin edilmesine q-sıra doğrusal tahmin denir. Tahmin edilen değer:

Ağırlık katsayısı aj, tahmin katsayısını temsil eder. Konuşma örneği değeri ile kendi doğrusal tahmin değeri arasındaki fark, tahmin hatası olarak adlandırılır ve e (n) ile şu şekilde temsil edilir:

Bunlar arasında, tahmin hatası e (n), aşağıdaki transfer fonksiyonu aracılığıyla S (n) 'nin çıktısı olarak kabul edilebilir:

A (Z), LPC'nin hata filtresidir ve tahmin katsayısı aj'yi çözmek için tasarlanmıştır, böylece tahmin katsayısı e (n) belirli bir kriter altında en küçüktür. Bu sürece LPC analizi denir .

Doğrusal tahminin özü, a1, a2, ... aq, tahmin katsayılarının bir vektörünü elde etmektir. Konuşma sinyali oluşturma modelinin sistem işlevi H (z) parametresidir, bu, e (n) tahmin hatasını karşılamaktadır. Belirli koşullar altında En küçük.

Buradaki özel durum genellikle ortalama kare hatasını ifade eder

Minimum değeri almak, önce hatanın karesini almak ve ardından ortalama değeri almak anlamına gelir.

Doğrusal tahmin katsayıları, konuşmacının basitleştirilmiş telaffuz özelliklerini yansıtabilir , Kanal özellikleri hangisidir. Akış şeması aşağıdaki gibidir: