g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

TensorFlow'a dayanarak, sonunda ses tanıma nasıl gerçekleştirilir?

Alibaba's Guide: Alibaba'nın boş dolaşım alanındaki ana ürünü olan Xianyu, çapraz uç teknolojiyi (Base Flutter / Weex / Dart teknolojisi) kullanarak kişisel alanda boşta kalan öğelerin / varlıkların / zamanın yeniden sirkülasyonu sorununu çözmek için temel olarak mobil uygulamalar geliştirir Mobil terminallerde en yeni uygulamada Stack) ve bilgisayarla görme teknolojisi (Base Tensorflow Lite).

Bu makale Xianyu teknik ekibi tarafından hazırlanmıştır. Sunucuda insan sesi tanımanın gecikmesi ve kaynak kullanımı sorununu hedefleyen bu makale, tensorflowLite çerçevesine dayalı olarak istemcide insan sesi tanımayı gerçekleştirmek için bir çözüm önerir. Şimdi daha yakından bakalım.

Eser sahibi: hui, on leaf

Özet

Mevcut insan sesi tanımanın çoğu sunucu tarafında uygulanmaktadır ve bu da aşağıdaki iki sorunu beraberinde getirecektir:

1) Ağ zayıf olduğunda, büyük bir gecikmeye ve kötü bir kullanıcı deneyimine neden olur.

2) Ziyaret sayısı fazla olduğunda, büyük miktarda sunucu kaynağı kullanılacaktır.

Yukarıdaki iki sorunu çözmek için, müşteriye insan sesi tanıma işlevini uygulamayı seçtik. Bu makale, insan seslerini tanımak için makine öğrenimi yöntemlerini kullanır. Kullanılan çerçeve, Google'ın adı kadar kompakt olan tensorflowLite çerçevesidir. Doğruluğu garanti ederken, çerçevenin boyutu yalnızca yaklaşık 300 KB'dir ve sıkıştırılmış model, tensorflow modelinin dörtte biri kadardır. Bu nedenle, tensorflowLite çerçevesi istemcide kullanım için daha uygundur.

İnsan sesini tanıma oranını iyileştirmek için, ses özelliklerinin makine öğrenimi çerçevesinin girdi örnekleri olarak çıkarılması gerekir. Bu yazıda kullanılan özellik çıkarma algoritması, insan işitme mekanizmasına dayanan Mel cepstrum algoritmasıdır.

İstemcide insan sesi tanımanın kullanılması zaman aldığından, mühendislikte pek çok optimizasyon yapılması gerekir. Optimizasyon yönleri aşağıdaki gibidir:

1) Komut seti ivmesi: Kurma komut setini tanıtın, çoklu komut setlerini optimize edin ve hesaplamaları hızlandırın.

2) Çok iş parçacıklı hızlandırma: Çok iş parçacıklı eşzamanlı işleme, zaman alan işlemler için kullanılır.

3) Model hızlandırma: NEON optimizasyonunu destekleyen bir model seçin ve ön işleme süresini azaltmak için modeli önceden yükleyin.

4) Algoritma hızlandırma: I) Ses örnekleme oranını azaltın. II) İnsan sesi frekans bandını (20hz ~ 20khz) seçin ve insan olmayan ses frekans bandını kaldırın. III) Aşırı hesaplamayı önlemek için pencereleri ve dilimleri makul bir şekilde bölün. IV) Gereksiz zaman dilimlerini azaltmak için algılamayı kapatın.

1 Genel Bakış

1.1 İnsan sesi tanımanın uygulama senaryoları

Bu yazıda önerilen insan sesi tanıma yönteminin kullanım senaryoları aşağıdaki gibidir:

1) Ses ve video kalitesi analizi: İnsan sesleri, sessiz çağrılar, uğultu, arka plan gürültüsü vb. Olup olmadığını belirleyin.

2) Belirli bir sesi tanıma: Birisinin belirli bir sesi olup olmadığını, sesle kilit açma, uzaktan kimlik doğrulama vb.

3) Duyguları tanıma: Konuşmacının duygusunu ve durumunu yargılamak için kullanılır. Ses izi içeriği ve duygusal bilginin birleşimi, ses izi sahteciliğini ve kişisel zorlamayı etkili bir şekilde önleyebilir.

4) Cinsiyeti tanıma: erkek mi kadın mı olduğu anlaşılabilir.

1.2 İnsan sesi tanıma süreci

Ses tanıma iki bölüme ayrılır: eğitim ve tahmin. Eğitim, bir tahmin modeli oluşturmayı ifade eder ve tahmin, modeli tahmin sonuçlarını oluşturmak için kullanmaktır.

Öncelikle, aşağıdaki üç bölüme ayrılan eğitim sürecini tanıtın:

1) Mel cepstrum algoritmasına dayalı olarak, ses özelliklerini çıkarın ve bunları spektrum resimlerine dönüştürün.

2) İnsan sesi frekans spektrumu pozitif bir örnek olarak kullanılır ve hayvan sesleri ve gürültüleri gibi insan dışı sesler, sinir ağı modeli tarafından eğitilen negatif örnekler olarak kullanılır.

3) Eğitim tarafından oluşturulan dosyalara dayalı olarak terminalde çalıştırılabilen bir tahmine dayalı model oluşturun.

Kısacası, ses tanıma eğitimi süreci üç bölüme ayrılmıştır: ses özelliklerinin çıkarılması, model eğitimi ve bir son modelin oluşturulması. Son olarak, insan sesi tanımanın parçası: önce ses özelliklerini çıkarın ve ardından tahmin sonuçlarını elde etmek için eğitim modelini yükleyin.

1.3 Yapay Zeka Çerçevesi

Kasım 2017'de Google, I / O Konferansında TensorFlowLite'ın lansmanını duyurdu.

TensorFlow, mobil cihazlar ve gömülü cihazlar için hafif bir çözümdür. Rafa monte edilmiş sunuculardan küçük IoT cihazlarına kadar birden çok platformda çalışabilir. Ancak son yıllarda makine öğrenimi modellerinin yaygın olarak kullanılmasıyla birlikte, bunları mobil ve gömülü cihazlara dağıtma ihtiyacı doğdu. TensorFlowLite, cihaz tarafında makine öğrenimi modellerinin düşük gecikmeli çıkarımına izin verir.

Bu makalenin dayandığı tensorflowLite, adı kendi çalışma prensibinden gelen Google tarafından geliştirilmiş bir yapay zeka öğrenme sistemidir. Tensör (tensör) N boyutlu dizi anlamına gelir, Akış (akış), veri akış grafiğine dayalı hesaplama anlamına gelir, TensorFlow, akış grafiğinin bir ucundan diğer ucuna akan tensörün hesaplama işlemidir. TensorFlow, karmaşık veri yapılarını analiz ve işleme için yapay zeka sinir ağlarına ileten bir sistemdir.

Aşağıdaki şekil tensorflowLite'ın mimari tasarımını göstermektedir:

Şekil 1.1 tensorflowlite mimari diyagramı

2. Mel cepstrum algoritması

2.1 Genel Bakış

Bu bölümdeki ses tanıma algoritması - Mel cepstrum algoritması, sonraki bölümlerde ayrıntılı olarak tanıtılacak olan aşağıdaki adımlara bölünmüştür.

1) Ses dosyasını girin ve orijinal ses verilerine (zaman etki alanı sinyali) ayrıştırın.

2) Zaman etki alanı sinyallerini kısa süreli Fourier dönüşümü, pencereleme ve çerçeveleme yoluyla frekans etki alanı sinyallerine dönüştürün.

3) Mel spektrum dönüşümü ile frekans, insan kulaklarının algılayabileceği doğrusal bir ilişkiye dönüştürülür.

4) Mel cepstrum analizi yoluyla DCT dönüşümü, DC sinyal bileşenini ve sinüzoidal sinyal bileşenini ayırmak için kullanılır.

5) Ses spektrumu özellik vektörünü çıkarın ve vektörü bir görüntüye dönüştürün.

Pencereleme ve çerçeveleme, zaman alanındaki kısa vadeli konuşmanın kararlılığını karşılamaktır. Mel spektrum dönüşümü, insan kulağının frekans algısını doğrusal bir ilişkiye dönüştürmektir. Cepstrum analizinin odak noktası, Fourier dönüşümünü, herhangi bir sinyali anlamaktır. Her ikisi de Fourier dönüşümü aracılığıyla bir DC bileşeninin ve birkaç sinüzoidal sinyalin toplamına ayrıştırılabilir.

Şekil 2.1 Sesin zaman alanı sinyali

Şekil 2.1, sesin zaman alanı sinyalidir.Frekans değişim yasasını sezgisel olarak görmek zordur. Şekil 2.2, sesin hacmi ve frekansı gibi bilgileri yansıtan sesin frekans etki alanı sinyalidir. Şekil 2.3, sesi çıkarabilen Mel cepstrum'dan sonraki ses özelliklerini göstermektedir.

Şekil 2.2 Sesin frekans alanı sinyali

Şekil 2.3 Sesin Cepstral özellikleri

Şekil 2.4 Mel cepstrum algoritmasının uygulama süreci

2.2 Kısa süreli Fourier dönüşümü

Ses sinyali tek boyutlu bir zaman alanlı sinyaldir ve frekans değişim yasasını sezgisel olarak görmek zordur. Fourier dönüşümü ile frekans alanına değiştirilirse sinyalin frekans dağılımı görülebilmesine rağmen zaman alanı bilgisi kaybolur ve frekans dağılımının zamanla değişimi görülemez. Bu sorunu çözmek için birçok zaman-frekans analizi yöntemi ortaya çıkmıştır. Kısa süreli Fourier, dalgacık, Wigner dağılımı vb. Yaygın olarak kullanılan zaman-frekans alanı analiz yöntemleridir.

Şekil 2.5 FFT dönüşümünün ve STFT dönüşümünün şematik diyagramı

Sinyalin frekans spektrumu Fourier dönüşümü ile elde edilebilir. Sinyalin spektrumu yaygın olarak kullanılmaktadır ve sinyalin sıkıştırılması ve gürültü azaltılması, spektruma bağlı olabilir. Bununla birlikte, Fourier dönüşümü, sinyalin durağan olduğu, yani sinyalin istatistiksel özelliklerinin zamanla değişmediği varsayımına sahiptir. Ses sinyali sabit bir sinyal değildir Uzun bir süre içinde birçok sinyal görünecek ve hemen sonra kaybolacaktır. Tüm bu sinyal Fourier dönüştürülmüşse, sesin zaman içindeki değişimini yansıtamaz.

Bu makalede kullanılan kısa süreli Fourier dönüşümü (STFT), en klasik zaman-frekans alanı analizi yöntemidir. Kısa süreli Fourier dönüşümü (STFT), zamanla değişen bir sinyalin yerel bir alanındaki bir sinüs dalgasının frekansını ve fazını belirlemek için Fourier dönüşümü (FT) ile ilgili matematiksel bir dönüşümdür. Buradaki fikir, analiz penceresi fonksiyonu h (t) 'nin kısa bir zaman aralığında kararlı olduğunu varsayarak, f (t) h (t) farklı sonlu zaman genişliklerinde olacak şekilde, bir zaman frekansı yerelleştirilmiş pencere fonksiyonu seçmektir. Farklı zamanlarda güç spektrumunu hesaplamak için sinyali yumuşatın. Kısa süreli Fourier dönüşümü sabit bir pencere işlevi kullanır ve yaygın olarak kullanılan pencere işlevleri arasında Hanning penceresi, Hamming penceresi, Blackman-Haris penceresi vb. Bulunur. Bu makalede Hamming penceresi kullanılmıştır Hamming penceresi, belirli bir anda enerjinin zaman içindeki zayıflama ilişkisini iyi bir şekilde yansıtabilen bir kosinüs penceresidir.

Bu nedenle, bu makaledeki STFT formülü orijinal Fourier dönüşümü formülüne dayanmaktadır:

Formüle bir pencere işlevi eklenir, böylece STFT formülü şu şekle dönüştürülür:

onların arasında,

Hamming pencere işlevi.

Şekil 2.6 Hamming penceresine dayalı STFT dönüşümü

2.3 Mel spektrumu

Spektrogram genellikle çok büyük bir resimdir.Uygun büyüklükte bir ses özelliği elde etmek için, genellikle bir mel ölçek filtre bankasından geçirilir ve bir mel spektruma dönüştürülür. Mel filtre bankası nedir? Mel ölçeği ile başlayalım.

1937'de Stevens, Volkmann ve Newman tarafından adlandırılan Mel ölçeği. Frekans biriminin Hertz (Hz) olduğunu ve insan kulağının duyabileceği frekans aralığının 20-20000 Hz olduğunu biliyoruz, ancak insan kulağı, Hz'nin ölçek birimine ilişkin doğrusal bir algıya sahip değildir. Örneğin 1000Hz'lik bir tona adapte olursak, ton frekansını 2000Hz'e çıkarırsak, kulaklarımız frekans artışını biraz algılayabilir ama hiç algılayamaz. Sıradan frekans ölçeği Mel frekans ölçeğine dönüştürülürse, eşleme ilişkisi aşağıdaki gibidir:

Yukarıdaki formülden sonra, insan kulağının frekans algısı doğrusal bir ilişki haline gelir. Yani Mel ölçeği altında, iki konuşmanın Mel frekansları iki kat farklı ise, insan kulağının algılayabileceği perde yaklaşık iki kat farklıdır.

Hz'den Mel frekansına (mel) haritalamayı gözlemleyelim.Log ilişkileri oldukları için frekans küçük olduğunda Mel frekansı Hz ile daha hızlı değişir; frekans büyük olduğunda Mel frekansı çok yükselir. Yavaş yavaş, eğrinin eğimi küçüktür. Bu, insan kulağının düşük frekanslı tonlara daha duyarlı olduğunu ve insan kulağının, Mel ölçekli filtre bankasından esinlenilen yüksek frekanslarda çok donuk olduğunu gösteriyor.

Şekil 2.7 Frekansın Mel frekansına şematik diyagramı

Aşağıdaki şekilde gösterildiği gibi, 12 üçgen filtre, düşük frekanslarda ve büyük eşiklerde yoğun filtreler ve yüksek frekanslarda ve düşük eşiklerde seyrek filtrelerle bir filtre bankası oluşturur. Sadece, frekans ne kadar yüksek olursa insan kulağının o kadar sönük olduğu objektif yasaya karşılık gelir. Yukarıdaki şekilde gösterilen filtre formuna eşit alanlı Mel filtresi (Mel filtresi

insan sesi (ses tanıma, konuşmacı tanımlama) ve diğer alanlarda yaygın olarak kullanılan aynı banka alanına sahip banka).

Şekil 2.8 Mel filtre bankasının şematik diyagramı

2.4 Mel cepstrum

2.3'ün Mel logaritmik spektrumuna dayalı olarak DCT dönüşümü, DC sinyal bileşenini ve sinüzoidal sinyal bileşenini ayırmak için kullanılır ve nihai sonuç Mel sepstrum olarak adlandırılır.

onların arasında,

Mel cepstrum'un çıktısı bir vektör olduğundan, henüz bir resimle görüntülenemiyor, bir görüntü matrisine dönüştürülmesi gerekiyor. Çıkış vektörünün aralığı

Görüntünün aralığına doğrusal dönüşüm

Şekil 2.9 Çizim renk ölçeğinin şematik diyagramı

2.5 Algoritma işleme hızı optimizasyonu

Algoritmanın istemci tarafında uygulanması gerektiğinden, bazı hız iyileştirmelerine ihtiyaç vardır. Optimizasyon yönleri aşağıdaki gibidir:

1) Komut seti hızlandırma: Algoritma çok sayıda toplama ve çarpma matrisi işlemine sahip olduğundan, işlemleri hızlandırmak için çoklu komut setlerini optimize etmek için silah komut seti tanıtılmıştır. Hız 4 ila 8 kat artırılabilir.

2) Algoritma hızlandırma: I) İnsan sesi frekans bandını (20HZ ~ 20KHZ) seçin ve fazlalık hesaplamayı azaltmak için insan olmayan ses frekans bandını kaldırın. II) Ses örnekleme oranını azaltın İnsan kulağı aşırı yüksek örnekleme oranlarına duyarlı olmadığından, örnekleme oranının düşürülmesi gereksiz veri hesaplamalarını azaltabilir. III) Aşırı hesaplamayı önlemek için pencereleri ve dilimleri makul bir şekilde bölün. IV) Gereksiz zaman dilimlerini azaltmak için algılamayı kapatın.

3) Örnekleme frekansı hızlandırma: Ses örnekleme frekansı çok yüksekse, aşağı örneklemeyi seçin ve işleme frekansı 32kHZ'ye kadar ayarlanabilir.

4) Çok iş parçacıklı hızlandırma: Sesi birden çok parçaya bölün ve çok iş parçacıklı paralel işlemeyi kullanın. İplik sayısını makinenin kapasitesine göre yapılandırın, varsayılan 4 ipliktir.

Şekil 2.10 Algoritma mühendisliği sonunda seçilen parametreler

3. İnsan sesi tanıma modeli

3.1 Model seçimi

Evrişimli Sinir Ağları (kısaca CNN) ileri beslemeli bir sinir ağıdır. Yapay nöronlar, kapsama alanındaki çevredeki birimlerin bir kısmına yanıt verebilir ve büyük ölçekli görüntü işleme için mükemmel performansa sahiptir.

1960'larda Hubel ve Wiesel, benzersiz ağ yapılarının, kedi beyin korteksinde yerel duyarlılık ve yön seçimi için kullanılan nöronları incelerken geri besleme sinir ağlarının karmaşıklığını etkili bir şekilde azaltabileceğini keşfettiler ve ardından bir evrişimli sinir ağı önerdiler. Artık CNN, özellikle desen sınıflandırması alanında birçok bilimsel alanda araştırma noktalarından biri haline geldi.Ağ, görüntünün karmaşık ön işlemlerinden kaçındığı ve orijinal görüntüyü doğrudan girebildiği için, daha yaygın olarak kullanılmaktadır.

1980 yılında K. Fukushima tarafından önerilen yeni tanıma makinesi, evrişimli sinir ağlarının ilk uygulama ağıdır. Daha sonra, daha fazla bilimsel araştırmacı ağı geliştirdi. Bunlar arasında, temsili araştırma sonucu, Alexander ve Taylor tarafından önerilen, çeşitli geliştirilmiş yöntemlerin avantajlarını birleştiren ve zaman alan hataların geri yayılmasını önleyen "gelişmiş bilişsel makine" dir.

Genel olarak, bir CNN'nin temel yapısı, biri özellik çıkarma katmanı olmak üzere iki katman içerir Her nöronun girişi, önceki katmanın yerel alıcı alanına bağlanır ve yerel özellikler çıkarılır. Yerel özellik çıkarıldıktan sonra, diğer özelliklerle konumsal ilişkisi de belirlenir; ikincisi, özellik eşleme katmanıdır, ağın her hesaplama katmanı birden çok özellik haritasından oluşur ve her özellik haritası bir düzlemdir. Düzlemdeki tüm nöronların ağırlıkları eşittir. Özellik eşleme yapısı, öznitelik eşlemesinin yer değiştirme değişmezliğine sahip olması için, evrişimli ağın etkinleştirme işlevi olarak küçük etki işlevli çekirdek ile sigmoid ve relu gibi işlevleri kullanır. Ek olarak, bir haritalama yüzeyindeki nöronlar ağırlıkları paylaştığından, ağın serbest parametrelerinin sayısı azalır. Evrişimli sinir ağındaki her bir evrişimli katmanı, yerel ortalama alma ve ikincil çıkarma için bir hesaplama katmanı izler Bu benzersiz iki özellikli çıkarma yapısı, özellik çözünürlüğünü azaltır.

CNN esas olarak yer değiştirme, ölçekleme ve diğer bozulma değişmez iki boyutlu grafik biçimlerini tanımlamak için kullanılır. CNN'nin özellik algılama katmanı eğitim verileri yoluyla öğrendiği için, CNN kullanıldığında, açık özellik çıkarımından kaçınılır ve öğrenme, eğitim verilerinden örtük olarak gerçekleştirilir; Ayrıca, aynı özellik haritalama yüzeyindeki nöron ağırlıkları nedeniyle Aynısı, böylece ağ paralel olarak öğrenebilir, bu da nöronları birbirine bağlayan ağlar üzerindeki evrişimli ağların önemli bir avantajıdır. Evrişimsel sinir ağı, özel yerel ağırlık paylaşımı yapısı ile konuşma tanıma ve görüntü işlemede benzersiz avantajlara sahiptir.Yerleşimi gerçek biyolojik sinir ağına daha yakındır.Ağırlık paylaşımı, özellikle çok boyutlu ağın karmaşıklığını azaltır Giriş vektörünün görüntüsünün doğrudan ağa girilebilmesi özelliği, özellik çıkarma ve sınıflandırma sürecinde verilerin yeniden yapılandırılmasının karmaşıklığını önler.

Şekil 3.1 Inception-v3 modeli

Bu makale, insan sesi tanıma modeli olarak daha doğru Inception-v3 modelini seçmektedir. V3'ün en önemli iyileştirmelerinden biri ayrıştırmadır. 7x7 evrişimli ağ, iki tek boyutlu evrişime (1x7, 7x1) ayrıştırılır ve aynı şey 3x3 için de geçerlidir. (1x3,3x1), bu fayda hesaplamayı hızlandırabilir, ağın derinliğini daha da artırabilir, ağın doğrusal olmayışını artırabilir ve ağ girişinin 224x224'ten 299x299'a ve daha rafine 35x35 / 17x17 tasarımına dönüştüğünü belirtmekte fayda var. / 8x8 modülü.

Tensorflow oturum modülü, kod düzeyinde eğitim ve tahmin işlevlerini uygulamak için kullanılabilir.Ayrıntılar için lütfen tensorflow resmi web sitesine bakın.

Şekil 3.2 Tensorflow oturum kullanımının şematik diyagramı

3.2 Model örneği

Denetimli makine öğreniminde, genellikle numuneyi üç bağımsız eğitim setine bölmek gerekir (tren

set), doğrulama seti (doğrulama seti) ve test seti (test seti). Eğitim seti modeli tahmin etmek için kullanılır, doğrulama seti modelin karmaşıklığını kontrol eden ağ yapısını veya parametreleri belirlemek için kullanılır ve test seti, optimum modelin performansını test etmek için kullanılır.

Spesifik tanım aşağıdaki gibidir:

Eğitim seti: örnek veri setini öğrenin, bazı parametreleri eşleştirerek bir sınıflandırıcı oluşturun. Bir sınıflandırma yönteminin oluşturulması, esas olarak modeli eğitmek için kullanılır.

Doğrulama seti: Sinir ağındaki gizli birimlerin sayısının seçilmesi gibi, öğrenilen model için sınıflandırıcının parametrelerini ayarlayın. Doğrulama seti, modelin aşırı uymasını önlemek için modelin karmaşıklığını kontrol eden ağ yapısını veya parametreleri belirlemek için de kullanılır.

Test seti: temel olarak eğitilmiş modelin ayrımcılık yeteneğini test etmek için (tanıma oranı vb.)

Bölüm 2'deki Mel Cepstrum algoritmasına göre ses tanıma için örnek dosya elde edilebilir.İnsan sesi spektrumu pozitif örnek olarak, hayvan sesleri ve sesleri gibi insan dışı sesler ise negatif örnek olarak kullanılır ve eğitim için Inception-v3 modeline teslim edilir.

Bu makale eğitim çerçevesi olarak tensorflow'u kullanıyor, test seti olarak 5000 insan sesi ve insan dışı ses örneği ve doğrulama seti olarak 1000 örnek seçiyor.

3.3 Model eğitimi

Örnek hazırlama tamamlandıktan sonra Inception-v3 modeli eğitim için kullanılabilir. Eğitim modeli yakınsadığında, terminalde kullanılabilecek bir pb modeli oluşturulabilir. Modeli seçerken, varsayılan olarak NEON optimizasyonunu etkinleştirmek için armeabi-v7a veya üstünü derlemeyi seçin, yani komut seti hızlandırma etkisini elde edebilen USE_NEON makrosunu açın. Örneğin, CNN ağının işlemlerinin yarısından fazlası evrişim (evrişim) işlemlerinde ve komut seti optimizasyonunun kullanımı en az 4 kat hızlandırabilir.

Şekil 3.3 Evrişim işleme işlevi

Ardından, tensorflowLite çerçevesi kullanılarak istemcide doğrudan çağrılabilen bir lite modeli oluşturmak için tensorflow tarafından sağlanan toco aracını kullanın.

Şekil 3.4 toco araç çağrısı arayüzü

3.4 Model tahmini

Ses dosyalarının özelliklerini çıkarmak ve tahmini resimler oluşturmak için Mel cepstrum algoritmasını kullanın. Bundan sonra, eğitimle oluşturulan lite modeli tahmin için kullanılabilir. Tahmin sonucu aşağıdaki gibidir:

Şekil 3.5 Model tahmin sonuçları

Referanslar:

https://www.tensorflow.org/mobile/tflite

MFCC ve IMFCC'ye dayalı konuşmacı tanıma araştırması. Liu Liyan. Harbin Engineering University. 2008

MFCC ve LPCC'ye dayalı metinle ilgili bir konuşmacı tanıma yöntemi.

Yu Ming, Yuan Yuqian, Dong Hao, Wang Zhe. Bilgisayar Uygulamaları. 2006 (04)

Metne bağlı Hoparlör

Gürültülü Ortamda Tanımlama. Kumar Pawan, Jakhanwal Nitika,

Chandra Mahesh. Uluslararası

Cihazlar ve İletişim Konferansı.2011

https://github.com/weedwind/MFCC

https://baike.baidu.com/item/ARM talimat seti / 907786? fr = aladdin

https://www.tensorflow.org/api_docs/python/tf/Session

Bir buçuk yıl önce 10 kişilik Çin takımı tarafından çarpıldı ve şimdi arka arkaya 6 galibiyetle Asya Kupası finaline ulaştı!

Örnek olarak Changan Auchan A800'ü ele alalım, nasıl adım adım araba yaparsınız?

: Gülümseyerek araba almaya hazır mısınız? Ekim ayında, bir dizi yeni araba çılgınlığı devam etti ve SUV'lar daha heyecan verici!

: Süper Lig harika bir sahnede yeniden ortaya çıkıyor: Oyuncu 1 dakika boyunca bir golü kutluyor, ancak hakem düdük çalıyor

: Altın çizmeleri kilitleyin! Katar forvet oyuncusu 1V38. golü attı, kutlamak için poposunu büktü ve rakibini kızdırdı

: "Dark Souls 3" isimsiz kralı yenmek için 1 seviye oynayın, silah aslında bir meşale

: Uluslararası insanlar, Çin'in büyük değişikliklerini kaydetmek için kalem ve kamera kullanarak Çin'in reformunu ve açılmasını bizzat tecrübe etti.

: MG GS'nin İnternet versiyonu 145.800'den satılıyor. Öne çıkan özellikler nelerdir?

: Uyarılmış! D'Antoni: Çok fazla insan var! Ve Paul'un sözleri büyük bir bilgelik gösteriyor!

: Makaleyi okuduktan sonra, binicilerin% 80'i deneklerin testi geçtiğini hissetti!

: Greater Paris Slap UEFA: Beni araştırmak istediğini duydum? Şoku kırmak için 45 milyon daha harcadım

: Gerçekten para kazanmak istiyorum! Barcelona 11,8 milyon euro aldı ancak 30 milyon euro sattı: Dünya Kupası savunucuları takımdan ayrılmak zorunda

: Ali mühendisleri dünyada "satın almak, satın almak ve satın almak" için denizaşırı bir İK sistemi geliştirdiler.

: "Hitman 6" nın son bölümü "Hokkaido" 31 Ekim'de yayınlandı

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

TensorFlow'a dayanarak, sonunda ses tanıma nasıl gerçekleştirilir?

Özet

1 Genel Bakış

2. Mel cepstrum algoritması

3. İnsan sesi tanıma modeli

Referanslar:

İlgili bilgi

"Entrikacı" üçlemenin ifşası: 8.000'den fazla ebeveynlere satılan 300 yuan sağlık ürünleri

19 sayı karşılığında 21 atış, suçu Thomas almalı mı? Bir veri James'i özellikle utandırıyor!

SIPG Luneng ilk savaşı çekti! Guoan zirveye çıkma fırsatını gördü ve Evergrande de bunu izliyordu

Otomobil, SUV ve MPV'lerin satış sıralaması Temmuz ayında açıklandı! 438 modelin hepsi burada

Ön uç Lideri ekip planlamasında nasıl iyi bir iş çıkarır? Alibaba'nın dahili eğitim özeti halka açık

On birinci gezinin anıları: Che Amca, Altın Tatil sırasında utançtan bahsediyor!

Başka kim? Maç başına ortalama 17 sayı! 20 + 11 Downs: Griffin'in beni tek başına değiştirmek istediğini duydum?

"Battlefield 1" tek oyunculu görev bir kuş oynamanıza izin verir, ön yükleme boyutu 40 GB'ı aşar

Çin Süper Ligi yeniden ortaya çıktı: "Kırık bacaklı uçan kürek": 33 yaşındaki milli takım doğrudan kırmızı kartla oyundan atıldı

Manchester United'ın 19 milyon yeni oyuncusu kısa tahta pozisyon yarışmasına katılacak! Mourinho iki kez forma giydi ve 10 yıl oynayabileceğini iddia etti.