Sütun | Ses Kalitesi İnceleme Programının Yorumlanması: Anahtar Kelime Erişiminden Duygu Tanıma

Leifeng.com Editörün Notu: Bu makalenin yazarı Wen Zhengqi, Xtreme Intelligent Technology CTO'su ve Çin Bilimler Akademisi Otomasyon Enstitüsü'nde yardımcı araştırmacıdır. Çin Bilimler Akademisi Otomasyon Enstitüsü'nden mezun olmuştur. Uluslararası konferans ve dergilerde ondan fazla makale yayınlamıştır ve çok sayıda konuşma ve ses elde etmiştir. Patent alanı. Lei Feng bu makaleyi yayınlamaya yetkilidir.

Müşteri memnuniyetini artırmak, müşteri hizmetlerini iyileştirmek ve müşteri hizmetleri personelinin çalışmalarını değerlendirmek için birçok şirket, hizmetlerinin kalitesini sağlamak için kalite kontrol yöntemlerini benimseyecektir. Hizmet sektörünü örnek alalım: Çağrı merkezi, kurumsal pazarlamayı, pazar gelişimini destekleyen ve müşterilere iyi bir interaktif hizmet sistemi sunan bir sistemdir ve konumu çok önemlidir. Geleneksel kalite denetim yöntemleri, kalite denetçilerinin manuel odyometri aracılığıyla rastgele denetimler yapmasını gerektirir; manuel denetim yöntemlerinin büyük bir iş yükü ve düşük verimliliği vardır, bu da müşteri hizmetleri personelinin hizmet kalitesini etkin bir şekilde değerlendirmeyi zorlaştırır.

Yapay zeka teknolojisinin gelişmesiyle birlikte, ses ve doğal ses işleme teknolojisi atılımlar yapmaya devam ediyor.Telefon ses içeriğinin derinlemesine analizini yapmak için akıllı yöntemlerin kullanılması, işçilik maliyetlerinden etkili bir şekilde tasarruf sağlayabilir ve iş verimliliğini artırabilir. Ses kalitesi inceleme programı temel olarak sesli anahtar kelime alma, ses karşılaştırma ve duygu tanıma gibi temel teknolojileri içerir.

1 Sesli anahtar kelime araması

1.1 Ses tanıma akustik modeli

Derin öğrenmenin yükselişiyle birlikte, derin sinir ağları konuşma tanımada akustik modellemeye de uygulanmıştır GMM-HMM modelindeki GMM modeli, derin sinir ağı modeli ile değiştirilmiştir ve HMM modelindeki durum geçiş matrisi kısmen değişmemiştir. DNN, giriş tarafında çerçeveleri genişleterek bağlam bilgisini kullanabilir.Aynı zamanda, bu model güçlü doğrusal olmayan modelleme yeteneklerine sahiptir. Bununla birlikte, DNN'nin genişletilmesi sınırlıdır, bu nedenle kullanabileceği bağlam bilgisi sınırlıdır. Bu soruna yanıt olarak, RNN'ye dayalı bir akustik model önerilmektedir RNN, akustik model modellemesi için geçmiş bilgilerden tam olarak faydalanabilir. Bununla birlikte, RNN eğitimi sırasında gradyan kaybolması ve gradyan genişlemesi sorunları olacaktır.Eğitim sürecinde bazı kısıtlamalar eklenerek gradyan genişletme çözülebilir.Gradyan belirli bir değeri aştığında sabit bir değer ayarlayın; gradyan kaybolma problemi için çözmek daha etkilidir Yöntem, içindeki RNN birimini uzun ve kısa süreli bellek modeli LSTM'ye dönüştürmektir.Bu modelin dezavantajı, akustik model oluşturulurken dikkate alınması gereken bir problem olan hesaplama karmaşıklığını artırmasıdır. CNN, diğer bir ana akım akustik modeldir. Bu model daha az parametre içerir. Google, Microsoft ve IBM gibi şirketler, tanıma performansı diğer derin sinir ağlarını aşan çok derin CNN modellerini kullanmaya çalıştılar.

CTC bir eğitim kriteridir.Geleneksel derin öğrenme tabanlı akustik modelin çıktısında, her telefon bir düzine veya daha fazla çerçeve içerebilir, çünkü bu bir artış değildir, ancak CTC eğitimi bunu bir ani artışa dönüştürecektir; CTC, her bir çerçeveyi boş bir çerçeveye veya karşılık gelen modelleme birimine (fonem, hece, vb.) Dönüştürebilir ve her modelleme biriminin yalnızca birkaç çerçeveye karşılık gelmesi gerekir. Kod çözerken, siyah çerçeveler için arama genişliği azaltılabilir ve bu da kod çözme hızını önemli ölçüde artırabilir. Kodu çözülen çerçeveyi azaltmanın iki yolu vardır, biri çerçeve atlamadır ve diğeri de kod çözme işlemi sırasında ışın değerini dinamik olarak ayarlamak, özellikle boş çerçevelerle karşılaşıldığında birleşik ışın değerini azaltmaktır.

1.2 Konuşma tanımaya dayalı anahtar kelime bulma

Konuşma tanımaya dayalı anahtar kelime bulma, konuşma tanımanın sonuçlarından bir dizin ağı oluşturmak ve ardından anahtar kelimeleri dizin ağından bulmaktır. Şekil 1'den görülebileceği gibi, konuşma verileri önce tanınır ve bir dizin ağı oluşturmak için dizin ondan çıkarılır Anahtar sözcükleri ararken, ağdaki anahtar kelime tablosunu arayacağız, en yüksek olasılığı bulacağız ve çıktısını alacağız. Anahtar kelime eşleme sonuçları.

Şekil 1. Konuşma tanımaya dayalı anahtar kelime alma

Bir arama ağı oluşturmak, sesli anahtar kelime aramanın önemli bir parçasıdır. Şekil 2'de gösterildiği gibi, ilk zaman diliminde (w1, w3, w6, w7) bu cümle dört farklı kelime olarak tanındı.Konuşma tanıma sadece bir yol verebilir, ancak konuşma anahtar kelimesinde Arama ağı, dört sonucu filtreleyebilir.

Şekil 2 Bir geri alma ağı oluşturmanın şematik diyagramı

Anahtar kelime arama ağını onayladıktan sonra, sonraki adım anahtar kelime aramasıdır. Anahtar kelime bulma, hece bilgisine dayanabilir.Kullanıcı tarafından belirlenen anahtar kelime metni önce bir hece sırasına göre ayrıştırılır ve ardından eşleşen sonuçlar, erişim ağından bulunur.Metin sonuçlarının doğrudan alınmasıyla karşılaştırıldığında, bu yöntem daha hataya dayanıklıdır. Ayrıca, anahtar kelime alımında akustik model CTC tabanlı bir model olabilir, bu nedenle hesaplama miktarı daha azdır ve yürütme verimliliği daha yüksektir.Ses kalitesi denetimi gibi büyük veri alma uygulama senaryosu için daha uygundur.

2 Ses karşılaştırması

Ses karşılaştırması, ses sinyallerinden özelliklerin ayıklanması ve özellik karşılaştırma yöntemi aracılığıyla zararlı bilgilerin aranması yöntemini ifade eder. Bu yöntemin özü, çıkarılan özdeğerlerin, gürültü direnci, dönüşüm değişmezliği, sağlamlık ve hız gibi belirli gereksinimleri karşılaması gerektiğidir.Genel olarak, farklı kanallar altında doğru bir şekilde geri alınabilen aynı ses frekansını sağlamaktır. MFCC ve FBANK gibi geleneksel akustik özellikler artık ses karşılaştırma görevlerinin ihtiyaçlarını karşılayamaz. Şekil 3, spektrumun maksimum değerine dayalı bir ses karşılaştırma yöntemini göstermektedir. Maksimum noktanın modellemesini tamamladıktan sonra, özelliği inşa etmek gerekir. Özellik yapısı, maksimum noktalar arasındaki mesafeye göre modellenir.Örneğin, iki maksimum noktanın mesafe ve konum bilgisi, ses özelliği bilgisinin yapımını tamamlamak için sabit bir özellik olarak kullanılır. Yukarıdaki ses özellikleriyle, iki farklı sesi aramak mümkündür En büyük benzerlik benzerliktir.Bu teknik, metin içeriğiyle ilgisi olmayan ses kliplerinin alınması için en uygun olanıdır.

Şekil 3. Spektral maksimum modellemeye dayalı ses karşılaştırma yöntemi

3 Duygu tanıma

Ses, insan iletişimi için en önemli araçlardan biridir. İnsanlar doğal sözlü konuşmalar yaptıklarında, yalnızca sesi iletmekle kalmaz, daha da önemlisi konuşmacının duygusal durumunu, tutumunu ve niyetlerini iletirler. Genel duygusal konuşma tanıma sistemi blok diyagramı Şekil 4'te gösterilmektedir. Farklı duygu modellerine göre, duygu konuşmasını tanıma, temelde ayrık duygu tanıma ve sürekli duygu konuşma tanıma olarak ikiye ayrılır.

Şekil 4. Konuşma duygusu tanımanın tipik bir sistem blok diyagramı

Ayrık duygu tanıma, tipik bir örüntü sınıflandırma problemidir ve çeşitli geleneksel sınıflandırıcılar, konuşma duygu tanıma sistemlerinde yaygın olarak kullanılmaktadır. Örneğin, Gizli Markov Modeli, Gauss Karışım Modeli, Destek Vektör Makinesi, Yapay Sinir Ağı vb. Boyutsal duygu tanıma genellikle bir regresyon tahmin problemi olarak modellenir. Makine öğrenimi algoritmaları düzeyinde, mevcut yöntemler, sıralı bağlam bilgisinin dikkate alınıp alınmayacağına göre statik makine öğrenimi algoritmalarına ve dinamik makine öğrenimi algoritmalarına bölünebilir. Statik makine öğrenme algoritmalarından AdaBoost, Gauss karışım modeli, yapay sinir ağı, destek vektör regresyonu, vb. Boyutsal duygu tanımada dizi birimlerinin regresyon probleminde yaygın olarak kullanılmaktadır. Boyutsal duyguların sıralı etiketlemesi göz önüne alındığında, sıra bağlam bilgisi duygu tanımanın performansını iyileştirmeye yardımcı olur, bu nedenle dinamik makine öğrenme algoritmalarına daha fazla çalışma odaklanır. Derin öğrenme teknolojisinin gelişmesiyle birlikte, LSTM-RNN tabanlı sistemler boyutsal duygu tanıma alanında daha yaygın olarak kullanılmaktadır.

Duygu tanıma çözümü, farklı duygu durumları ile konuşma akustik parametreleri arasındaki ilişkiyi analiz eder, sağlam akustik özellik parametrelerini çıkarır, farklı kişilerin aynı konuşmadaki duygu algılama sonuçlarını kapsamlı bir şekilde değerlendirir ve bir konuşma duygu tanıma modeli oluşturur. Konuşma duygu tanımanın sağlamlığını geliştirmek için, gürültülü bir ortamda duygu konuşma analizi sorununu etkili bir şekilde çözen bir duygu konuşma analizi modeli oluşturmak için doğrusal olmayan bir modelleme yöntemi kullanılır. Duygu tanımada zaman serisi modelleme problemini hedef alan çok ölçekli bir zaman serisi modelleme yöntemi, özellik katmanı modelleme ve karar katmanı modelleme kombinasyonuna dayanmaktadır. Özellik katmanında kısa taneli zamanlama modellemesini gerçekleştirin. Karar verme düzeyinde daha uzun parçalı zamanlama modellemesini gerçekleştirin ve özellik düzeyinde zamanlama modelleme uygulamasıyla birbirini tamamlayın. Yukarıdaki iyileştirmeler sayesinde, konuşma-duygu tanımanın doğruluğu etkili bir şekilde geliştirilir ve arayanın duygusal durumu dinamik olarak yakalanabilir ve izlenebilir. (Lei Feng Ağı)

Douyin Kısa Videosu ile "Changde Release" Eğlencesi Şehri Büyüt Pozitif Enerjisi
önceki
"Crysis" üçlemesi, Xbox'ın geriye dönük uyumluluğuna katıldı
Sonraki
Mercedes-Benz A-Serisi ve Audi A3 nasıl seçilir?
Sahte Huawei Galaxy kanıtları? Fotoğrafçı söylentileri çürütmek için "kesiksiz" video kaydetti, şüpheciler özür diler
90. Oscar'ın Önizlemesi: Henüz en iyi aday gösterilen filmi görmediniz mi? Sıfır okumadan nasıl tanrı olunacağını öğret!
Almanya'nın en iyi müzik okulları tarafından reddedilen son sınıf öğrencileri, masrafları kendilerine ait olmak üzere oratoryoyu öğreniyor
Hangisi daha iyi, Changan Uno ve Wuling Rongguang V?
2000'den fazla Yeni Yıl resim setinin özel koleksiyonu! Yeni Yıl resimleri koleksiyoncusu Li Liankai "Yeni Yıl Resimlerinde Çin Hikayeleri" nden bahsediyor.
Bu hafta oyun zamanı sıcak: Kendinizi hangi kimliği değiştirmek istersiniz?
Kötü haber! "Orman Perisi" Billy Harrington 48 yaşında trafik kazasında öldü.
Cadillac ATS-L ve Audi A4L nasıl seçilir?
Noble Truth Videosu: The SpeakerCraft Hidden Series of Building Singing
Bir dedikodu dizisi kurmak için mahzeni kazan Feng Shui'ye, tavuk çiftliğinde saklanan garip kaçaklara bakın ve ajanslar bitkin olsa bile Skynet'ten saklanamazlar.
Japon "ulusal eşi" Yui Aragaki emekli mi olmak istiyor? Fiziksel ve zihinsel aşırı yük acı vericidir
To Top