İnsan sesinin ayrılması bozulduğunda konuşma tanıma alanına ne gibi olanaklar getirilecek?

Resim kaynağı: Visual China

Gürültülü bir kokteyl partisinde, aynı anda birçok farklı ses kaynağı olduğunu hayal edin: aynı anda birden fazla kişinin konuşması, sofra takımlarının çatışması, müzik sesi vb. Bir kokteyl partisinde belirli bir kişinin sesini nasıl ayırt etmek biz insanlar için çok basittir.

Ancak bilgisayarlar için, bir ses sinyali birden fazla farklı ses kaynağına bölündüğünde çözülmesi gereken hala birçok çetrefilli sorun vardır. Birçok insanın sesi örtüştüğünde, AI genellikle hazırlıksız yakalanır. 1953'te Cherry "kokteyl partisi" sorununu önerdi ve şimdiye kadar hiç kimse insan seslerini tanımlamak ve ayırmak için makine derin öğrenme sorununu çözemedi.

Ancak geçtiğimiz günlerde Google Research yazılım mühendisleri Inbar Mosseri ve Oran Lang tarafından yayınlanan "Looking to Listen at the CocktailParty" adlı makalede, "kokteyl partisi" sorununa uygun bir çözüm sağlamak için yeni bir görsel-işitsel model benimsendi.

"Kokteyl partisi efektini" çözmek için görsel-işitsel konuşma ayırma modeli

Google, "kokteyl partisi" sorununu çözmek amacıyla eğitim örnekleri oluşturmak için YouTube'dan 100.000 yüksek kaliteli ders ve konuşma videosu aradı ve çok akışlı evrişimli sinir ağlarına (CNN) dayalı yaklaşık 2.000 saatlik video klip analizi eğitti Model, sentezlenmiş kokteyl partisi segmentini videodaki her bir hoparlör için ayrı bir ses akışına böler.

Bu deneyde giriş, aynı anda diğer nesneler veya gürültülü bir arka plan tarafından rahatsız edilen bir veya daha fazla sesli nesnenin videosudur. Çıktı, giriş videosunun ses parçasını saf ses parçalarına ayırmak ve karşılık gelen hoparlörlere karşılık gelmektir.

Sözde görsel-işitsel konuşma ayırma modeli, seçilen kişinin sesini güçlendirirken aynı zamanda diğer kişilerin sesini düşürmektir. Bu yöntem, tek bir (ana) ses parçasına sahip ortak videolar için uygundur Kullanıcı aynı zamanda, kendisi için tek bir ses parçası oluşturmak için bir dinleme nesnesi seçebilir veya bağlama dayalı bir algoritma ile belirli bir sondaj nesnesi seçebilir.

Model eğitim sürecinde, ağ sistemi (sırasıyla) görsel ve işitsel sinyallerin kodlanmasını öğrenir ve daha sonra bunları bir görsel-işitsel performans oluşturmak için birleştirir. Bu performans sayesinde, ağ sistemi her ses nesnesine karşılık gelen bir zaman-frekans maskesi çıkarmayı öğrenebilir. Çıkış zaman-frekans maskesi gürültü giriş spektrogramı ile çarpılır ve daha sonra bir zaman-alan dalga biçimine dönüştürülür, böylece her hoparlör için ayrı ve saf bir ses sinyali oluşturur.

Sinir ağı modeli mimarisine dayalı

Ek olarak, birden fazla kişinin konuştuğu bir sahnede, görsel sinyal yalnızca konuşma ayrımının kalitesini etkili bir şekilde iyileştirmekle kalmaz, aynı zamanda ayrılmış ses parçasını videodaki karakterlerle eşleştirebilir. Bu yöntem, sonraki konuşma tanıma alanı için birçok olasılık sağlar.

"Kokteyl partisi etkisi" sorununu çözmek ne anlama geliyor?

"Kokteyl parti etkisi" probleminin çözümü, konuşma tanıma alanındaki birçok problem için bir düşünme yolu sağlarken, aynı zamanda, görsel-işitsel ağ tanıma sistemi önerisi, insan sesini ayırmak için görsel + işitsel bir çözüm de sağlamaktadır.

Teknolojinin uygulanmasıyla, insan sesini ayırma teknolojisi gerçekten piyasaya uygulandığında üründe ne gibi değişiklikler olacak? Akıllı görelilik teorisinin bir analisti olan Ke Ming, aşağıdaki dört açıdan büyük bir atılım yapacağına inanıyor.

  • 1. CC'nin geliştirilmesine yardımcı olma (altyazı ekleme)

Kapalı Alt Yazı (Closed Captioning), TV programlarında ve filmlerde özel durumları veya ihtiyaçları olan izleyiciler için hazırlanmış bir altyazıdır ve resmin açıklayıcı bir dille anlatılmasında rol oynayabilir.

Altyazı terimi, işitme engellilere yardımcı olmayı amaçlamaktadır. Altyazı genellikle normal insanlar tarafından ayırt edilebilen, ancak engelli insanlar için altyazıları geçmesi gereken ses efektleri istemlerini de içerir.

Örneğin, ABD "Mythbusters" programında, "TV PG" derecelendirme etiketini görmenin yanı sıra, programın özel yardıma ihtiyaç duyan gruplara hizmet vermek için kapalı altyazı sağladığını belirten CC logosunu da görüntüler.

"Efsane Avcıları"

Benzer şekilde, Google'ın ses ayırma teknolojisi, CC'nin gelişimini desteklemek için büyük umutlara sahiptir. Çok kanallı bir sistemde belirli insan seslerinin ayrılması, program ve film yapım sürecini basitleştirebilir ve konuşma tanıma ve video altyazılarının ön işlenmesinde iyi sonuçlar verebilir.

Video otomatik altyazı yükleme sistemleri için, aynı anda birden fazla hoparlörün neden olduğu ses çakışması bilinen bir zorluktur.Aynı zamanda, sesi farklı kaynaklara ayırmak, daha doğru ve okunabilir altyazıların sunulmasına da yardımcı olur. . İnsan sesi ayırma teknolojisi, her diyalog konusunun sesini orijinal sese göre tam anlamıyla çevirebilir, ayırabilir ve altyazıların senkronizasyonunu ve doğruluğunu büyük ölçüde garanti eden altyazı otomasyonunu gerçekleştirmek için AI kullanabilir.

  • 2. AI simültane tercümesinin "Oolong Oranını" azaltın

2018'deki Boao Forumunda, Tencent'in yapay zeka eşzamanlı tercümesi büyük bir etki yaptı. Yanlışlıkla yapılan yanlış çeviri problemine ek olarak, sahne aynı zamanda çeviri sisteminin çöktüğü ve "kıkırdadığı" da ortaya çıktı.

Daha sonra Tencent, bu tür bir oolongun nedeninin Çince ve İngilizce arasında frekans değiştirme sorunu olduğunu belirtti. Ses kaynağı iki dil arasında sürekli değiştirildiğinde, arka plandaki Çince ve İngilizce tanıma motorları aynı anda çalışmaya başlayacak ve bu da iki tanıma motorunun birbiriyle "savaşmasına" ve konuşma tanımada kafa karışıklığına neden olacaktır. Nihai çeviri sonucu yalnızca tek bir dilde çıkarılabilir ve bu da hatalara yol açar.

Ses ayırma teknolojisinin uygulanması, yapay zeka eşzamanlı yorumlamada ses tanıma için etkili bir çözüm sağlıyor gibi görünüyor. Birden fazla dilin akıcı bir şekilde tanınmasının ardından, yapay zeka eşzamanlı çevirinin kalitesi buna göre iyileştirilecektir.

  • 3. Akıllı hoparlörler için bir "kasa" sağlayabilir

Akıllı hoparlörlerin ortaya çıkmasıyla sıradan aileler sesli etkileşim çağına girmiş ve kullanım kolaylığı akıllı telefonlarınkini bile aşmıştır. Bazı insanlar akıllı hoparlörlerin akıllı telefonların yerini alacağına ve ev otomasyonuna veya akıllı ev yaşamına giriş olacağına ve doğal dil diyaloğunun ana akım ve verimli kullanıcı arayüzü olacağına inanıyor.

Aynı zamanda, akıllı konuşmacılar, uygulama sürecinde temel olarak ses tanıma teknolojisi ve ses izi tanıma gibi çeşitli teknolojilere yansıyan birçok zorlukla karşı karşıyadır. Şu anda, akıllı hoparlörlerin teknik sorunu, ses tanıma teknolojisinin gürültülü ortamlarda - barlar ve stadyumlar gibi kalabalıkların bulunduğu sahneler de dahil olmak üzere - sesli komutları nasıl tanıdığında yatmaktadır.

Bu amaçla Microsoft, Xbox'ta insanlar oyun oynarken veya film izlerken konuşmalar hakkında bilgi toplayan Voice Studio adlı bir uygulama kurdu. Kullanıcıların oyun sırasında kendi konuşmalarına katkıda bulunmalarını sağlamak için şirket, katılımcı kullanıcılara puan kartları ve oyun gereçleri dahil olmak üzere çeşitli ödüller sunar.

Ancak etki tatmin edici değildir. Gürültülü bir ortamda insan seslerinin nasıl tanınacağı ve birden fazla kişinin seslerinin nasıl ayırt edileceği, akıllı konuşmacılar için hala zor bir sorundur. Gelecekte, akıllı evlerin yaygınlaşmasıyla birlikte, akıllı hoparlörler Nesnelerin İnterneti ortamındaki diğer evlerle iletişim kurmanın "anahtarı" haline geldi AI ses ayırma teknolojisinin uygulanması teknik sorunların üstesinden gelir ve akıllı hoparlörlere daha yüksek bir güvenlik seviyesi sağlar. Güçlü bir "kasa".

  • Dördüncüsü, sürücüsüz sürüş için biyonik ilham verin

Hayvan krallığında "kokteyl partisi etkisi" nin uygulanması, insansız sürüş için biraz ilham veriyor. Engellerden kaçınmak için yarasaları alın ve örnek olarak avlayın. Uçuş sırasında bir dizi ultrasonik dalga yayarlar. Ultrasonik dalgalar, engellerle karşılaştıktan sonra geri yansıtılır. Yarasalar, iki kulağa ulaşan yansıyan sinyal arasındaki zaman farkını ve yansıyan sinyali algılayarak engellerin yönünü yargılar. Engellerin mesafesini değerlendirme gücü.

Yarasa tarafından gönderilen ultrasonik sinyal genellikle 110 kHz'de taranmış bir frekans sinyalidir Farklı frekans sinyallerinin zayıflamasını algılayarak, engelin malzemesi ayırt edilebilir ve ardından engelin bir yırtıcı olup olmadığı yargılanabilir.

Yarasalar kendilerini ve diğer ultrasonik sinyalleri nasıl ayırt eder? Bilim adamları, araştırmalar sonucunda yarasaların yaydıkları ultrasonik frekansı değiştirmediğini, ancak daha yüksek sesle çağrılar, daha uzun süreler ve artan iletim frekansları arayarak sorunu çözdüklerini keşfettiler.

Hayvanlar aleminin "kokteyl partisi etkisi" insansız sürüşü aydınlatır: Radarın konumlandırma doğruluğunu iyileştirmek istiyorsanız, sinyal-gürültü oranını iyileştirmek çok önemlidir. Örneğin, bir yarasanın çağrısı daha yüksek hale gelir ve bu da sinyalin enerjisini artırmaya eşdeğerdir; çağrı süresi uzarken çağrı frekansı artar, bu da sinyal örneklerinin sayısını artırır. İlişkisiz gürültü durumunda, basit bir ortalama, gürültünün etkisini azaltabilir.

Bu, robotlara ve sürücüsüz arabalara yeni ilhamlar getirecek.

İnsansız lidar tespiti

Ek olarak, insansız sürüş alanında görsel-işitsel konuşma tanıma ayırma modelinin uygulanması, yol bilgilerini ölçmek için radar ve lazer gibi mesafe sensörlerinin performansını büyük ölçüde artırabilir ve bu, insansız sürüşün güvenliğinin temelini oluşturur.

Gelecekte insansız sürüşün popülaritesi ile, insan sesi ayırma modu, radarın yanlış algılanması riskini en aza indirmek için "gök gürültüsü ve ses ayrımından" türetilebilir ve böylece insansız sürüş engelini tanımanın güvenliğini sağlar.

Yeni teknolojilerin uygulanmasının biraz zaman alacağı doğrudur. Google yetkilileri ayrıca: "Bu teknolojinin Google ürünlerinde kullanımını araştırıyor." "Kokteyl partisi" sorunu çözüldükçe, AI konuşma tanıma büyük ilerleme sağlayacaktır. Ürün kullanıma sokulduktan sonraki özel performansın hala pazar tarafından test edilmesi gerekmektedir. (Bu makale ilk olarak Titanium Media'da yayınlandı)

[Titanium Media Author: Akıllı görelilik (mikro kanal kimliği: aixdlun), metin / Ke-ming]

Daha heyecan verici içerik için Titanium Media WeChat ID'yi (ID: taimeiti) takip edin veya Titanium Media Uygulamasını indirin

3499 yuan'da Samsungun ilk dört kameralı telefonu Galaxy A9s resmi olarak Çin'de piyasaya sürüldü.
önceki
Eski kocasını iki kez boşayıp yeniden evlendiren, oyunculuk becerileri güzel ama popüler değil. 31 yaşındaki üvey oğlu ondan bile daha popüler.
Sonraki
Iron Throne'un çözülmemiş gizemleri nelerdir, "Game of Thrones" un son sezonu ortaya çıkacak
Sony, algılama uygulamaları için dünyanın ilk CMOS görüntü sensörünü getiriyor
Byton Motors, yerelleştirme stratejisine katkıda bulunuyor: Çin FAW'dan yatırım yapın ve Baidu ve CATL ile el ele verin
Liu Haoranın yeni dramaları ve kadın kahraman 9 yaşında Bahar Şenliği Galasında. Xu Qing, Wang Ou ve Zhang Jia dramayı onlar için tercüme etti.
Snail Games, yeni VR çalışması "Ark Park" sizi Jurassic Park'ı ziyaret etmeye davet ediyor
Her zaman kötü bir başlıkla ertelenen iyi bir film vardır.
Güvenli ve verimli bu düdüklü tencere yedi değerinde
Goldman Sachs AI Dünya Kupası tahmini: Brezilya şampiyonluğu kazandı; pırasalar yerde Araştırma, Bitcoin'in fiyatının geçen yıl manipüle edildiğine inanıyor; MySQL artık resmi olarak belge depolamayı
"Red Velvet" "Haberler" 190328 Red Velvet, bu sabah denizaşırı seyahat için Incheon Havaalanında göründü.
Bakkal + spor pazarlaması, kimin baharı olacak?
"Gençlik Dövüşü" nün merkezi gökyüzünden daha yüksekte, Tang Yan ve Tong Liya için oynadı, ancak 30 yaşında hala popüler değil
Teknik insanlar nasıl zaman harcamalı?
To Top