"Görüntü" oluşturmak için sesi kullanmak, akıllı ses ticari uygulamaların inişini nasıl hızlandırabilir?

Lieyun.com Beijing 31 Ekim'de bildirildi (Lu Meng tarafından)

Çoğu insan için, konuşma sentez teknolojisinin (TTS, Text-To-Speech) en yaygın kullanımı Zhiling'in kız kardeşinin Gaode haritası üzerindeki trafik yayınının sesidir. Temel sabit cümleleri orijinal sese kaydettikten sonra, makine, insanın doğal dili anlama sürecini simüle eder ve ardından sentezlenmiş konuşma için segment özelliklerini planlar, böylece sentezlenmiş konuşmanın anlamı doğru bir şekilde ifade edebilir ve son olarak konuşma çıktısı gerçekleştirilir. Tüm süreç " Kodlama, bilgi eşleştirme ve kod çözme ".

Araç içi sesli navigasyona ek olarak, konuşma sentezi teknolojisi artık sesli okuma gibi anlamlı ses gerektiren sahnelerde de kullanılmaktadır.

Bu yılın Ocak ayında, CCTV insan sesi dublajını simüle etmek için TTS teknolojisini kullanan ilk belgesel "Yenilikçi Çin" i yayınladı. Sesin sahibi, Çin'deki son derece ünlü spiker, seslendirme sanatçısı ve dil sanatçısı Li Yi'dir. "Yangtze Nehri'nden Bahsetmek", "Daming Sarayı Ci", "Güzel Çin", "İnsan Gezegeni" ve "Göçmen Kuşlar" gibi birçok belgesele seslendi. Yapay zeka, konuşma sentez teknolojisi sayesinde Li Yi'nin sesini başarıyla simüle etti ve belgeselin dublajını tamamladı.

Makinenin orijinal mekanize konuşmasından kurtulmanın ve gerçek bir insan gibi son derece duygusal olarak ifade edici bir sese sahip olmanın, sadece konuşma sentez teknolojisinin gelişim yönü değil, aynı zamanda zorluklardan biri olduğu da görülebiliyor - benzer şekilde, çeşitli konuşma sentez teknolojilerini de test ediyor. Veri servis sağlayıcısı.

Akıllı ses etkileşimi için sahnenin önemi ortadadır. Sese daha fazla ifade ve kişiselleştirme kazandırabilen herkes, teknolojiyi standartlaştırılmamış senaryolara uyarlayabilir ve akıllı ses pazarının geleceğini kazanabilir. Son yıllarda, teknoloji devleri konuşma sentezi için kendi "özelleştirilmiş" çözümlerini arka arkaya başlattılar.

Nisan 2017'de Google, Kanada'daki Montreal Üniversitesi tarafından kurulan Yapay Zeka Laboratuvarı'nda (MILA) Lyerbird'ü kurdu. Kuruluşunun başında Lyerbird, bir dakika içinde konuşan herkesi taklit edebilecek bir dizi ses örneği başlattı. Sistem; Microsoft, bu yılın Mayıs ayında düzenlenen Build 2018 konferansında, sesi simüle edebilen ve simülasyon etkisini çevrimiçi olarak test edebilen genel bulut platformunda özel ses sentez hizmeti ürünü Custom Voice'u piyasaya sürdü.

HKUST Xunfei, geçen yıl Kasım ayında Çin'de "Xunfei Leosheng" adlı bir test sürümünü de piyasaya sürdü. İFLYTEK'in kişisel seslerin yeniden üretimini tamamlamak için yalnızca 10 cümlelik ses toplamasına ihtiyacı olduğu ve koleksiyon hacminin endüstri ortalamasının (Microsoft'un 500 cümlesinden ve sektörün 1.000 cümlesinden çok daha düşük) yalnızca yüzde biri olduğu bildirildi.

Neredeyse bin saatlik ses verisi birikimi, çeşitlendirilmiş bir "ses süpermarketi" yaratıyor

Şubat 2016'da kurulan Biaobei Technology gibi bazı başlangıç şirketlerinin de TTS alanında düzeni var.

Tüm konuşma endüstrisi zincirinde, Biaobei Teknolojisi konuşma sentezi teknolojisi ve konuşma verileri sağlar , Bunların arasında, yüksek teknolojili konuşma sentezi, konuşmacı seçimi, derlem tasarımı, konuşma toplama, veri işleme ve derin konuşma işleme adımlarını içerir.

Biaobei Technology'nin kurucu ortağı Li Xiulin, Lieyun.com'a verdiği röportajda, "Teknoloji devlerinin ileri teknoloji keşif yetenekleri var. Başarılarına saygı duyuyor ve akademik çıktılarına katılıyoruz. Ancak akademikten sektöre Uzun bir mesafe var ve bazı şeyler her zaman kağıt üzerinde kalacak. Bir startup şirketinin avantajı, mühendislik kabiliyetinde ve ürün yönetiminde yatıyor. Teknolojik dönüşümümüz sayesinde, belirli uygulama düzeyinde sürekli olarak iyileştiriliyor. "

Önce akıllı müşteri hizmetleri ile kullanıcı arasındaki konuşmayı dinleyelim:

Bu Mayıs 2018 Biaobei Technology'nin akıllı müşteri hizmetleri için konuşma sentezi teknolojisi çözümü . Li Xiulin, müşteri hizmetleri alanındaki sıkıntı noktalarının çok açık olduğuna inanıyor: "Örneğin, birçok büyük şirket genellikle on binlerce insan müşteri hizmetine sahip ve hatta bazıları her gün ülkenin her yerinden milyonlarca çağrı alıyor. Bir yandan şirketin maliyeti artıyor, diğer yandan, İşlerinin doğası gereği, müşteri hizmetleri personeli genellikle muazzam bir duygusal baskı altındadır. "

Bu aynı zamanda müşteri hizmetleri personelinin genellikle uzun bir eğitim döngüsüne ihtiyaç duymasına neden olur ve zaman zaman zayıf pazarlama etkileri ve yüksek personel devri gibi sorunlar ortaya çıkar.

Çin İşletme Veri Raporunun istatistiklerine göre, son yıllarda Çin'deki KOBİ sayısı ayda 300.000 oranında arttı. 2019 yılına kadar ülke genelindeki küçük ve orta ölçekli işletme sayısının 39,4 milyona ulaşacağı tahmin edilmektedir. Yerli KOBİ sayısının hızla artmasıyla birlikte yurt içi müşteri hizmetleri pazarı hala büyüme trendi gösteriyor.Bunlardan çağrı merkezi ve online müşteri hizmetleri pazar büyüklüğü 2019 yılında sırasıyla 132,7 milyar ve 78,8 milyara ulaşacak.

Böylesine büyük bir pazar büyüklüğü ile karşı karşıya kalan Li Xiulin, işgücünün yerini almak için akıllı müşteri hizmetlerini kullanan şirketler için ekonomik getirinin açıkça görülebileceğine inanıyor Konuşma sentezi teknolojisi bu çalışmanın temel içeriğini "rekabet edebilir" ise, akıllı müşteri hizmetleri aracılığıyla çok sayıda tekrarlayan ve standartlaştırılmış sesli diyalog içeriği tamamlanarak işletmenin işçilik maliyetini büyük ölçüde azaltabilir. .

Ayrıca, günümüz bilgi toplumunda işletmeler ve kullanıcılar arasındaki iletişimin önemli bir parçası olan müşteri hizmetleri, işletmenin genel imajını doğrudan etkilemektedir. Bu bakımdan işletmeler, müşteri hizmetleri merkezlerinin kurulmasına ve eğitimine her geçen gün daha fazla önem veriyor.

"Özellikle bildirim türü içerik veya şirketlerin çevrimiçi müşteri hizmetleri promosyonu yoluyla ürünleri tanıttığı senaryo nispeten açıktır, yani konuşma sentezi teknolojisinin uygulanması için iyi bir yol sağlayan 'konuşun', 'dinleyin' ve 'yanıtlayın'. Fırsat, "Li Xiulin, Lieyun.com'a söyledi.

Aynı teknoloji ile, TTS'nin nihai sonucu doğru, zengin ve yüksek kaliteli ses eğitimi verilerinden ayrılamaz. Genel olarak, ön hazırlıklar, insanları bulma, kayıt mekanları bulma, kayıt, veri tarama ve etiketlemenin "kullanılabilir veri" haline gelmesi en az 3 ayı bulabilir.

Biaobei Technology'nin yüksek kaliteli sesler yaratmak ve kullanıcıların beğenilerini sese "yapışkanlık" oluşturmalarını sağlamak için erken aşamada zengin bir külliyat tasarlaması, çok sayıda seslendirme sanatçısıyla iletişim kurması, ses koleksiyonunu tamamlamaları için onlara rehberlik etmesi ve ardından sesin derinlemesine işlenmesi gerekiyor.

Geleneksel külliyat veri işleme yöntemi, çok fazla insan gücü gerektiren manuel hassas standardizasyondur.Biaobei Technology, derin öğrenme teknolojisini bilgisayar programları aracılığıyla ön işleme tabi tutmak ve ardından manuel olarak düzeltmek için kullanır, bu da iş verimliliğini büyük ölçüde artırır ve veri işlemeyi garanti eder. doğruluk.

Biaobei Technology, kuruluşundan bu yana geçen iki yıl içinde, metin ve ses dahil olmak üzere birden çok türde külliyat verisi topladı ve birçok İnternet devinin AI ürünleri için çok sayıda veri hizmeti sağladı.

Bu konuşma sentezi teknolojisi çözümlerinde, Biaobei'nin ekibi ayrıca yüksek kaliteli ses aktörlerinin kaynaklarını özellikle araştırdı, optimize etti ve ardından demolar yaptı. "Bu, müşterinin tarzını karşılamak için müşteri hizmetleri sistemi için bir dizi sentetik konuşma çözümünü özelleştirmeye eşdeğerdir. ", Li Xiulin dedi, Müşteriler, kendi ihtiyaçlarına göre standartlaştırılmış veya özelleştirilmiş ürünler ve senaryolar seçebilir.Biaobei, profesyonel topluluk aracılığıyla müşteri hizmetleri sentezi konuşma kitaplığı oluşturacak, müşterilere API arayüzleri ve diğer teknik yerleştirme yöntemleri sunacak ve kurumsal sistemlerle bağlantı kurduktan sonra kullanıcıları birden çok kanaldan otomatik olarak arayacaktır. .

Farklı kullanım senaryolarına göre, Biaobei'nin akıllı müşteri hizmetleri sistemi, işletme hizmetleri, finansal sigorta, eğitim ve öğretim, e-ticaret lojistiği, İnternet iletişimi ve gayrimenkul mülkleri dahil olmak üzere sektörlerde satış sonrası, soru-cevap, kayıt, aktif giden aramalar, ödeme tahsilatı ve pazarlamada kullanılmaktadır. Sabit telefonlarda ve mobil cihazlarda promosyon ve diğer hizmetler için hedeflenen çözümler vardır.

"Konuşma sentez teknolojisinin anlamlı ve insancıl olduğunu her zaman vurgulamıştım. Her sesin kendi görüntüsü vardır. Kullanıcıları yapışkan hale getirebilir." Li Xiulin, "Bu nedenle, 'I sesini de başlattık' dedi. Süpermarket ', zengin koleksiyonumuz aracılığıyla, farklı şirketler için farklı özelleştirme ihtiyaçlarını çözüyor. "

Lieyun.com'dan alınan verilere göre, Özelleştirilmiş ses veritabanı açısından, Biaobei Technology, kullanıcılara 150 saatlik Çinli kadın duygusal ses veritabanı, 350 saatlik Çinli kadın ses veritabanı, 100 saatlik erkek ses veritabanı, 80 saatlik Kanton fonetik veritabanı ve 50 saatlik Amerikan kadın sesi sağladı. Ses kütüphanesi, 40 saat ToBI ses kütüphanesi, 40 saat taklit çocuk ses kütüphanesi, 30 saat çocuk ses kütüphanesi, 20 saat Portekizce ses kütüphanesi, 20 saat Tayvan Mandarin ses kütüphanesi, 10 saat Japonca, 10 saat Korece, 20 saat ünlü ses kütüphanesi vb. , Ses kitaplığı hala zenginleştiriliyor ve biriktiriliyor .

Biaobei Technology aynı zamanda kendi ses kitaplığını, Çin erkek ve kadın seslerini, Amerikan erkek ve kadın seslerini, çocukları, Kantonca, Tayvanca, Japonca, Korece vb. Ve kişiselleştirilmiş ses kitaplıklarını da sağlar.Müşterilerin çoğu artık genel çözümü doğrudan kullanabilir.

Li Xiulin, 2015 yılında Baidu'daki görev süresi boyunca, Baidu Roman Kanalı'nda uzmanlaşarak duygusal sentez üzerine bir proje geliştiren bir ekibe liderlik etti.Sadece yaklaşık yarım yılda, konuşma sentezi işleme verimliliği ve sentez etkisi konusunda büyük bir atılım yaptı. 2016 yılında, Didi Araştırma Enstitüsü'nün ses ekibinin başkanı ve baş algoritma mühendisi olarak Didi'ye katıldı ve Didi'nin seyahat alanıyla ilgili ses hizmetlerini geliştirmesine yardımcı oldu.

Konuşma sentez teknolojisi alanındaki on yılı aşkın deneyimini birleştiren bu endüstri pratisyeni, mevcut akıllı müşteri hizmeti olan "şikayet" in yapay zeka ile değiştirilmesinin daha zor olduğunu da kabul etti. "Genel olarak, müşteri şikayetleri duygusaldır ve dil ifadesi kaotik ve dağınıktır ve makine tanımada hala belirli bir zorluk vardır," ancak Li Xiulin "çekirdeğin TTS'nin kısıtlaması değil, NLP'nin kısıtlanması" olduğuna inanıyor.

NLP, bilgisayarların doğal dilin şeklini, sesini ve anlamını, yani karakterlerin, kelimelerin, cümlelerin ve metinlerin girdi, çıktı, tanıma, analiz ve anlaşılmasını işlemek için kullanılmasını ifade eden Natural Language Process (NLP) anlamına gelir. , Üretim vb. İşlem ve işleme süreci.

Eksiksiz bir ses etkileşim süreci, akustik işleme, konuşma tanıma, anlamsal anlama ve konuşma sentezi gibi temel teknolojileri içeren çok karmaşık bir teknik zincir içerir. Temel akustik ve konuşma tanıma, bilgisayarın "işitme" sorununu çözerken, NLP, bilgisayarın "anlama" sorununu çözmektir.

Li Xiulin, NLP teknolojisindeki "kelime anlamındaki belirsizlik giderme" den ayrılmaz olan müşteri hizmetleri "şikayeti" ndeki dağınık ve karışık dil ifadesinden bahsetti.

Makinenin kelimeleri kestikten, konuşmanın bir bölümünü işaretledikten ve tanıdıktan sonra her kelimeyi anlaması gerekir. Dilde genellikle birden fazla anlam olduğundan, insanlar anlayışlarını mevcut bilgi ve bağlama dayandıracaklardır, ancak makinelerin bunu yapması zordur. Sistem, cümle üzerinde sözdizimsel analiz yapacak, bu da makinenin kelimelerin anlamını ve anlamını belli bir dereceye kadar anlamasına yardımcı olabilir, ancak gerçek durum ideal değildir. Bu nedenle, birden fazla etkileşim ve duygusal rahatlık gerektiren karmaşık sorunlar için akıllı müşteri hizmetleri şu anda manuel müşteri hizmetlerinin yerini alamaz.

Ek olarak, akıllı hoparlör ürünleri de Biaobei Technology'nin iş yönlerinden biridir. Bu yılın Ağustos ayında, Setaria Intelligent Technology, Gowild yapay zeka sanal yaşam motoru (GAVE) ve holografik projeksiyon teknolojisine dayanan HE amber akıllı hoparlörü piyasaya sürdü.Bunlardan, şarkı söyleyebilen, dans edebilen ve sohbet edebilen "Bayan Amber" in sesi Biaobei TTS teknolojisi ile destekleniyor. Sağlanan.

"Kişiselleştirilmiş sesin çok değerli bir yön olduğunu düşünüyorum. Her sesin kendine has özellikleri var. Farklı markalar, şirketler ve servis sağlayıcılar farklı senaryolara ve ürün özelliklerine göre farklı sesler kullanacak ve bu ses ' Benzersiz bir görüntü oluşturmak için, kullanıcıların sese bir "yapışkanlık" oluşturmayı sevdikleri yüksek kaliteli bir ses oluşturmak için Biaobei Teknolojisi, veri etiketleme sürecinin her adımını sıkı bir şekilde kontrol eder. Li Xiulin, "yapay zekanın yalnızca yapamayacağına inanır. Basit ek açıklamalar iyi işlenir ve sonraki sentez, doğruluğu artırmak için teknik yollarla geliştirilebilir ve nihayet gerçek insan sesine yakın hale getirilebilir. "

"Ses" ile çok sahneli sesli etkileşim deneyimini keşfetmek için "Bugünün Hızlı Dinlemesi" başlatıldı

Bilgiye yönelik ödemelerin artmasıyla birlikte sesli kitapların gelişimi de hızlı çizgiye girmiştir.Kullanıcılar coğrafi konumdan bağımsız olarak cep telefonları, akıllı hoparlörler vb. Aracılığıyla her türlü haber ve sesli içeriği dinleyebilmektedir. Bu nedenle, konuşma sentezi hizmetlerine ek olarak, kullanıcıların konuşma sentez teknolojisini mümkün olan en kısa sürede deneyimlemelerini sağlamak için Biaobei Technology, konuşma sentez teknolojisine dayalı küçük bir program da geliştirmiştir Teknoloji haberlerini yayınlamak için "Bugün Dinleyin" .

Şu anda, QuickListen Mini Programı birçok yerli teknoloji medyasına gerçek zamanlı olarak bağlanmıştır. Her sabah 6: 30'da başlayarak, en son teknoloji, finans, sosyal etkin noktalar ve günün diğer haberleri gerçek zamanlı olarak güncellenecek. İşe gidip gelme süresi boyunca, kullanıcılar sıcak haberleri dinlemek için bölünmüş zamanı tam olarak kullanabilir.

Bu küçük programın arayüzü esas olarak siyahtır ve mor-kırmızı gradyan dekoratif renk olarak kullanılır. Ana arayüzde, büyük mor-kırmızı gradyan çemberi ve alttaki küçük daire merkez eksende yukarı ve aşağı düzenlenmiştir. Alttaki 5 düğme simetrik olarak dağıtılmıştır, bu da basit, hafif ve teknoloji dolu. Aynı zamanda Çin estetik unsurlarını da bünyesinde barındırmaktadır.

Ana arayüzün alt kısmında yorum, paylaşım ve ses seçimi için üç düğme vardır Sol ve sağ düzenleme kullanıcının tek elle çalışmasını tatmin edebilir.

Bunlar arasında, "yorum" butonu mini programın pürüzsüzlüğüne, sesine, içeriğine, arayüzüne ve diğer yönlerine göre yorum yapabilir veya önerilerde bulunabilir, "paylaş" yoluyla mini programı WeChat arkadaşlarına tavsiye edebilir veya yayılması için resimler şeklinde kaydedebilirsiniz; "Ses Seç" düğmesi, kullanıcının erkek ve kadın sesleri için ses yayınlama alışkanlığını tatmin eder.

"Ses endüstrisi her zaman yapay zekanın tipik bir teknik alanı olmuştur. On yıldan fazla bir süredir çalışıyoruz ve herkes hala bir 'sesli teknoloji' olduğunu iddia ediyor. Şirket olmak için, iyi olduğunuz alanda sağlam bir iş yapmanız gerekir, sıcak noktaları kovalamak değil. Değişecek ve iyi yaparsanız, birçok yeni etkin noktaya da ilham verebilirsiniz. Li Xiulin, Lieyun.com'a ekibin konuşma sentez teknolojisinin daha fazla senaryosunu da keşfedeceğini söyledi." Yeni kurulan şirketlerin teknolojisi çok hızlı bir şekilde yineleniyor, belki Birkaç ay içinde, endüstri çözümlerinde iyi bir iş çıkardık. Sonra, ticari pazarı açmak için satışa ihtiyacımız var ve teknik ekip, içerik üretimi gibi bir sonraki adıma geçecek, bazı hazırlıklar yapıyor. "

Pandaları aydınlatmak, lezzetli yemekler yemek, yeşil yolları ziyaret etmek ve ilk mağazayı satın almak. Chengdu'da "baharı keşfetmeye" davetlisiniz!
önceki
Chengdu yaya geçidinin yakınında birkaç kelime daha vardı ve onu takip etmeyen araç sahipleri ve yayalar para cezasına çarptırıldı
Sonraki
Apple'ın ARKit'ine yanıt olarak, artık Google Android kampında da ARCore var
Apple'ın ARKit'i geliyor ve Google'ın karşı saldırısı bu!
"İlk sayı" AI, yeni medya hassas pazarlamasına yardımcı oluyor, Youfanba, Seri A finansmanında on milyonlarca yuan aldı
Mezarları süpüren Ming Hanedanlığı yaklaşıyor, Guanghan'daki 100'den fazla öğretmen ve öğrenci barışı koruma görevlilerinin mezarlarını ziyaret ediyor
Artık aşkın beklemesine izin verme! Gelin ve ailenizle Texas Grand Theatre'da Pekin Operası izleyin
Neden ülke tanrılar tarafından havaya uçuruldu ve yabancı puanlar en altta? Wu Lei'nin gol atamaması bir kusur
Harris, 76ers maçından önce arenaya bir kitapla giriyor
Neden Audi A8'e aşık oluyorsunuz? Bu araba ses sistemi
Yerli takımın süper mutlu ses oyunu "Muse Dash" in beyin deliği
Yerden 5 metre yüksekte çatıda 92 yaşındaki prensese sarıldı ve tam not aldı!
Retro film: 8mm kamera
Adam sessizce itfaiyecilere hediyeler verdi, ne oldu?
To Top