Şimdiye kadarki en büyük halka açık ses veri seti çevrimiçi, Çin kısmı yeterince güçlü değil, yardımına ihtiyacın var

İçbükey tapınaktan Xiaocha

Qubit Raporu | Genel Hesap QbitAI

Bugün Mozilla, bugüne kadarki en büyük halka açık konuşma veri setini yayınladı Ortak Ses , İçeriğin tamamı gönüllülerin katkılarından geliyor. Toplam süresine ulaşıldı 1368 saatleri , içerir 18 dilde , Hangi da var Çince .

Veri setindeki her öğe bir dizi bağımsız MP3 kaydı ve bunlara karşılık gelen metin dosyalarını içerir.Ayrıca yaş, cinsiyet, aksan vb. Gibi demografik meta verileri de içerir, bu da konuşma tanıma motorunu doğruluğunu artırmak için eğitebilir.

Mozilla, bunun ses teknolojisinde yeniliği ve sağlıklı iş rekabetini teşvik edeceğini umuyor.

nasıl indirilir

Şimdi resmi web sitesine gidin:

https://voice.mozilla.org/zh-CN/datasets

Yukarıya kendi posta kutunuzu doldurun, içerik tar.gz sıkıştırılmış bir paket biçiminde yerel olarak indirilecek ve farklı dillerde indirilebilir.

Bunların arasında en çok materyal içeren İngilizce kısmı, toplam 803 saat ve dosya boyutu 22GB. Bununla birlikte, Çince (Tayvan) şu anda nispeten az malzemeye sahip, sadece 28 saat ve 800MB.

Ancak, Çin anakarasında henüz Çince yayınlanmadı.Amaç 5.000 cümle girmek Şimdi sadece 584 cümle var, bu da hedefin yalnızca% 10'undan fazlasını oluşturuyor. Umarım herkes aktif olarak katkıda bulunur ve mümkün olan en kısa sürede çevrimiçi hale getirir.

Çin veri kümesine katkıda bulunun

Resmi web sitesi, verileri indirmenin yanı sıra ses toplama ve doğrulama seçenekleri de sunar.Bu veri setine kendi gücünüzle katkıda bulunabilirsiniz.

Bilgisayar mikrofonunu ve hoparlörünü açın, ekrandaki cümleye göre cümleyi okuyun ve veri seti için ses materyalini kaydedin. Ayrıca başkalarının kayıtlarını dinleyebilir ve verilerin doğruluğunu kontrol edebilirsiniz.

Çevrimiçi olmayan Çin ana karası için, web sitesinde e-posta adresinizi doldurabilir ve kaynak sağlamak için gönüllü olabilirsiniz.Mozilla ekibi sizi en son gelişmelerden en kısa sürede haberdar edecektir.

Özel

Ortak Ses, ekrandaki metne göre gönüllüler tarafından girilen ses içeriğinden oluşur.

Bazı insanlar sorabilir, sesli kitabın kendisi ses ve metnin karşıtlığını içeriyor, Mozilla Ortak Ses yapmak için neden bu kadar çaba harcıyor?

Çünkü sesli kitapların konuşma tanıma için bir eğitim veri seti olarak bazı sınırlamaları vardır.

Birincisi, yazılı ve sözlü İngilizce çok farklıdır.

İkinci olarak, sesli kitaplar genellikle daha iyi kayıt ekipmanı ve temiz ses içeriğiyle sessiz bir kayıt stüdyosunda kaydedilir. Gerçek hayatta ses ortamı çok karmaşıktır.

Son olarak, okumanın tonu ve ritmi de normal konuşmadan farklıdır.

Diğer konuşma veri kümeleri için öneriler

Mozilla size diğer ses veri setlerini de sağlar, ihtiyacı olan öğrenciler lütfen onları alın.

Sesli Kitap English Corpus LibriSpeech :

https://www.openslr.org/12

TED konuşma külliyatı TED-LIUM :

https://www.openslr.org/51/

Konuşma dökümü külliyat VoxForge :

Geniş çeviri ve sözlü ses veritabanı Tatoeba :

https://tatoeba.org/eng/downloads

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin
Programcı ne kadar güçlü? Bu Japon tek başına 16 oyunu destekledi ve 23 yıldır popüler!
önceki
Kayıp yüz! Ünlü teknik direktör Premier Lig'e 4 gol mağlubiyetiyle dönüyor ve Süper Lig'in onu kovması mantıklı geliyor
Sonraki
Dünyanın en karlı mobil oyunu olan 2018'de Tencent birinci, NetEase ikinci ve Blizzard yalnızca üçüncü oldu!
Liaoning davalının son düzenini tamamladı. Guangdong, jiuding'i suçladı. Veriler Guangdong Liao veya Şampiyonanın
AI çerçeve uzmanı Jia Yangqing, Alibaba Silikon Vadisi Araştırma Enstitüsü'ne Başkan Yardımcısı olarak katılmak için Facebook'tan ayrıldı
Trident Amca çok güçlü, ancak çok sakin ve Premier Lig şampiyonunun ilk turdaki potansiyelini gösteriyor.
World of Warcraft Warlock'un en parlak versiyonu! Grup içgüdüsel olarak bir tank olarak oynadı, şimdi kalıcı bir hafıza haline geldi
Doncic'ten daha az All-Star oyu var, Harden umursamıyor ve New York 40+ ile açıldı
16 ardışık zafer! Çin profesyonel futbolundaki en uzun galibiyet serisi tekrar yenilendi
Dünyanın ilk dört ayaklı robot ters takla! MIT Mini Cheetah yeni beceriler sergiliyor
Ağlıyor musun? Bu Steam oyun markası çılgınca çömeldi ve Tencent tek seferde 5 oyun için başvurdu!
2 şut 2 gol attı, bir başka Süpermen kanat oyuncusu Premier Lig'de doğdu
Yao Ming, CBA'nın gelecekteki genişlemeyi düşündüğünü ve Shenzhen'in 2020 All-Star Maçına ev sahipliği yapacağını açıkladı
Zafer Kralı 2,9 metreden çıktı mı? Oyuncu: Tianmeinin vicdanı ne olacak, sadece bunu sizin için yapın?
To Top