g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Şimdiye kadarki en büyük halka açık ses veri seti çevrimiçi, Çin kısmı yeterince güçlü değil, yardımına ihtiyacın var

İçbükey tapınaktan Xiaocha

Qubit Raporu | Genel Hesap QbitAI

Bugün Mozilla, bugüne kadarki en büyük halka açık konuşma veri setini yayınladı Ortak Ses , İçeriğin tamamı gönüllülerin katkılarından geliyor. Toplam süresine ulaşıldı 1368 saatleri , içerir 18 dilde , Hangi da var Çince .

Veri setindeki her öğe bir dizi bağımsız MP3 kaydı ve bunlara karşılık gelen metin dosyalarını içerir.Ayrıca yaş, cinsiyet, aksan vb. Gibi demografik meta verileri de içerir, bu da konuşma tanıma motorunu doğruluğunu artırmak için eğitebilir.

Mozilla, bunun ses teknolojisinde yeniliği ve sağlıklı iş rekabetini teşvik edeceğini umuyor.

nasıl indirilir

Şimdi resmi web sitesine gidin:

https://voice.mozilla.org/zh-CN/datasets

Yukarıya kendi posta kutunuzu doldurun, içerik tar.gz sıkıştırılmış bir paket biçiminde yerel olarak indirilecek ve farklı dillerde indirilebilir.

Bunların arasında en çok materyal içeren İngilizce kısmı, toplam 803 saat ve dosya boyutu 22GB. Bununla birlikte, Çince (Tayvan) şu anda nispeten az malzemeye sahip, sadece 28 saat ve 800MB.

Ancak, Çin anakarasında henüz Çince yayınlanmadı.Amaç 5.000 cümle girmek Şimdi sadece 584 cümle var, bu da hedefin yalnızca% 10'undan fazlasını oluşturuyor. Umarım herkes aktif olarak katkıda bulunur ve mümkün olan en kısa sürede çevrimiçi hale getirir.

Çin veri kümesine katkıda bulunun

Resmi web sitesi, verileri indirmenin yanı sıra ses toplama ve doğrulama seçenekleri de sunar.Bu veri setine kendi gücünüzle katkıda bulunabilirsiniz.

Bilgisayar mikrofonunu ve hoparlörünü açın, ekrandaki cümleye göre cümleyi okuyun ve veri seti için ses materyalini kaydedin. Ayrıca başkalarının kayıtlarını dinleyebilir ve verilerin doğruluğunu kontrol edebilirsiniz.

Çevrimiçi olmayan Çin ana karası için, web sitesinde e-posta adresinizi doldurabilir ve kaynak sağlamak için gönüllü olabilirsiniz.Mozilla ekibi sizi en son gelişmelerden en kısa sürede haberdar edecektir.

Özel

Ortak Ses, ekrandaki metne göre gönüllüler tarafından girilen ses içeriğinden oluşur.

Bazı insanlar sorabilir, sesli kitabın kendisi ses ve metnin karşıtlığını içeriyor, Mozilla Ortak Ses yapmak için neden bu kadar çaba harcıyor?

Çünkü sesli kitapların konuşma tanıma için bir eğitim veri seti olarak bazı sınırlamaları vardır.

Birincisi, yazılı ve sözlü İngilizce çok farklıdır.

İkinci olarak, sesli kitaplar genellikle daha iyi kayıt ekipmanı ve temiz ses içeriğiyle sessiz bir kayıt stüdyosunda kaydedilir. Gerçek hayatta ses ortamı çok karmaşıktır.

Son olarak, okumanın tonu ve ritmi de normal konuşmadan farklıdır.

Diğer konuşma veri kümeleri için öneriler

Mozilla size diğer ses veri setlerini de sağlar, ihtiyacı olan öğrenciler lütfen onları alın.

Sesli Kitap English Corpus LibriSpeech :

https://www.openslr.org/12

TED konuşma külliyatı TED-LIUM :

https://www.openslr.org/51/

Konuşma dökümü külliyat VoxForge :

Geniş çeviri ve sözlü ses veritabanı Tatoeba :

https://tatoeba.org/eng/downloads

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

Programcı ne kadar güçlü? Bu Japon tek başına 16 oyunu destekledi ve 23 yıldır popüler!

Kayıp yüz! Ünlü teknik direktör Premier Lig'e 4 gol mağlubiyetiyle dönüyor ve Süper Lig'in onu kovması mantıklı geliyor

: Dünyanın en karlı mobil oyunu olan 2018'de Tencent birinci, NetEase ikinci ve Blizzard yalnızca üçüncü oldu!

: Liaoning davalının son düzenini tamamladı. Guangdong, jiuding'i suçladı. Veriler Guangdong Liao veya Şampiyonanın

: AI çerçeve uzmanı Jia Yangqing, Alibaba Silikon Vadisi Araştırma Enstitüsü'ne Başkan Yardımcısı olarak katılmak için Facebook'tan ayrıldı

: Trident Amca çok güçlü, ancak çok sakin ve Premier Lig şampiyonunun ilk turdaki potansiyelini gösteriyor.

: World of Warcraft Warlock'un en parlak versiyonu! Grup içgüdüsel olarak bir tank olarak oynadı, şimdi kalıcı bir hafıza haline geldi

: Doncic'ten daha az All-Star oyu var, Harden umursamıyor ve New York 40+ ile açıldı

: 16 ardışık zafer! Çin profesyonel futbolundaki en uzun galibiyet serisi tekrar yenilendi

: Dünyanın ilk dört ayaklı robot ters takla! MIT Mini Cheetah yeni beceriler sergiliyor

: Ağlıyor musun? Bu Steam oyun markası çılgınca çömeldi ve Tencent tek seferde 5 oyun için başvurdu!

: 2 şut 2 gol attı, bir başka Süpermen kanat oyuncusu Premier Lig'de doğdu

: Yao Ming, CBA'nın gelecekteki genişlemeyi düşündüğünü ve Shenzhen'in 2020 All-Star Maçına ev sahipliği yapacağını açıkladı

: Zafer Kralı 2,9 metreden çıktı mı? Oyuncu: Tianmeinin vicdanı ne olacak, sadece bunu sizin için yapın?

yeterli değil

g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Şimdiye kadarki en büyük halka açık ses veri seti çevrimiçi, Çin kısmı yeterince güçlü değil, yardımına ihtiyacın var

nasıl indirilir

Çin veri kümesine katkıda bulunun

Özel

Diğer konuşma veri kümeleri için öneriler

İlgili bilgi

Bu Çinli erkek futbol takımı, Asya Oyunları'nın ilk yarısında ev sahibi tarafından dört gol attı ve iki maç kaybetti veya eve erken gitti.

Oyuncuları kurtarmak için Blizzard'ın savaşması gerekiyor! Eklentiyi oyuna gerçekten koydunuz mu? Oyuncu: Ölümcül!

Jeremy Lin sorunsuz bir şekilde entegre oldu, Raptors'a katılmak hile yapmak gibi geliyor, baş antrenör biraz memnun değil

Juventus ilk çıkışını sadece 8 dakikada yaptı ve Ronaldo, Apennines savunucusunu şimdiden titretmeye başladı.

"Overwatch" yeni kahraman becerileri ortaya çıktı: geliştirilmiş sürüm 76, hatta "kan kilidi" ile birlikte geliyor!

CBA'nın son sekiz turunda üç gerilim var, ilk takım şoklarla karşı karşıya, Pekin arkadan geliyor veya yarı finale çıkıyor

LOL: Timothy Ordusu geliyor mu? Test sunucusu neredeyse yeniden işlendi ve beceriler daha da iğrençti

En popüler dil programcıları hangileridir? İşe alım web sitesi verileri, Python'un ilk beşte olmadığını söylüyor

Bundesliga'nın ikinci turu ikinci tura girdi ve Hamburg ilk tur yenilgisinin pusunu ortadan kaldırmak için deplasman zaferi kullandı.

Şampiyon iki yıl üst üste erken çıktı, Çinli Kübalı kan yapmak için çok çalıştı ve Sichuan, Hongyuan'ın modelinden öğrendi.