Kuru gıda toplama! Üç alanda yaygın olarak kullanılan on açık kaynak veri kümesi

Makine öğreniminin araştırılması ve uygulanması büyük veri olmadan yapamaz. Genel açık kaynak veri setini bilmek, bir yandan kendi algoritmanızı doğrulayabilir ve diğer yandan diğer algoritmalarla karşılaştırabilir. Bu makale, referansınız için bilgisayar görüşü, doğal dil işleme ve konuşma tanıma gibi üç ana alanda, kesinlikle toplamaya değer on açık kaynak veri setini tanıtıyor!

Bilgisayar görüşü

MNIST

MNIST veri seti, Ulusal Standartlar ve Teknoloji Enstitüsü'nden (NIST) gelir. Eğitim seti,% 50'si lise öğrencisi ve% 50'si Sayım Bürosu personelinin oluşturduğu 250 farklı kişiden el yazısıyla yazılmış sayılardan oluşmaktadır. Test seti de elle yazılmış dijital verilerle aynı orandır.

Bağlantı:

CIFAR 10

CIFAR-10 veri seti, 10 sınıfta 60.00032x32 renkli görüntüden oluşur ve her sınıfta 6.000 görüntü bulunur. 50.000 eğitim görüntüsü ve 10.000 test görüntüsü vardır. Veri seti beş eğitim grubuna ve bir test grubuna bölünmüştür ve her grupta 10.000 görüntü vardır. Test grubu, her kategoriden tam olarak rastgele seçilmiş 1000 resim içerir. Eğitim grupları kalan görüntüleri rastgele sırada içerir, ancak bazı eğitim grupları bir kategoriden diğerine göre daha fazla görüntü içerebilir. Toplamda, beş eğitim setinin toplamı her sınıftan 5000 görüntü içeriyor.

Bağlantı: https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

Görüntü işleme endüstrisindeki en ünlü görüntü veri setlerinden biri.Genel olarak, sadece alt veri setleri kullanılabilir. ImageNet veri kümesi, bilgisayar görüntü tanıma teknolojisinin gelişimini desteklemek için oluşturulmuş büyük ölçekli bir görüntü veri kümesidir. En fazla sayıda resme, en yüksek çözünürlüğe, daha fazla kategoriye ve binlerce resim kategorisine sahiptir. ImageNet proje organizasyonu her yıl birçok görüntü tanıma modelinin doğmasını sağlayacak olan ImageNet büyük ölçekli görsel tanıma yarışması düzenleyecektir.

Bağlantı:

Görsel Genom

100 bin görüntüden oluşan derin altyazılı çok detaylı görsel bilgi tabanı. ImageNet veri seti ile karşılaştırıldığında, bu veri setindeki her bir resimde bulunan bilgiler daha zengindir Nesneler ve öznitelikler arasındaki ilişkiye açıklama eklemek bu veri setinin özüdür. Görsel Genom veri seti, Microsoft COCO'nun görüntü kitaplığını kullanır ve bu 100.000 görüntüyü son derece zengin ayrıntılarla açıklar.

Bağlantı:

NLP

WikiText

WikiText Uzun Vadeli Bağımlılık Dil Modelleme Veri Kümesi (WikiText Uzun Süreli Bağımlılık Dil Modelleme Veri Kümesi), Wikipedia'nın yüksek kaliteli makalelerinden ve WikiText-2 ve WikiText- Tanınmış Penn Treebank (PTB) eşanlamlılar sözlüğündeki kelime sayısı ile karşılaştırıldığında, 103 iki versiyondaki kelime sayısı öncekinin iki katı ve ikincisinin 110 katıdır. Her kelime dağarcığı aynı zamanda kelime dağarcığını üreten orijinal makaleyi de muhafaza eder, bu özellikle doğal dil modellemesi için uzun vadeli bağımlılığın gerekli olduğu senaryolar için uygundur.

Bağlantı:

Tayfa

SQuAD, Stanford Üniversitesi tarafından 2016 yılında başlatılan bir veri setidir. Okuduğunu anlama veri setidir.Bir makale verildiğinde, ilgili soruyu hazırlamak, sorunun cevabını verecek bir algoritma gerektirir. Bu veri kümesindeki tüm makaleler Wikipedia'dan seçilmiştir ve veri kümesinin boyutu, diğer veri kümelerinden (örneğin, WikiQA) onlarca kat daha fazladır. Toplam 107.785 soru ve 536 destekleyici makale var.

Bağlantı: https://rajpurkar.github.io/SQuAD-explorer/

UCInin Spambase

UCI'den klasik spam e-posta veri seti. Bu, spam filtreleme için büyük bir spam veri kümesidir.

Bağlantı: https://archive.ics.uci.edu/ml/datasets/Spambase

ses

LibriSpeech

Bu veri seti, yaklaşık 1000 saatlik İngilizce konuşma içeren büyük bir külliyattır. Veriler, LibriVox projesinin sesli kitaplarından gelir. Doğru şekilde segmentlere ayrılmış ve hizalanmıştır.Başlangıç noktası arıyorsanız, hazırlanan akustik modellere göz atın Bu modeller kaldi-asr.org ve dil modelleri üzerinde eğitilmiş ve değerlendirmeye uygundur.

Bağlantı:

2000 HUB5 İngilizce

Yalnızca İngilizce ses verilerini içerir. En son kullanıldığı zaman Baidu'nun derinlemesine konuşma kağıdıydı.

Bağlantı: https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

Aksanlı İngilizce ile net konuşma verileri seti. Farklı vurguları ve tonlamaları tanımak için güçlü bir yeteneğiniz olması gerekiyorsa, bu daha kullanışlı olacaktır ve sistemin sağlamlığını artırabilir.

Bağlantı:

Pekin-Seattle uçuşunun motor arızası: askeri üsse acil iniş
önceki
Luo Luo'nun çekiç telefonu nasıl yılda N kez "ölü" oldu?
Sonraki
İki Şarkı bir araya geliyor, hala tek bir yüzünüz var mı?
Günümüzün temel sesi | yeni iPhone tasarım pozlama üç kameralı tasarım görülmeye değer
Yüzleşmeden entegrasyona, size R + Python'dan tam olarak yararlanmayı öğretin!
Yeni finansman turu Alibaba'nın lider yatırımını kazandı Akıllı projeksiyonun ilk payı doğmak üzere mi?
Neden boyutsal bir felaket var? Nasıl çözülür?
Zhejiang, dünya çapında bir şehir kümesi oluşturmak için Yangtze Nehri Deltası'nın entegre gelişimini şiddetle teşvik ediyor
70 yıl önce bugün, Halk Kurtuluş Ordusu, Peiping'i şehre girmek için bir tören düzenledi ve bu değerli eski fotoğrafları bıraktı!
UC ağ diski yeni çevrim içi: Süper üyeler, 9,9 yuan'ın ilk ayı için 6T alanın tadını çıkarabilir
Zhejiang, dünya çapında bir şehir kümesi oluşturmak için Yangtze Nehri Deltası'nın entegre gelişimini şiddetle teşvik ediyor
JD Express kişisel hizmeti, tıpkı SF Express gibi çevrimiçidir ve bir tazminat kaybetmenin maliyeti daha düşüktür
Bugün Core Voice | Samsung, Huawei'ye yanıt veriyor: Biz bir numaralı kamerayız
Mi Play, 6GB bellek sürümü ekler: 1299 yuan'dan başlayan fiyatlarla
To Top