"Kaynaklar" En iyi AI açık kaynak veri kümeleri İlk 39: Bilgisayarla görme, NLP, konuşma ve diğer 6 kategori

1 Xinzhiyuan derlemesi

Bugün, yapay zeka veya makine öğrenimi sistemleri oluşturmak her zamankinden daha kolay. AWS, Google Cloud ve diğer bulut hizmeti sağlayıcıları tarafından sağlanan büyük miktarda bilgi işlem gücünün yanı sıra TesorFlow, Torch, Spark vb. Gibi birçok açık kaynaklı son teknoloji araca sahibiz, bu da dizüstü bilgisayarla eğitim alırken rahatça kahve içebileceğiniz anlamına gelir. model.

Yapay zeka treninin önü olarak sayılmasa da, yapay zeka devriminin arkasındaki kahraman veridir.Büyük araştırma kurumlarının ve şirketlerin yoğun çalışmaları sayesinde, büyük miktarda etiketli ve açıklamalı veri elde etme fırsatına sahibiz. Bu araştırma kurumları ve şirketler, verilerin demokratikleştirilmesinin yapay zekanın gelişimini hızlandırmak için gerekli bir adım olduğunu da kabul ediyor.

Bununla birlikte, makine öğrenimi veya AI içeren çoğu ürün, büyük ölçüde halka açık olmayan özel veri kümelerine dayanır. Bu nedenle, hangi kamuya açık veri setlerinin yararlı olduğunu belirlemek zordur.

Daha da önemlisi, veri setinde iyi performans göstermek, makine öğrenimi sisteminin gerçek ürün senaryolarında iyi performans göstereceğini garanti etmez. Yapay zeka ile uğraşan pek çok kişi, yeni yapay zeka çözümleri oluşturmanın veya ürün geliştirmenin en zor kısmının yapay zekanın kendisi veya algoritmalar değil, veri toplama ve etiketleme olduğunu unutuyor. Standart veri kümeleri, modelleri doğrulamak için veya daha özelleştirilmiş çözümler oluşturmak için iyi bir başlangıç noktası olarak kullanılabilir.

Aşağıdakiler, dikkatlice topladığımız çok iyi açık veri kümeleridir, bunlar aynı zamanda AI araştırması için kaçırılmaması gereken veri kümeleridir.

Etiket açıklaması

klasik Bunlar AI alanında çok ünlü ve iyi bilinen veri kümeleridir. Çok az araştırmacı veya mühendis bunları duymadı.

işe yarıyor Bunlar, gerçek dünyaya daha yakın, özenle tasarlanmış veri kümeleridir. Ayrıca, bu veri setleri genellikle hem ürün hem de Ar-Ge için faydalıdır.

Akademik Bunlar, genellikle makine öğrenimi ve yapay zekanın akademik araştırmalarında referans veya referans olarak kullanılan veri kümeleridir. Daha iyisi ya da daha kötüsü için, araştırmacılar bu veri setlerini algoritmaları doğrulamak için kullanırlar.

eski Bu veri kümeleri, pratik olsun veya olmasın, uzun bir geçmişe sahiptir.

Bilgisayar görüşü

[Akademik, Klasik ve Eski] MNIST: En sık kullanılan bütünlük kontrolü veri seti, görüntü boyutu 25x25 siyah beyaz el yazısı rakamlardır, ancak MNIST'teki iyi performans, modelin kendisinin iyi olduğu anlamına gelmez.

[Klasik, eski] CIFAR 10 ve CIFAR 100: 32x32 renkli görüntü veri seti, artık yaygın olarak kullanılmasa da, bir bütünlük kontrolü olarak da kullanılabilir.

Adres: https://www.cs.toronto.edu/~kriz/cifar.html

[Kullanışlı, akademik, klasik] ImageNet: Yeni algoritma aslında görüntü veri setini kullanır.Birçok görüntü API şirketi etiketleri REST arayüzlerinden alır.Bu etiketlerin ImageNet'in sonraki seviye WordNet'in 1000 sınıfına benzer olduğundan şüphelenilmektedir.

Adres:

LSUN: Sahne anlama ve çoklu görev yardımı için kullanılır (oda düzeni tahmini, belirginlik tahmini, vb.).

[Akademik] PASCAL VOC: Genel bir görüntü bölümleme / sınıflandırma veri seti, gerçek görüntü açıklamalarını oluşturmak için özellikle kullanışlı değildir, ancak temeller için kullanışlıdır.

Akademik SVHN: Veriler, vahşi ortamda periyodik MNIST olarak kullanılabilen Google Sokak Görünümü'ndeki evlerin sayısından gelir.

MS COCO: Genel bir görüntü anlama / açıklama veri kümesi.

Adres:

[Faydalı] Görsel Genom: Yaklaşık 100 bin derin harf görüntüsü içeren çok detaylı görsel bilgi veri seti.

Adres:

[Kullanışlı, akademik, klasik, eski] Vahşi Doğada Etiketli Yüzler: Ad tanımlayıcılarla etiketlenmiş yüz bölgesi veri kümeleri genellikle yüz tanıma sistemlerini eğitmek için kullanılır.

Adres:

Doğal dil işleme

[Faydalı, Akademik] Metin Sınıflandırma Veri Kümeleri: Bir metin sınıflandırma veri seti, metin sınıflandırması için kullanılabilen 8 alt veri setini içerir.Örnek boyutu 120K ile 3.6M arasında değişir.Sorular seviye 2 ile seviye 14 arasında değişir. Veriler DBPedia, Amazon, Yelp, Yahoo !, Sogou ve AG .

[Faydalı, Akademik] WikiText: Salesforce MetaMind tarafından tasarlanan ve Wikipedia makalesinden türetilen büyük bir dil modelleme külliyatı.

[Faydalı] Soru Çiftleri: İlki, Quora'nın yinelenen / anlamsal benzerlik etiketlerini içeren veri kümesinden gelir.

Adres: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

[Yararlı, Akademik] SQuAD: Stanford Üniversitesi'nin soru-cevap veri seti, her soru ve cevabın metin parçaları şeklinde olduğu soru cevaplama ve okuduğunu anlama için yaygın olarak kullanılmaktadır.

Adres: https://rajpurkar.github.io/SQuAD-explorer/

CMU Q / A Veri Kümesi: Wikipedia makalelerindeki zorluk derecelerine sahip yapay olarak oluşturulmuş soru / cevap çiftleri.

Adres:

[Kullanışlı] Maluuba Veri Kümeleri: Durumsal doğal dil anlama araştırması için yapay olarak üretilmiş ince veri kümeleri.

Adres: https://datasets.maluuba.com/

Yararlı ve Akademik Milyar Kelime: Genellikle word2vec veya Glove gibi dağıtılmış kelime gösterimi için kullanılan büyük, genel amaçlı bir dil modelleme veri seti.

Adres:

[Faydalı, Akademik] Ortak Tarama: Petabayt ölçeğinde ağ tarama veri kümeleri genellikle kelime yerleştirmeyi öğrenmek için kullanılır.

Adres:

Akademik, Klasik bAbi: FAIR'den okuduğunu anlama ve Soru-Cevap yanıt veri seti.

Adres: https://research.fb.com/projects/babi/

[Akademik] Çocuk Kitabı Testi: Gutenberg Projesi'nin çocuk kitabından çıkarılan bir temel (soru + bağlam, cevap) olan bu veri seti, soru cevaplama, okuduğunu anlama ve sahte ifadeler için kullanışlıdır.

Adres: https://research.fb.com/projects/babi/

[Akademik, Klasik, Eski] Stanford Duyarlılık Treebank: Standart bir duyarlılık veri kümesi, veri kümesindeki her cümle ayrıştırma ağacının her düğümü, ayrıntılı duyarlılık ek açıklamalarına sahiptir.

Klasik, modası geçmiş 20 Haber Grubu: Genellikle salt sınıflandırma için veya herhangi bir IR / dizin algoritması için bir kıyaslama olarak kullanılan, metin sınıflandırması için klasik bir veri kümesi.

Adres:

[Klasik, eski] Reuters: Genellikle eğitimlerde kullanılan, tamamen sınıflandırılmış eski bir haber metni veri kümesi.

[Klasik, eski] IMDB: Daha eski ve nispeten küçük bir ikinci hastane duyarlılık sınıflandırma veri seti.

Adres:

[Klasik, modası geçmiş] UCInin Spambase'i: Bu eski, klasik bir spam e-posta veri kümesidir. Kaynak, ünlü UCI makine öğrenimi kitaplığıdır. Bu veri kümesinin tasarım ayrıntılarındaki benzersizliği nedeniyle, kişiselleştirilmiş spam filtrelemeyi öğrenmek için ilginç bir temel olarak kullanılabilir.

Adres: https://archive.ics.uci.edu/ml/datasets/Spambase

ses

Çoğu konuşma tanıma veri seti tescillidir çünkü bu veriler, veri setini oluşturan şirket için çok değerlidir. Bu nedenle, bu bölümdeki mevcut halka açık veri setlerinin çoğu nispeten eskidir.

Akademik ve eski 2000 HUB5 İngilizce: Yalnızca İngilizce konuşma veri kümesini içerir. Baidu'nun son makalesi "Derin Konuşma: Uçtan Uca Konuşma Tanıma'yı Genişletme" bu veri kümesini kullanır.

Adres: https://catalog.ldc.upenn.edu/LDC2002T43

Akademik LibriSpeech: Birden fazla kişi tarafından okunan yaklaşık 500 saatlik net sesten oluşan ve kitabın bölüm yapısını içeren, metin ve ses içeren bir sesli kitap veri seti.

Adres:

[Yararlı, Akademik] VoxForge: Aksanlı konuşma temiz veri seti, modelin sağlamlığını farklı vurgular veya tonlamalar altında test etmek için çok kullanışlıdır.

Adres:

Akademik, Klasik, Modası geçmiş TIMIT: İngilizce konuşma tanıma veri seti.

Adres: https://catalog.ldc.upenn.edu/LDC93S1

[Faydalı] ZİL: Çevresel gürültü içeren bir konuşma tanıma zorluğu veri kümesi. Veri seti gerçek, simüle edilmiş ve temiz ses kayıtları içerir. Özellikle, 4 gürültülü ortamda 4 hoparlörün yaklaşık 9.000 kaydını içerir. Simüle edilen veriler, birden fazla ortamın bir kombinasyonudur ve gürültüsüz bir ortamda kaydedilmiştir. Veri.

TED-LIUM: TED Talkun ses veri seti 1495 TED konuşma kaydı ve tam metin transkriptini içerir.

Adres:

Öneri ve sıralama sistemi

[Klasik, eski] Netflix Mücadelesi: İlk büyük Kaggle Challenge veri kümesi, ancak gizlilik sorunları nedeniyle yalnızca resmi olmayan veri kümeleri sağlanmıştır.

Adres:

[Kullanışlı, akademik, klasik] MovieLens: Çeşitli boyutlardaki film inceleme verileri genellikle temel işbirliğine dayalı filtreleme için kullanılır.

Adres: https://grouplens.org/datasets/movielens/

Milyon Şarkı Veri Kümesi: Kaggle'daki büyük, meta veri açısından zengin açık kaynak veri kümesi, karma öneri sistemleri için kullanışlıdır.

Adres: https://www.kaggle.com/c/msdchallenge

[Kullanışlı] Last.fm: Karma sistemler için yararlı olan, temel sosyal ağa ve diğer meta verilere erişimi olan bir müzik önerisi veri kümesi.

Ağ ve grafikler

[Akademik] Amazon Ortak Satın Alma ve Amazon İncelemeleri: Amazon.com'un "Ürünü satın alan kullanıcılar da satın aldı" bölümündeki veriler ve Amazon, ilgili ürünler için verileri inceler. Öneri sistemleri için uygundur.

Friendster Sosyal Ağ Veri Kümesi: 103.750.348 Friendster kullanıcısının arkadaş listelerini içeren anonim bir veri kümesi.

Adres: https://archive.org/details/friendster-dataset-201107

Jeo-uzamsal veriler

[Kullanışlı, klasik] OpenStreetMap: ABD Nüfus Sayım Bürosundan TIGER verilerini içeren ücretsiz lisanslı küresel vektör veri kümesi.

[Faydalı] Landsat8: Dünya yüzeyinin uydu fotoğrafları birkaç haftada bir güncellenir.

Adres: https://landsat.usgs.gov/landsat-8

[Kullanışlı] NEXRAD: Doppler radarı tarafından taranan ABD atmosferik çevre verileri.

Adres: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

Sonuç:

İnsanlar genellikle bir veri setindeki bir problemi çözmenin iyi bir ürün elde etmeye eşdeğer olduğunu düşünürler. Ancak bu veri setlerini bir doğrulama veya kavram kanıtı olarak kullanırken, iyileştirmelerin yapılabilmesi için ürünün işlevselliğini test etmek için güncellenmiş, daha gerçekçi verileri kullanmayı unutmayın. Başarılı bir veri odaklı şirket, genellikle yeni ve tescilli veri toplama becerilerinden faydalanabilir ve böylece rekabet gücünü artırabilir.

Orijinal adres: https://medium.com/startup-grind/fueling-the-ai-gold-rush-7ae438505bc2#.3x80s6mw4

"İşe Alım"

Tam zamanlı muhabir, derleme ve olay operasyonu

Stajyerler hoş geldiniz

Ve yapay zeka çeviri ajansının gönüllüleri

Daha fazla bilgi için lütfen resmi hesaba girin ve "İşe Alım" a tıklayın

Veya jobs@aiera.com.cn adresine e-posta gönderin

Xinzhiyuan'ın işe alım bilgileri için lütfen "orijinal metni okuyun" u tıklayın

Renminbi liderliği ele geçirdi ve petrol fiyatları düşmeye devam ediyor Dış medya: koca şortların kısalanacak cesareti olmayabilir
önceki
Hayatında ilk sürdüğün araba neydi? Netizen: Sonuncusu sayılır mı?
Sonraki
Dizi ve filmlerde popüler olan Macaristan sadece fotoğraflara bakıp şunu söylemek istiyor: Gitmek istiyorum!
Bilim: Tarihteki ilk kuantum bilgisayar hesaplaşması: Elektromanyetik lazer ile süper iletken mikrodalga, daha güçlü
Li Yanhong: Yapay zeka lanse edilene kadar sürmeyecek
Yeter! Bu üste, 35 kilometre yürüyüş + 14 parkurda arka arkaya acemilerin değerlendirilmesi
Xu Xiaoping, Lei Ming-AI girişimciliğinin sadece bilim adamlarına sahip olmasının imkansız olduğunu söylüyor
150.000 SUV milyon seviyeli bir iç mekana sahip, sonuncusu kesinlikle patlayıcı!
Çoğu insan zamanını trafiğe harcıyor, ancak trafik akışının ardındaki gerçeği bilmiyor
Çin ve Rusya yeterince altın elde ettiğinde dünyaya ne olacak? Neden altını eve önceden göndermemiz gerekiyor?
LeCun, enerji bazlı üretken bir çatışma ağı önerdi, ICLR-17, GAN'ı yeniden ziyaret etti
Kış sıcağı! Pekin özel polisi gök gürültüsü saldırısı!
Lijiang'a gitmek için bu altı şeyi yapmalısınız!
Myanmar bugün varışta vize açacak! Kamboçya'dan daha zengin, Tayland'dan daha ucuz, bir daha gelmezseniz çok geç
To Top