Makine öğrenimi model geliştirme şunları okumalıdır: açık kaynak veritabanlarının en kapsamlı envanteri

Yapay zeka ve makine öğrenimi sistemlerinin geliştirilmesi hiç bu kadar kolay olmamıştı. TensorFlow, Torch ve Spark gibi açık kaynaklı araçlar zaten AI geliştirici topluluğunda her yerde bulunuyor. Amazon AWS ve Google Cloud gibi bulut hizmetlerinin getirdiği muazzam bilgi işlem gücüyle birleştiğinde, gelecekte makine öğrenimi modellerini eğitmek için dizüstü bilgisayarları kullanmak artık düşünülemez.

Halkın yapay zeka hakkındaki hayalleri her zaman verilerin rolünü görmezden geliyor. Bununla birlikte, büyük miktardaki işaretli ve açıklamalı veri, mevcut AI devriminin ana itici güçlerinden biridir. Sektör araştırma ekipleri ve şirket kurumlarının tümü "veri demokratikleştirme" nin anlamını anlıyor - herhangi bir geliştiricinin modelleri eğitmek ve test etmek için yüksek kaliteli veriler elde etmesini sağlamak, AI teknolojisinin gelişimini hızlandırmak için gerekli bir önlemdir.

Ancak Leifeng.com'un bildiği kadarıyla, makine öğrenimi ve yapay zeka içeren çoğu ürün tescilli veri kümelerine dayanıyor. Çoğu fikri mülkiyet haklarını korumak ve güvenlik risklerini önlemek için ifşa edilmemiştir.

Alakalı bir kamuya açık veritabanı bulacak kadar şanslı olsanız bile, ikincisinin değerini ve güvenilirliğini değerlendirmek, birçok geliştirici için başka bir baş ağrısıdır. Bu, kavram kanıtı için doğrudur; aynısı potansiyel ürün veya özellik doğrulaması için de geçerlidir - tescilli verilerinizi toplamadan önce, doğrulama için hangi veri setinin gerekli olduğuna karar verin.

Deneyimli geliştiriciler, makine öğrenimi sisteminin örnek veri setindeki mükemmel performansının gerçek etkisini garanti etmediğini bilir. Pek çok yapay zeka uygulayıcısı, veri toplama ve etiketlemenin, yapay zeka çözümleri geliştirmenin en zor kısmı olduğunu unutmuş görünüyor. Standart veri seti, bir doğrulama seti olarak veya daha özel olarak uyarlanmış bir programın geliştirilmesi için bir başlangıç noktası olarak kullanılabilir.

Bu hafta, Vai Technologies'in kurucusu ve Stanford SLAC Lab'deki eski CNN algoritma mimarı Luke de Oliveira, diğer birkaç makine öğrenimi uzmanıyla bu sorun hakkında konuştu. Leifeng.com sonunda yapay zeka alanında en yüksek altın içeriğine sahip açık kaynak veritabanlarını listelemek ve sizinle paylaşmak için bir form oluşturmaya karar verdiklerini öğrendi.

Bilgisayar görüşü

MNIST

Etiket: Academic Benchmark Classic Eski

Akıl sağlığı kontrolü için en yaygın kullanılan veritabanı. Boyut 25x25, ortalanmış, siyah beyaz el yazısıyla yazılmış sayılardır. MNIST ile test etmek çok kolaydır, ancak modelinizin yalnızca MNIST üzerinde iyi çalıştığı için gerçekten kullanılabilir olduğunu varsaymayın.

Adres: https://pjreddie.com/projects/mnist-in-csv/

CIFAR 10 ve CIFAR 100

Etiket: Klasik Eski

32x32 renkli resim. Eskisinden çok daha az insan kullanmasına rağmen, yine de ilginç rasyonellik testleri için kullanılabilir.

Adres: https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

Etiket: Pratik Akademik Benchmark Classic

Bu, yeni algoritma için tercih edilen görüntü veri kümesinin tanıtılmasına gerek yoktur. Luke de Oliveira, pek çok image API şirketinin REST interaktif arayüzünden aldığı işaretlemenin ImageNet 1000 kataloğundaki WordNet seviyesine çok benzediğini söyledi, bu şüpheli.

Adres:

LSUN

Etiket: Yok

Sahne anlama, diğer birçok ek görev (oda düzeni tahmini, belirginlik tahmini "belirginlik tahmini" gibi) ve ilgili yarışmalar.

Adres:

PASCAL VOC

Etiket: Academic Benchmark

Genel görüntü bölütleme ve sınıflandırma. Gerçek dünya resim ek açıklamaları oluşturmak için pek kullanışlı değildir, ancak bir karşılaştırma ölçütü olarak iyidir.

Adres:

SVHN

Etiket: Academic Benchmark

Google Street View'daki bina numarası. Vahşi bir tekrarlayan MNIST olarak düşünün.

Adres:

MS COCO

Etiket: Yok

Genel görüntü anlayışı / tanımı için ilgili yarışmalar vardır.

Adres:

Görsel Genom

Etiket: Pratik

100.000'den fazla görüntü üzerinde derinlemesine açıklamalar içeren çok ayrıntılı görsel bilgi tabanı.

Adres:

Vahşi Doğada Etiketli Yüzler

Etiketler: Pratik Akademik Ölçüt Klasik Daha Eski

Kesilmiş yüz bölgesi (Viola-Jones kullanılarak) bir isim tanımlayıcı ile işaretlenmiştir. Gösterilen kişilerin her birinin veri setinde, kendisinin bir alt kümesi olan iki resmi vardır. Geliştiriciler bunu genellikle yüz eşleştirme sistemlerini eğitmek için kullanır.

Adres:

Doğal lisan

Metin Sınıflandırma Veri Kümeleri

Etiket: Pratik Akademik Ölçüt

Zhang et al., 2015 gazetesinden. Bu, sekiz karakter sınıflandırma veri setinden oluşan büyük bir veritabanıdır. Yeni metin sınıflandırma karşılaştırmaları için en yaygın kullanılanıdır. Örnek boyutu, ikiliden 14. sıraya kadar değişen sorunlar dahil olmak üzere 120K ile 3.6M arasında değişmektedir. DBPedia, Amazon, Yelp, Yahoo !, Sogou ve AG'den veri setleri.

Adres: https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText

Etiket: Pratik Akademik Ölçüt

Yüksek kaliteli Wikipedia makalelerinden türetilen büyük bir dil modelleme külliyatı. Salesforce MetaMind bakımı.

Adres:

Soru Çiftleri

Etiket: Pratik

Quora tarafından yayınlanan, kopya / anlamsal yaklaşım etiketlerini içeren ilk veri kümesi.

Adres: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

Tayfa

Etiket: Pratik Akademik Ölçüt

Stanford'un sorusunu yanıtlayan topluluk veri seti - çok çeşitli soru yanıtlama ve okuma anlama veri kümeleri. Her yanıt bir aralık veya bir metin parçası olarak kabul edilir.

Adres: https://rajpurkar.github.io/SQuAD-explorer/

CMU Q / A Veri Kümesi

Etiket: Yok

Manuel olarak oluşturulmuş yapay soru / cevap kombinasyonu ve Wikipedia makalesinin zorluk puanı.

Adres:

Maluuba Veri Kümeleri

Etiket: Pratik

NLP araştırması için manuel olarak oluşturulmuş karmaşık bir veri kümesi.

Adres: https://datasets.maluuba.com/

Milyar Kelime

Etiket: Pratik Akademik Ölçüt

Büyük, genel amaçlı modelleme veri seti. Genellikle word2vec veya GloVe gibi dağıtılmış kelime ifadelerini eğitmek için kullanılır.

Adres:

Ortak Tarama

Etiket: Pratik Akademik Ölçüt

PB düzeyinde bir web tarayıcısı. Çoğunlukla kelime yerleştirmeyi öğrenmek için kullanılır. Amazon S3'ten ücretsiz olarak alınabilir. WWW bilgi toplama için daha kullanışlı bir ağ veri kümesidir.

Adres:

bAbi

Etiket: Academic Benchmark Classic

Facebook AI Research (FAIR) tarafından başlatılan sentetik bir okuduğunu anlama ve soru yanıtlama veri seti.

Adres: https://research.fb.com/projects/babi/

Çocuk Kitabı Testi

Etiket: Academic Benchmark

Gutenberg Projesi (gerçek dijital kitapların ücretsiz paylaşım projesi) çocuk kitaplarından çıkarılan eşleştirilmiş verilerin (sorular artı bağlam, cevaplar) karşılaştırmaları. Soru cevap, okuduğunu anlama ve factoid sorgular için kullanışlıdır.

Adres: https://research.fb.com/projects/babi/

Stanford Duyarlılık Treebank

Etiket: Academic Benchmark Classic Eski

Standart duyarlılık veri kümesi, her cümlenin her düğümünün sözdizimi ağacı için ayrıntılı duygu ek açıklamalarına sahiptir.

Adres:

20 Haber grubu

Etiket: Klasik Eski

Daha klasik bir metin sınıflandırma veri kümesi. Genellikle IR / indeksleme algoritmalarının saf sınıflandırması veya doğrulanması için bir kıyaslama olarak kullanılır ve bu konuda daha yararlıdır.

Adres:

Reuters

Etiket: Klasik Eski

Saf sınıflandırmaya dayalı eski veri setleri. Metin, Reuters haber hattından geliyor. Genellikle eğitimlerde kullanılır.

Adres: https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

IMDB

Etiket: Klasik Eski

Daha eski, nispeten küçük veri kümeleri. Duygu sınıflandırması için kullanılır. Ancak edebi ölçütler açısından giderek gözden düştü ve yerini daha büyük veri setlerine bıraktı.

Adres:

UCInin Spambase

Etiket: Klasik Eski

UCI Machine Learning Repository'den türetilen eski, klasik spam veri kümesi. Veri kümesinin yönetim ayrıntıları nedeniyle, bu, özel özel spam filtrelemeyi öğrenmek için ilginç bir ölçüt olabilir.

Adres: https://archive.ics.uci.edu/ml/datasets/Spambase

ses

Çoğu konuşma tanıma veritabanı tescillidir - bu veriler tüm şirketler için büyük değer taşır. Bu alandaki genel veri kümelerinin çoğu zaten çok eskidir.

2000 HUB5 İngilizce

Etiket: Academic Benchmark Old

Yalnızca İngilizce ses verilerini içerir. En son kullanım Baidu'nun derinlemesine konuşma kağıdıydı.

Adres: https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech

Etiket: Academic Benchmark

Metin ve ses dahil olmak üzere sesli kitap veri seti. Kitap bölümlerine göre düzenlenmiş, çok sayıda okuyucudan ve çok sayıda sesli kitaptan yaklaşık 500 saat net ses.

Adres:

VoxForge

Etiket: Pratik Akademik Ölçüt

Aksanlı İngilizce ile net bir konuşma veri seti. Farklı vurguları ve tonlamaları tanımak için güçlü bir yeteneğe ihtiyacınız varsa, bu daha yararlı olacaktır.

Adres:

TIMIT

Etiket: Academic Benchmark Classic

Yalnızca İngilizce konuşma tanıma veri kümesini içerir.

Adres: https://catalog.ldc.upenn.edu/LDC93S1

CHIME

Etiket: Pratik

Çok gürültülü bir konuşma tanıma testi fincan veri kümesi. Gerçek, simüle edilmiş ve net kayıtlar içerir: gerçek, çünkü veri seti dört farklı gürültülü ortamda dört konuşma konusunun yaklaşık 9.000 kaydını içerir; simülasyonlar birden fazla ortamı konuşma ile birleştirerek oluşturulur; , Gürültüsüz net bir kaydı ifade eder.

Adres:

TED-LIUM

Etiket: Yok

TED görüşmelerinin sesli yazımı. 1495 TED konuşması ve tam altyazılı metnini içerir.

Adres:

Öneri ve sıralama sistemi

Netflix Mücadelesi

Etiket: Klasik Eski

Kaggle modelinin ilk veri sorunu. Korsanlık sorunları nedeniyle yalnızca resmi olmayan sürümler mevcuttur.

Adres:

MovieLens

Etiket: Pratik Akademik Benchmark Classic

Farklı boyutlardaki film inceleme verileri - genellikle işbirliğine dayalı filtreleme için bir kıyaslama olarak kullanılır.

Adres: https://grouplens.org/datasets/movielens/

Milyon Şarkı Veri Kümesi

Etiket: Yok

Kaggle'da orijinal veriler açısından zengin, büyük, açık kaynaklı bir veri kümesi. Hibrit öneri sistemlerini test etmek için değerlidir.

Adres: https://www.kaggle.com/c/msdchallenge

Last.fm

Etiket: Pratik

Müzik önerisi veri kümesi ve ilgili sosyal ağlar ve diğer meta veriler. Hibrit sistemler için kullanışlıdır.

Adres:

Ağ ve grafik

Amazon Ortak Satın Alma ve Amazon İncelemeleri

Etiket: Academic Benchmark

Amazon'un "Bunu satın alan Kullanıcılar XXX satın aldı" işlevinden ve ilgili ürünlerin değerlendirme verilerinden toplanan veriler. Test ağındaki öneri sistemi için değerlidir.

Adres:

Friendster sosyal ağ veri kümesi

Etiket: Yok

Friendster, bir oyun sitesi olmadan önce 103.750.348 kullanıcının arkadaşlarından oluşan listede anonim veriler yayınladı.

Adres: https://archive.org/details/friendster-dataset-201107

Jeo-uzamsal veriler

OpenStreetMap

Etiket: Pratik

Tüm dünyanın vektör verileri ücretsiz bir anlaşma kapsamındadır. Eski versiyonu ABD Nüfus Sayım Dairesinden TIGER verilerini içermektedir.

Adres:

Landsat8

Etiket: Pratik

Dünyanın tüm yüzeyinin uydu fotoğrafları birkaç haftada bir güncellenir.

Adres: https://landsat.usgs.gov/landsat-8

NEXRAD

Etiket: Pratik

ABD atmosferinin Doppler hava durumu radar taraması.

Adres: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

Sonsöz

İnsanlar genellikle bir veri setindeki bir problemi çözmenin kullanılabilir bir ürüne sahip olmakla eşdeğer olduğunu düşünürler. Geliştiriciler bu veri setlerini doğrulama setleri veya kavramların kanıtı olarak kullanabilirler, ancak ürün çalışmasını simüle eden prototipleri test etmeyi veya oluşturmayı unutmayın. Modeli iyileştirmek için daha yeni ve daha gerçekçi veriler elde etmek çok önemlidir. Leifeng.com, başarılı veri odaklı şirketlerin, rekabet avantajlarını artırmak için yeni özel veriler toplamada ve ürün performansını iyileştirmede genellikle başarılı olduklarını öğrendi. Bu genellikle rakiplerin doğrudan kopyalaması zordur.

ortam aracılığıyla

Bir dakikalık öğrenme paketi toplantısı, size bir "hafıza öldürme" kısa filmi yapmayı öğretmek |
önceki
Jack Gyllenhaal'ın 9 harika filmini tavsiye edin
Sonraki
"Monster Hunter World" açık beta silah kullanım oranı yayınlandı, tahmin edin ilk kim
Geçen yıl arkadaş çevresinde popüler oldu, bu yıl yine geliyor!
HG 1/144 Renma Baia Lanchang
Samsung Galaxy Note9 piyasaya sürüldü, ancak her zaman bu "aksesuarların" oyunda olduğunu hissediyorum
Tencent: Blockchain oyunları Nisan ayı sonlarında piyasaya sürülecek, kişisel WeChat ve kurumsal WeChat birbirine bağlanacak | İlham sabah okuma
Kız etrafta onlarca kez silahlarla öldürüldü, izledikten sonra mı hareket ettim?
MG 1/100 Yıldırım Rengi Eşleşen Gundam Strike Gundam
1/100 NZ-666 Büyük Yeşil Biber Kshatriya
WeChat, kısa video Uygulaması harici bağlantı oynatmayı askıya aldı, bugünün başlığı yeni bir düzeltme önlemleri serisini duyurdu İlham sabahı
Bu yerli bilim kurgu filmi gökyüzüne karşı çıkıyor, ben buna demek istiyorum!
Tang Bu Hot Top 102018'de en çok konuşulan aktör sıralaması, Hollandalı erkek kardeş üstte
PG 1/60 Altın Büyük Kılıç Kırmızı Sapkınlık
To Top