Yapay zeka ve makine öğrenimi sistemlerinin geliştirilmesi hiç bu kadar kolay olmamıştı. TensorFlow, Torch ve Spark gibi açık kaynaklı araçlar zaten AI geliştirici topluluğunda her yerde bulunuyor. Amazon AWS ve Google Cloud gibi bulut hizmetlerinin getirdiği muazzam bilgi işlem gücüyle birleştiğinde, gelecekte makine öğrenimi modellerini eğitmek için dizüstü bilgisayarları kullanmak artık düşünülemez.
Halkın yapay zeka hakkındaki hayalleri her zaman verilerin rolünü görmezden geliyor. Bununla birlikte, büyük miktardaki işaretli ve açıklamalı veri, mevcut AI devriminin ana itici güçlerinden biridir. Sektör araştırma ekipleri ve şirket kurumlarının tümü "veri demokratikleştirme" nin anlamını anlıyor - herhangi bir geliştiricinin modelleri eğitmek ve test etmek için yüksek kaliteli veriler elde etmesini sağlamak, AI teknolojisinin gelişimini hızlandırmak için gerekli bir önlemdir.
Ancak Leifeng.com'un bildiği kadarıyla, makine öğrenimi ve yapay zeka içeren çoğu ürün tescilli veri kümelerine dayanıyor. Çoğu fikri mülkiyet haklarını korumak ve güvenlik risklerini önlemek için ifşa edilmemiştir.
Alakalı bir kamuya açık veritabanı bulacak kadar şanslı olsanız bile, ikincisinin değerini ve güvenilirliğini değerlendirmek, birçok geliştirici için başka bir baş ağrısıdır. Bu, kavram kanıtı için doğrudur; aynısı potansiyel ürün veya özellik doğrulaması için de geçerlidir - tescilli verilerinizi toplamadan önce, doğrulama için hangi veri setinin gerekli olduğuna karar verin.
Deneyimli geliştiriciler, makine öğrenimi sisteminin örnek veri setindeki mükemmel performansının gerçek etkisini garanti etmediğini bilir. Pek çok yapay zeka uygulayıcısı, veri toplama ve etiketlemenin, yapay zeka çözümleri geliştirmenin en zor kısmı olduğunu unutmuş görünüyor. Standart veri seti, bir doğrulama seti olarak veya daha özel olarak uyarlanmış bir programın geliştirilmesi için bir başlangıç noktası olarak kullanılabilir.
Bu hafta, Vai Technologies'in kurucusu ve Stanford SLAC Lab'deki eski CNN algoritma mimarı Luke de Oliveira, diğer birkaç makine öğrenimi uzmanıyla bu sorun hakkında konuştu. Leifeng.com sonunda yapay zeka alanında en yüksek altın içeriğine sahip açık kaynak veritabanlarını listelemek ve sizinle paylaşmak için bir form oluşturmaya karar verdiklerini öğrendi.
Etiket: Academic Benchmark Classic Eski
Akıl sağlığı kontrolü için en yaygın kullanılan veritabanı. Boyut 25x25, ortalanmış, siyah beyaz el yazısıyla yazılmış sayılardır. MNIST ile test etmek çok kolaydır, ancak modelinizin yalnızca MNIST üzerinde iyi çalıştığı için gerçekten kullanılabilir olduğunu varsaymayın.
Adres: https://pjreddie.com/projects/mnist-in-csv/
Etiket: Klasik Eski
32x32 renkli resim. Eskisinden çok daha az insan kullanmasına rağmen, yine de ilginç rasyonellik testleri için kullanılabilir.
Adres: https://www.cs.toronto.edu/~kriz/cifar.html
Etiket: Pratik Akademik Benchmark Classic
Bu, yeni algoritma için tercih edilen görüntü veri kümesinin tanıtılmasına gerek yoktur. Luke de Oliveira, pek çok image API şirketinin REST interaktif arayüzünden aldığı işaretlemenin ImageNet 1000 kataloğundaki WordNet seviyesine çok benzediğini söyledi, bu şüpheli.
Adres:
Etiket: Yok
Sahne anlama, diğer birçok ek görev (oda düzeni tahmini, belirginlik tahmini "belirginlik tahmini" gibi) ve ilgili yarışmalar.
Adres:
PASCAL VOC
Etiket: Academic Benchmark
Genel görüntü bölütleme ve sınıflandırma. Gerçek dünya resim ek açıklamaları oluşturmak için pek kullanışlı değildir, ancak bir karşılaştırma ölçütü olarak iyidir.
Adres:
Etiket: Academic Benchmark
Google Street View'daki bina numarası. Vahşi bir tekrarlayan MNIST olarak düşünün.
Adres:
Etiket: Yok
Genel görüntü anlayışı / tanımı için ilgili yarışmalar vardır.
Adres:
Etiket: Pratik
100.000'den fazla görüntü üzerinde derinlemesine açıklamalar içeren çok ayrıntılı görsel bilgi tabanı.
Adres:
Vahşi Doğada Etiketli Yüzler
Etiketler: Pratik Akademik Ölçüt Klasik Daha Eski
Kesilmiş yüz bölgesi (Viola-Jones kullanılarak) bir isim tanımlayıcı ile işaretlenmiştir. Gösterilen kişilerin her birinin veri setinde, kendisinin bir alt kümesi olan iki resmi vardır. Geliştiriciler bunu genellikle yüz eşleştirme sistemlerini eğitmek için kullanır.
Adres:
Etiket: Pratik Akademik Ölçüt
Zhang et al., 2015 gazetesinden. Bu, sekiz karakter sınıflandırma veri setinden oluşan büyük bir veritabanıdır. Yeni metin sınıflandırma karşılaştırmaları için en yaygın kullanılanıdır. Örnek boyutu, ikiliden 14. sıraya kadar değişen sorunlar dahil olmak üzere 120K ile 3.6M arasında değişmektedir. DBPedia, Amazon, Yelp, Yahoo !, Sogou ve AG'den veri setleri.
Adres: https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
Etiket: Pratik Akademik Ölçüt
Yüksek kaliteli Wikipedia makalelerinden türetilen büyük bir dil modelleme külliyatı. Salesforce MetaMind bakımı.
Adres:
Etiket: Pratik
Quora tarafından yayınlanan, kopya / anlamsal yaklaşım etiketlerini içeren ilk veri kümesi.
Adres: https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
Tayfa
Etiket: Pratik Akademik Ölçüt
Stanford'un sorusunu yanıtlayan topluluk veri seti - çok çeşitli soru yanıtlama ve okuma anlama veri kümeleri. Her yanıt bir aralık veya bir metin parçası olarak kabul edilir.
Adres: https://rajpurkar.github.io/SQuAD-explorer/
Etiket: Yok
Manuel olarak oluşturulmuş yapay soru / cevap kombinasyonu ve Wikipedia makalesinin zorluk puanı.
Adres:
Maluuba Veri Kümeleri
Etiket: Pratik
NLP araştırması için manuel olarak oluşturulmuş karmaşık bir veri kümesi.
Adres: https://datasets.maluuba.com/
Etiket: Pratik Akademik Ölçüt
Büyük, genel amaçlı modelleme veri seti. Genellikle word2vec veya GloVe gibi dağıtılmış kelime ifadelerini eğitmek için kullanılır.
Adres:
Etiket: Pratik Akademik Ölçüt
PB düzeyinde bir web tarayıcısı. Çoğunlukla kelime yerleştirmeyi öğrenmek için kullanılır. Amazon S3'ten ücretsiz olarak alınabilir. WWW bilgi toplama için daha kullanışlı bir ağ veri kümesidir.
Adres:
Etiket: Academic Benchmark Classic
Facebook AI Research (FAIR) tarafından başlatılan sentetik bir okuduğunu anlama ve soru yanıtlama veri seti.
Adres: https://research.fb.com/projects/babi/
Çocuk Kitabı Testi
Etiket: Academic Benchmark
Gutenberg Projesi (gerçek dijital kitapların ücretsiz paylaşım projesi) çocuk kitaplarından çıkarılan eşleştirilmiş verilerin (sorular artı bağlam, cevaplar) karşılaştırmaları. Soru cevap, okuduğunu anlama ve factoid sorgular için kullanışlıdır.
Adres: https://research.fb.com/projects/babi/
Stanford Duyarlılık Treebank
Etiket: Academic Benchmark Classic Eski
Standart duyarlılık veri kümesi, her cümlenin her düğümünün sözdizimi ağacı için ayrıntılı duygu ek açıklamalarına sahiptir.
Adres:
Etiket: Klasik Eski
Daha klasik bir metin sınıflandırma veri kümesi. Genellikle IR / indeksleme algoritmalarının saf sınıflandırması veya doğrulanması için bir kıyaslama olarak kullanılır ve bu konuda daha yararlıdır.
Adres:
Etiket: Klasik Eski
Saf sınıflandırmaya dayalı eski veri setleri. Metin, Reuters haber hattından geliyor. Genellikle eğitimlerde kullanılır.
Adres: https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB
Etiket: Klasik Eski
Daha eski, nispeten küçük veri kümeleri. Duygu sınıflandırması için kullanılır. Ancak edebi ölçütler açısından giderek gözden düştü ve yerini daha büyük veri setlerine bıraktı.
Adres:
UCInin Spambase
Etiket: Klasik Eski
UCI Machine Learning Repository'den türetilen eski, klasik spam veri kümesi. Veri kümesinin yönetim ayrıntıları nedeniyle, bu, özel özel spam filtrelemeyi öğrenmek için ilginç bir ölçüt olabilir.
Adres: https://archive.ics.uci.edu/ml/datasets/Spambase
Çoğu konuşma tanıma veritabanı tescillidir - bu veriler tüm şirketler için büyük değer taşır. Bu alandaki genel veri kümelerinin çoğu zaten çok eskidir.
2000 HUB5 İngilizce
Etiket: Academic Benchmark Old
Yalnızca İngilizce ses verilerini içerir. En son kullanım Baidu'nun derinlemesine konuşma kağıdıydı.
Adres: https://catalog.ldc.upenn.edu/LDC2002T43
Etiket: Academic Benchmark
Metin ve ses dahil olmak üzere sesli kitap veri seti. Kitap bölümlerine göre düzenlenmiş, çok sayıda okuyucudan ve çok sayıda sesli kitaptan yaklaşık 500 saat net ses.
Adres:
VoxForge
Etiket: Pratik Akademik Ölçüt
Aksanlı İngilizce ile net bir konuşma veri seti. Farklı vurguları ve tonlamaları tanımak için güçlü bir yeteneğe ihtiyacınız varsa, bu daha yararlı olacaktır.
Adres:
TIMIT
Etiket: Academic Benchmark Classic
Yalnızca İngilizce konuşma tanıma veri kümesini içerir.
Adres: https://catalog.ldc.upenn.edu/LDC93S1
Etiket: Pratik
Çok gürültülü bir konuşma tanıma testi fincan veri kümesi. Gerçek, simüle edilmiş ve net kayıtlar içerir: gerçek, çünkü veri seti dört farklı gürültülü ortamda dört konuşma konusunun yaklaşık 9.000 kaydını içerir; simülasyonlar birden fazla ortamı konuşma ile birleştirerek oluşturulur; , Gürültüsüz net bir kaydı ifade eder.
Adres:
Etiket: Yok
TED görüşmelerinin sesli yazımı. 1495 TED konuşması ve tam altyazılı metnini içerir.
Adres:
Etiket: Klasik Eski
Kaggle modelinin ilk veri sorunu. Korsanlık sorunları nedeniyle yalnızca resmi olmayan sürümler mevcuttur.
Adres:
MovieLens
Etiket: Pratik Akademik Benchmark Classic
Farklı boyutlardaki film inceleme verileri - genellikle işbirliğine dayalı filtreleme için bir kıyaslama olarak kullanılır.
Adres: https://grouplens.org/datasets/movielens/
Etiket: Yok
Kaggle'da orijinal veriler açısından zengin, büyük, açık kaynaklı bir veri kümesi. Hibrit öneri sistemlerini test etmek için değerlidir.
Adres: https://www.kaggle.com/c/msdchallenge
Etiket: Pratik
Müzik önerisi veri kümesi ve ilgili sosyal ağlar ve diğer meta veriler. Hibrit sistemler için kullanışlıdır.
Adres:
Amazon Ortak Satın Alma ve Amazon İncelemeleri
Etiket: Academic Benchmark
Amazon'un "Bunu satın alan Kullanıcılar XXX satın aldı" işlevinden ve ilgili ürünlerin değerlendirme verilerinden toplanan veriler. Test ağındaki öneri sistemi için değerlidir.
Adres:
Etiket: Yok
Friendster, bir oyun sitesi olmadan önce 103.750.348 kullanıcının arkadaşlarından oluşan listede anonim veriler yayınladı.
Adres: https://archive.org/details/friendster-dataset-201107
Etiket: Pratik
Tüm dünyanın vektör verileri ücretsiz bir anlaşma kapsamındadır. Eski versiyonu ABD Nüfus Sayım Dairesinden TIGER verilerini içermektedir.
Adres:
Etiket: Pratik
Dünyanın tüm yüzeyinin uydu fotoğrafları birkaç haftada bir güncellenir.
Adres: https://landsat.usgs.gov/landsat-8
Etiket: Pratik
ABD atmosferinin Doppler hava durumu radar taraması.
Adres: https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
İnsanlar genellikle bir veri setindeki bir problemi çözmenin kullanılabilir bir ürüne sahip olmakla eşdeğer olduğunu düşünürler. Geliştiriciler bu veri setlerini doğrulama setleri veya kavramların kanıtı olarak kullanabilirler, ancak ürün çalışmasını simüle eden prototipleri test etmeyi veya oluşturmayı unutmayın. Modeli iyileştirmek için daha yeni ve daha gerçekçi veriler elde etmek çok önemlidir. Leifeng.com, başarılı veri odaklı şirketlerin, rekabet avantajlarını artırmak için yeni özel veriler toplamada ve ürün performansını iyileştirmede genellikle başarılı olduklarını öğrendi. Bu genellikle rakiplerin doğrudan kopyalaması zordur.
ortam aracılığıyla