Tam metin 2024 Kelimeler, tahmini öğrenme süresi 6 dakika
Kaynak: Pexels
Not: Google'ın yeni veri kümesi arama aracı 23 Ocak 2020'de yayınlandı.
Salgın önleme ve kontrol aşamasında herkesin "kış tatili" daha uzun sürecek, "uzun" bir kış tatili için ne yapabiliriz?
Kısa süre önce Google, kamuya açık 25 milyon veri kümesinde arama yapabilen ücretsiz bir araç veri seti araması yayınladı.
Arama aracı, sonuçları lisansa (ücretsiz veya ücretli), biçime (csv, görseller vb.) Ve güncelleme zamanına göre sınırlayabilen filtreler içerir.
Sonuçlar ayrıca veri setinin içeriğinin bir açıklamasını ve yazardan bir alıntı içerir.
Google'ın veri kümesi toplama yöntemi, diğer veri kümesi havuzlarından (Amazonun Açık Veri Kaydı gibi) farklıdır. Veri kümelerini kendi başına yöneten ve barındıran diğer veri havuzlarının aksine, Google 25 milyon veri kümesini doğrudan yönetmeyecek veya bunlara erişim sağlamayacaktır.
Bunun yerine Google, veri kümesinin meta verilerini açıklamak için schema.org'un açık standartlarını kullanarak veri kümesinin yayıncısına güvenir. Google daha sonra meta verileri dizine ekler ve yayıncılar arasında aranabilir hale getirir.
Yayıncıların yine de veri kümelerini kendilerinin barındırması gerektiğinden, schema.org standartlarını karşılayan kar amacı gütmeyen yayıncılar da veri kümelerini dizine eklemek için Google'ı kullanacaktır. Yazar, geçmiş deneyimlere dayanarak, pazarla ilgili veri kümelerini ararken, yüzdenin daha yüksek olduğunu ve arama sonuçlarındaki veri kümelerinin yaklaşık yarısının kâr amaçlı toplayıcılardan geldiğini buldu.
Platformdaki diğer popüler veri kümesi yayıncıları arasında devlet kurumları ve araştırma kurumları bulunur. Google, ABD hükümet kurumlarının tek başına 2 milyondan fazla veri seti yayınladığını iddia ediyor.
Google istatistiklerine göre, veri setlerinin çoğu "yer bilimi, biyoloji ve tarımı" içermektedir.
Kendi veri kümelerinizi yayınlamak için schema.org'un açık standartlarını kullanmanız yeterlidir. Her geçen gün daha fazla yayıncı standarda uydukça, herkese açık veri kümelerinin sayısı artmaya devam edebilir.
Şu anda Google, ücretsiz veri kümelerini aramak veya indirmek için bir API sağlamamaktadır.
İnternette, kullanıcıların ilgilendikleri herhangi bir konuda neredeyse milyonlarca veri kümesi bulunmaktadır. Bir köpek yavrusu satın almak istiyorsanız, alıcı şikayetlerini özetlemek için bir veri kümesine bakabilir veya köpek yavrusu farkındalığı hakkında araştırma yapabilirsiniz. Veya kayak yapmayı seviyorsanız, gelir veya yaralanma oranları ve yaralı kayak merkezi sayısı hakkında verilere bakabilirsiniz. Veri Kümesi Arama, bu veri kümelerinin yaklaşık 25 milyonunu dizine ekledi. Tek bir yerde veri kümelerini arayabilir ve verilerin konumuna bağlantılar bulabilirsiniz. Geçtiğimiz yıl, insanlar bunu denedi ve geri bildirimde bulundu ve şimdi DatasetSearch resmi olarak beta dışı.
En hızlı kayakçının hızını ve kayak merkezinin gelirini içeren bir veri kümesi olan "kayak" için bazı arama sonuçlarını sorgulayın.
Geliştiriciler, DatasetSearch'ün erken deneme sürümünden alınan geri bildirimlere dayanarak yeni özellikler ekledi. Şimdi, sonuçları gerekli veri kümesi türüne (örneğin tablo, resim, metin) veya veri kümesinin sağlayıcıdan ücretsiz olarak alınıp alınmadığına göre filtreleyebilirsiniz. Veri seti belirli bir alan hakkındaysa haritayı görüntüleyebilirsiniz. Ek olarak, ürün artık mobil cihazlarda kullanılabilir ve veri seti açıklamasının kalitesi büyük ölçüde iyileştirilmiştir. Ancak bir şey değişmedi: verileri yayınlayan herkes, veri kümelerinin özelliklerini web sayfalarında açıklamak için açık standartları (schema.org) kullanabilir, böylece insanlar veri kümelerini aramada bulabilir.
Geliştiriciler ayrıca veri arayan farklı insan türleri olduğunu öğrendi. Bazı akademik araştırmacılar hipotezlerini destekleyebilecek veriler arıyorlar (örneğin: oksitosini deneyin), öğrenciler ileri düzey tez konularını kapsayan tablo biçiminde ücretsiz verileri arıyorlar (örneğin: ilgili filtreyi kullanmaya çalışmak için hapis oranları), iş analistleri Veri bilimcileriyle mobil uygulamalar veya fast food restoranları hakkında bilgi bulun. Tüm bunların verileri var! Kullanıcılar ne arıyor? En yaygın sorgular "eğitim", "hava durumu", "kanser", "suç", "futbol" ve "köpek" dir.
Yukarıdaki resim, "fast food restoranı" için bazı arama sonuçlarını göstermektedir.
Veri Kümesi Araması ayrıca çevrimiçi verilerin anlık görüntüsünü sağlar. İşte bazı önemli noktalar. Veri setinin kapsadığı en büyük konular yer bilimleri, biyoloji ve tarımdır. Dünyadaki çoğu ülkenin hükümetleri verileri yayınlar ve bunları tanımlamak için schema.org'u kullanır. Amerika Birleşik Devletleri'nde sayıca çok ileride olan 2 milyondan fazla açık hükümet veri seti bulunmaktadır. En popüler veri formatı nedir? Kullanıcılar, DatasetSearch'te 6 milyondan fazla tablo bulabilir.
Veri Kümesi Aramada bulunan veri kümelerinin sayısı artmaya devam ediyor. Sitede bir veri kümesi varsa ve açık standart schema.org kullanılarak açıklanmışsa, diğerleri onu DatasetSearch'te bulabilir. Bir veri kümesinin var olduğunu biliyorsanız, ancak bunu DatasetSearch'te bulamıyorsanız, lütfen sağlayıcıdan bir schema.org açıklaması eklemesini isteyin. Diğerleri de veri kümelerini öğreneceklerdir.
Kaynak: Pexels
DatasetSearch beta sürümünden çıktı, ancak ürünün "beta" sürümü olup olmadığına bakılmaksızın iyileştirme devam edecek. DatasetSearch'ü şimdi indirin ve deneyimleyin!
Yorum Beğen Takip Et
Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım
Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun