Veri seti arama motoru çıktı! Veriler, veri bilimine nasıl yerleştirilir?

Tam metin 4401 Kelimeler, tahmini öğrenme süresi 13 dakika

Kaynak: Unsplash

Makaleye başlamadan önce, bir dizi yanlış veri arama aracına bakalım.

Algoritmaların ve büyük verinin patlayıcı gelişimi ile Baidu ve Google gibi arama motorları daha güçlü hale geldi.

Yavaş yavaş, sadece metinler ve resimler değil, artık veri kümeleri de aranabilir.

Evet, doğru duydunuz. Artık veri setlerini aramak, resim aramak kadar kolay!

Google Aramanın en sevdiğim yeni üyesi Veri Kümesi Aramadır.

Veri Kümesi Aramayı denemek için burayı tıklayın

Veri Kümesi Arama tarafından yansıtılan herkese açık veri okuma ve yazma kapsamının kapsamı

Hiç kimse kullanmazsa, Google'ın GoogleImages ve Google Scholar gibi dikey arama motorları uzun süre dayanmaz.

Bu nedenle, değişiklikleri bir dereceye kadar insanların İnternetteki arama eğilimini yansıtabilir.

Resimler, videolar ve haberler hayal etmek zor değil. Peki ya veri seti? Veri seti arama motorunun ortaya çıkması, herkesin, veri setiyle ilgili kişilerin uzak bir kar ülkesinde dünyadan izole edilmiş üç veya iki profesör olmadığını bilmesini sağlar.

Veri setinin etkisi aslında harika ... ve her geçen gün artıyor.

Veri setinde herhangi bir gizli tehlike var mı? bir şey değil. Aramanın bir veri kümesi olması dışında Google'ın görsel ve akademik aramasından hiçbir farkı yoktur. Şu anda, 20 milyondan fazla veri seti arama için indekslenmiştir ... ve sayı hızla artmaktadır.

Bugün 20 milyon veri setine kolayca ulaşılabilir ve sayı her geçen gün artmaktadır.

Artık varlığını bildiğinize göre, şimdi burada deneyebilirsiniz. Veya, veri kümesi arama motorunun nasıl çalıştığını ve veri bilimi, beşeri bilimler ve sosyal bilimler gibi endüstriler için ne anlama geldiğini anlamak için daha fazla makale okuyabilirsiniz.

Veri Kümesi Aramasını son kullanımımın ekran görüntüsü. Lisansüstü okuldayken, başkalarından ne pahasına olursa olsun yukarıdaki resimdeki gibi verileri nasıl bulacağımı söylemelerini isterdim. (Aslında, bunu lisansüstü okuldayken yapmak zorundaydım: diğer laboratuvarlara verileri için yalvaran uzun e-postalar yazmak ve bu genellikle işe yaramaz. Yeni yöntem çok uygun, ağla.)

Analitik devrimini hızlandırmak

Veri biliminde analitik, hızlı ilham gerektiren bir disiplindir. İstatistiklerden veya makine öğreniminden farklı olarak hız, analizdeki en önemli noktadır. (Güvenlik uğruna, iyi analistler yeni verileri takip etmeden önce pervasızca sonuç çıkarmalarına izin vermezler.)

Verileri ne kadar hızlı alırsanız, analitik becerileriniz o kadar güçlü olur.

Veri setlerine kolay erişimin faydaları nelerdir? Daha hızlı analiz!

Veri Kümesi Araması, tüm profesyonel analistlerin ve veri bilimcilerinin iş verimliliğini inanılmaz bir hızda artırabilir. (Ancak unutmayın, eğer gelişigüzel sonuç çıkarmak kolaysa, istatistiksel yöntemlerle dikkatlice takip etmelisiniz.)

Söylenen doğru, herhangi bir tuzak var mı?

Büyüdükçe, veri setleri çok nadir ve değerliyse ve bunlar yalnızca profesörler veya veri sağlayıcılar tarafından oluşturulmuşsa, verileri sağlayan kişinin verilerin kalitesinden sorumlu olduğunu hissedebilirsiniz (belki sağlayıcının bir veya iki doktora derecesi vardır) , Ve çoğumuz öyle düşünüyoruz! Çalışmalarınızda veya bilimsel araştırmalarınızda sık sık veri setlerini kullanıyorsanız, tüm veri setlerinin siz onları işlemeden önce dikkatlice sıralandığını da hissedebilirsiniz.

Gerçek veri bilimi, profesörler tarafından yetiştirilen kutsal bir toprak değil, vahşi doğada hayatta kalmaktır.

Şu an için bu içgörüleri bir kenara koyun ve başka bir tür hayal edin: meslekten olmayan kişilerin verilere tapınma üzerindeki olumsuz etkisi. "Veri" kelimesini söylemekte ciddi olan herkes, yapılandırılmış bir biçimde paketlenmiş tüm bilgilerin gerçek ve kullanılabilir olduğunu hissedebilir.

Uyan, veriler sihir değil. Makaleler, kitaplar veya veri kümeleri konusunda batıl inançlı olmayın. Burada verilerin doğası ve ibadeti hakkında daha fazla bilgi edinebilirsiniz.

Hayatınızdaki çoğu insanın verileriniz için kredi garantisi varsa veya birisi size verilere ve bilime tapmayı öğretirse, dünyanız çökebilir.

Size korkunç bir haber vermek gerekirse, veri seti sadece bir grup yapılandırılmış çöp olabilir. Artık kullanılamayabilir, sahte olabilir, 6 milyar sıfır olabilir, her şey mümkün. Tıpkı metin gibi!

"Kitapta yazılanlar doğru olmalı ..."

Sözlerden bahsetmişken: "Kitapta yazılanlar doğru olmalı ..." Değil mi? yanlış! Bu daha yakın / içe doğru mu? Bir adım: "İnternette yazılan doğru ..." Tamam, kızgın yüzlerinizi görüyorum ve çok memnunum. Bu cümleden şüphe etmeye başlamış olmalısın ve eğer yoksa, olmalı. Peki ya bu cümle? "Veri setinde yazılanlar doğru olmalı ..." Ne düşünüyorsunuz?

kitap! Doğru olmalı. ("Dünya Yuvarlak Değil" kitabının başlığı)

Bu dünyada insanlar ne isterlerse yazarlar, yani çöp her yerde. Gördüğünüz şeye doğrudan inanmak yerine, neden şeylerin kaynağı hakkında düşünmeye zaman ayırmıyorsunuz? Çok iyi, bu alışkanlık veri bilimiyle uğraşırken sizi güvende tutacaktır.

Verilere kelimelerden daha çok güveniyorsanız, dikkatli olun.

Verilere kelimelerden daha çok güveniyorsanız, dikkatli olun. Bu alışkanlığın gelişimi muhtemelen sessiz kalacaktır.

Verilerin büyük ve cesur bir şey olduğunu düşünmeyin. Google görsellerini arama ve tüm İnternet'i kullanma alışkanlığını yeniden eğitin. Google, bu kedi fotoğraflarına veya görünmezlik iksiri üretim yöntemlerine sahip değildir veya bunları düzenlememektedir (görünmezlik iksirlerinin işe yaramaz olduğunu herkes bilir, değil mi?) Ve çevrimiçi kaynakların kalitesi eşit değildir. Ne okursanız okuyun, eleştirel olmalısınız Kaynağı düşünün ve güvenilir olup olmadığına karar verin. İnternette o kadar çok şey var ki, kimse kolayca kandırılmıyor. Çoğu insan yapmaz. Bilge adamlar bile ara sıra bağlantılara veya "haftada 10 kedi" gibi garip hikayelere tıklar.

Veri seti araması için internette günlük eleştirel tutumunuzu kullanırsanız, kesinlikle yakalanmayacaksınız.

Veri kümesi arama sonuçlarını, diğer web arama sonuçlarını ele aldığınız gibi ele alın. Örneğin, aletler saman sepetleri taramanıza yardımcı olabilir, ancak kedilerin sürüklediği hasır sepetlerin kalitesinin yine de tekrar tekrar kontrol edilmesi gerekir.

Ancak zengin içerikli ancak farklı kalitede çok sayıda kedi ve kedi resim koleksiyonu ile 3 nefis kedi ve kedi resimleri koleksiyonu arasından seçim yapmak isterseniz yine de birincisini seçeceğim. (Pekala, ikisini de seçeceğim çünkü çok açgözlüyüm ... Elbette yapabilirsiniz. Arama araçları tek eşliliği uygulamaz.)

Ağ temelde çöplerden oluşuyor

İnternetteki her şey iyi değil. Ancak Google, spam'ı ortadan kaldırmak ve önce gerçek ve güvenilir sonuçlar önermek için elinden geleni yaptı. Evet, insanlar dikkat çekmek için internete çöp veri setleri koyacaklar ve puanlama da kaliteli şeyleri filtreleyebilecek. Tıpkı normal bir arama motoru gibi. Ancak bunlar kesinlikle mükemmelliği garanti edemez.

Başkalarının veri kümenizde arama yapmasına izin vermek için, veri kümesini kapsayan her web sayfasına yalnızca schema.org meta verilerini eklemeniz gerekir.

Başkalarının veri kümenizde arama yapmasına izin vermek için, veri kümesini kapsayan her web sayfasına yalnızca schema.org meta verilerini eklemeniz gerekir. Bunu herkes yapabilir, blog yazmak kadar basit. İçerik kötü olabilir, bu yüzden dikkatlice karar verin.

Uçsuz bucaksız veri denizine atlamadan önce ayık olmalısınız. Okuduğun her şeye inanma.

Veri kümeleri nasıl yüklenir ve schema.org nedir?

2011 yılında Google, Bing, Yandex, Microsoft ve Yahoo gibi tanınmış bir şirket schema.org'u düzenleme fikrini doğurdu. Bu şirketler, aldıkları web sayfalarının içeriğini tahmin edemeyecek kadar tembeldir, bu nedenle sağlayıcıların ne sağladıklarını açıklaması için ortak bir kelime hazinesi oluşturmak istiyorlar. Bu kelime dağarcığı, her bir bölümün olayları, adresleri, tarifleri veya diğer çeşitli şeyleri açıklayıp açıklamadığını belirtmek için HTML içine gömülebilir.

Çeşitli bilgi türlerini tanımlayabilen küçük bir özettir (adı gibi!). Schema.org'u bir web sayfasına eklerseniz ve web sayfasının bir veri kümesi olduğunu açıklarsanız, bu veri kümesi Veri Kümesi Aramasının arama sonuçlarında görünmeye uygun hale gelir.

Veri sağlayıcılar, herkese web sitelerinin bir veri kümesi olduğunu söylemek ve bazı ilgili meta verileri açıklamak için schema.org'u kullanır.

Bu Google'ın benzersiz büyüsü değil, herkesin katkıda bulunabileceği açık bir topluluktur. Birçok şirket bunu yıllardır sessizce kullanıyor.

Kaynak: Unsplash

Google'ın benzersiz katkısı, veri kümelerini aramak için DataSearch motorunu kullanmaktır. Veri sağlayıcıları, herkese web sitelerinin veri kümeleri olduğunu söylemek ve ilgili meta verileri tanıtmak için schema.org'u kullanabilir. Veri Kümesi Araması sıradan bir arama aracı gibidir, ancak arama sonuçları veri kümesinin sahibi olduğunu iddia eden web sayfalarıyla sınırlıdır. Kısa ve kullanışlıdır.

Veriler nasıl birleştirilir ve paylaşılır

Birkaç büyük sağlayıcı veri kaynağını kontrol ettiğinde ve her bir veriyi dikkatli bir şekilde oluşturmaktan sorumlu olduğunda (hükümet ve üniversiteler gibi), diğer küçük sağlayıcılar paylaşım kanallarından yoksun olacaktır.

Şu resmi hayal edin: Bir grup kadın lise öğrencisi müfredat dışı bir robotik projesine giriyor. Aynı hobilere sahip insanlara yardımcı olabilecek birçok veri toplarlar ve bu verileri paylaşmaya bile isteklidirler (çok güzeller). Lisenin resmi web sitesinde verilere bir bağlantı koyarlar ve bu veriler bir prototip yapmak için ihtiyacınız olan şeylerdir. ve sonra?

Kızlarla dolu bir Afgan robot grubu. Kaynak: SOURCE

Veri kümeleri aranamazsa, onu asla bulamazsınız. Bu verilerin dolaşımda olabilmesi için bir organizatör (örneğin hükümet) tarafından oluşturulması gerekiyorsa, kesinlikle yavaş bir şekilde sıralanmaları gerekecektir ... ve asla ilerleyemeyebilirler. Bilginin kapsamlı bir şekilde işlenmesi için kıt kaynakları kullanan veri sağlayıcıların sınırlı zamanı ve enerjisi vardır ve öncelikli paylaşım için çok az yer vardır. Bunun sonuçları? Ne kaçırdığını asla bilemezsin.

Veri seti aramasının yüksek bir değere sahip olmasının nedeni budur. (Dışarı çıkmanızı söyleyecek bir aracı yoktur) Veri paylaşmak, herkesin benzersiz bir zevki olsa bile insanların mükemmel kaynakları keşfedip sunabileceği anlamına gelir ... veya verileri lise resmi web sitesine koyması zor.

Aranabilecek verileri paylaşmak için:

1. Önce verilere sahip olmalısınız.

2. Verilerin varlığını schema.org aracılığıyla belirtin (bu adım kendiniz yapılabilir veya Zenodo gibi bir veritabanında otomatik olarak gerçekleştirilebilir)

Diğer tuzaklar

Yukarıdaki iki koşulu karşılamak ve verileri paylaşmak için her alanın tamamlanma koşulları farklıdır. Örneğin, hükümet veri setlerini endeksleyecektir. Dolayısıyla, hükümetlerin toplama eğiliminde olduğu çok sayıda veri seti (hava durumu verilerini toplayan var mı?) İyi adaylar iken, özel mülk ve pahalı veri toplama elde etmek zordur. Buna rağmen veriler her geçen gün artıyor ve arama hizmetleri hem ücretsiz hem de ücretli verilere kapı açıyor. (Bu biraz, Google Resimler'de filigran bulunan özel bir resim gibidir.) Seçim sizin ve ödemeye değip değmeyeceğine karar verme gücüne sahipsiniz.

İnsan görüşü

Veri kümesi araştırması açısından, devasa kullanıcı tabanı, veri bilimi ve veri okuryazarlığında insan evriminin bir sembolüdür. İnsanlar, duyusal kullanım ve bilgi alışverişi yollarını genişletirken bir tür olarak büyüyor.

Veri analizi herkesin oyuncağı haline geldi.

İnsanlar bir web sayfasını açtıklarında şaşırırlardı ve ardından tarayıcıda her veri noktası için bir tane olmak üzere 50 sekme açarlardı. Artık insanlar daha fazlasını arzuluyor. Örneğin, iş için veri kümelerini hızlı bir şekilde oluşturmak ve özetlemek için kodlama araçlarını (Python, R, vb.) Kullanabilirsiniz. Mevcut toplulukta, veri bir ortak dildir ve çok büyük bir miktardır. Giderek daha fazla insan veri becerilerini anlıyor ve artık yazılı sayfaları resimlerle kaplamaktan memnun değil. (Örneğin izlediğiniz bu sayfa, haha.)

Kaynak: SOURCE.

Veri okuma ve yazmanın evrimi

Tam da bu metni hazmettiğiniz zaman? , Beyninizin okuduklarınızdan bilgileri ayırmasına izin vermek için okuryazarlık becerilerine ihtiyacınız var. Herkes bu beceriyi hafife alır. Bu beceriye sahip birkaç kişi varsa, bu makale mevcut olmazdı. Google da mevcut olmayabilir.

Veri Kümesi Araması, veri okuma ve yazmanın demokratikleşmesinin yükselişte olduğunu gösteriyor.

Benzer şekilde Veri Kümesi Arama, veri okuma ve yazmanın demokratikleşmesinin yükselişte olduğunu gösteriyor. Genel gelişme tırmanmak ve yoga yapmak gibidir. "Verilerin işlenmesi artık düpedüz bir niş becerisi değil!" Artık hiyeroglifleri kil tabletler haline getiren birkaç yazar gibi değil. (Hayır, bu sadece yazı değil mi? Anlamı aynı.)

Çevrimiçi veri kümeleri, İnternet'in evrensel kurallarını izleyen, kendini ifade etmek için yeni araçlar sağlar.

Veri seti arama motoru, taşlar arasından değerli taşları seçebilir.

Kaynak: Unsplash

Veri kümeleri, tıpkı güzel ve yeni bir dil gibi, birçok insanın akıcı bir şekilde kullanabileceği ve her gün daha fazla öğrenebileceği yaygın bir iletişim biçimi haline geliyor. Çocukluğumuzdan beri veriler hakkında konuşan bizler için, arama sonuçlarını kendi dilimizde elde edebilmek büyük bir rahatlama.

Bu nedenle, Veri Kümesi Arama ile ilgili fikrim çok doğrudandır: "Nihayet geldi!"

Veri aramanın keyfini çıkarmaya devam etmek için sabırsızlanıyorum!

Yorum Beğen Takip Et

Yapay zeka öğrenme ve geliştirmenin kuru mallarını paylaşalım

Yeniden yazdırıyorsanız, lütfen arka planda bir mesaj bırakın ve yeniden yazdırma şartnamelerine uyun

Xinsheng bugün | Alipay "en nadir" aile fotoğraf kartı orijinal olarak böyle görünüyor, anladınız mı?
önceki
Maymun dünyasının sevgisini ve barışını koruyan 5 büyük kod kuralı
Sonraki
Bugünün temel sesi | harika! Tsinghua, dünyanın en etkili 2000 mekaniğinin listesini yayınladı
2020'deki teknoloji trendleri: İşletmelerin geleceğini değiştirmeye hazır
Bir patron olarak, en iyi geliştiricilerin istifa etmesini nasıl engelleyebilirsiniz?
Yüz tanımanın ardında: korkutucu olan teknoloji değil
Bugünün Temel Sesi | Bitcoin, yıl sonuna kadar 500.000 doları kırmayacak ve yumuşak katliam yapan babanın babası canlı yayın "özürlerini" mi yaşayacak?
Alınan dersler: Go öğrenmenin artıları ve eksileri
kaçırma! Sizi her zaman enerjik tutan 9 alışkanlık
Yeni yıl ve yeni atmosfer! Kodlama deneyimini geliştirmek için 5 VS Code eklentisi, harika
Aldatma ve pornografiden uzak, Deepfake araçlarını "insanlığa fayda sağlamak" için sorumlu bir şekilde nasıl kullanabilirim?
Xinsheng Bugün | Bir bilet aldınız mı? 2020 Bahar Şenliği Taşımacılığı resmi olarak bugün başladı
Göz kırpma! Sihirli yöntemin Python kodunun performansını nasıl artırdığını gördünüz mü?
Yapay zeka insanlar gibi öğrenebilir mi?
To Top