200.000 "tanımlanamayan" resim içeriyor, bu veri seti ofiste açılmamalıdır

Awa Fei Tapınağı'ndan Mitsui

Qubit Üretildi | Genel Hesap QbitAI

Son zamanlarda, 200.000'den fazla "tarif edilemez" görüntü içeren bir veri kümesi GitHub'da sessizce ortaya çıktı.

Bu veri seti içeriği 5 kategoriye ayırır, yani:

hentai, seksi, tarafsız, çizimler, porno.

Bu kaynağa katkıda bulunan kişi, Alexander Kim adlı bir veri bilimcisi.

Bu veri setlerinin görüntü sınıflandırıcıları eğitmek için kullanılabileceğini, CNN tarafından yapılan sınıflandırıcıyı kullanarak yukarıdaki beş görüntü türünü ayırt etme doğruluğunun% 91'e ulaşabileceğini söyledi.

Elbette bu veri setinin değeri bununla da sınırlı değil. Hassas bir içerik filtreleme aracı (pornografik bir araç gibi) veya çeşitli görüntü oluşturma modelleri olsun, ilgili veri kümeleri vazgeçilmezdir.

Herhangi bir fikriniz varsa, ellerinizle alıştırma yapmak için bu veri setini kullanabilirsiniz.

Bu veri kümesi kaynağı artık GitHub Trending'de 3. sırada.

Veri setinde neler var?

Veri setinde toplam 227995 resim bulunmaktadır.

Bunlar arasında hentai kategorisinde 45228, seksi kategoride 19.554; nötr kategoride 20.960 ve çizimlerde 25.732 ve en çok da porno kategorisinde 116.521 ile.

Bu resimler bağlantı şeklinde sunulmuştur. Seksi kategoriyi örnek olarak alın:

Bu bağlantıların tümü tamamen geçerli değildir ve bazı 404'ler vardır.

Nasıl bildiğimi sorma ...

Bu veri seti nasıl kullanılır?

Veri kümesinin kullanımı temelde bazı betiklere dayanır (betikler dizininde bulunur). Onlar:

  • 1_get_urls.sh: Metin dosyasında gezinin ve yukarıdaki 5 kategorinin her birinin resim URL'sini betikler / kaynak_urller olarak indirin. Ancak, bu komut dosyası çalıştırılmıştır ve çıktı raw_data dosyasındadır. Özel bir gereklilik yoksa, doğrudan aşağıdaki komut dosyasından çalışmaya başlayabilirsiniz.
  • 2_download_from_urls.sh: raw_data dizinindeki metin dosyasında bulunan URL'nin gerçek görüntüsünü indirin.
  • 3_optional_download_drawings.sh: Danbooru2018 veri setinden işyerleri için uygun animasyon görüntülerini indirmek için (isteğe bağlı) komut dosyası.
  • 4_optional_download_neutral.sh: Caltech256 veri kümesinden işyerleri için uygun nötr görüntüleri indirmek için (isteğe bağlı) komut dosyası.
  • 5_create_train.sh: data / train dizinini oluşturun, tüm .jpg ve .jpeg dosyalarını raw_data içine kopyalayın ve hasarlı resimleri silin.
  • 6_create_test.sh: Bir veri / test dizini oluşturun ve data / train'den her kategori için N = 2000 dosyayı rastgele taşıyın. (Farklı bir eğitim / test bölümüne ihtiyacınız varsa, bu sayıyı komut dosyasında değiştirebilirsiniz). Ayrıca bu komut dosyasını birden çok kez çalıştırabilirsiniz, her seferinde her kategorinin N resmini data / train'den data / test'e taşıyabilirsiniz.

Özel çalışma modu aşağıdaki gibidir:

$ bash 1_get_urls.sh # zaten çalıştırıldı $ bul ../raw_data -name "urls _ *. txt" -exec sh -c "echo {} :; cat {} | wc -l" \; ../Raw_data/drawings/urls_drawings.txt içindeki URL sayısı: 25732 ../Raw_data/hentai/urls_hentai.txt içindeki URL sayısı: 45228 ../Raw_data/neutral/urls_neutral.txt içindeki URL sayısı: 20960 ../Raw_data/sexy/urls_sexy.txt içindeki URL sayısı: 19554 ../Raw_data/porn/urls_porn.txt içindeki URL sayısı: 116521 $ bash 2_download_from_urls.sh $ bash 3_optional_download_drawings.sh # isteğe bağlı $ bash 4_optional_download_neutral.sh # isteğe bağlı $ bash 5_create_train.sh $ bash 6_create_test.sh $ cd ../data $ ls tren çizimler hentai nötr porno seksi $ ls testi çizimler hentai nötr porno seksi

Bununla birlikte, bir kullanım yöntemi vermiş olan coşkulu Weibo netizenleri de vardır:

Çalışma ortamı

Şu anda, bu komut dosyaları yalnızca Ubuntu 16.04 Linux dağıtımında test edilmiştir.

Gerekli ortam yapılandırması:

  • Python3 ortamı: conda env create -f environment.yml
  • Java çalışma zamanı ortamı:
  • (Ubuntu linux): sudo apt-get install varsayılan-jre
  • Linux komut satırı araçları: wget, convert, rsync, shuf

Portal

Portalı vermeden önce, yine de erken uyarı vermek gerekir:

İşteyken veri setinin içeriğini izlemeniz tavsiye edilmez.

https://github.com/alexkimxyz/nsfw_data_scrapper

- Bitiş -

Samimi işe alım

Qubit, editörleri / muhabirleri işe alıyor ve merkezi Pekin, Zhongguancun'da bulunuyor. Yetenekli ve hevesli öğrencilerin bize katılmasını dört gözle bekliyoruz! Ayrıntılar için, lütfen QbitAI diyalog arayüzünde "işe alım" kelimesiyle yanıt verin.

Qubit QbitAI · Toutiao İmzalayan Yazar

' ' Yapay zeka teknolojisi ve ürünlerindeki yeni eğilimleri takip edin

6-5, Barcelona Real Madrid'i geçti! Bu yılki Dünya Kupası'nda en çok gol atan kulüp olun
önceki
800.000 Toyota tarım aracı, boyut olarak bir sekoya ile karşılaştırılabilir ve lüks 3 kişilik yatak da 4 kişi için gevşek.
Sonraki
Neredeyse ağlamak! Güney Koreli kadın hayranlar tribünde Alman tatlılarını yendi ancak estetik ameliyat olmadı
Bu Koreli araba aslında Toyota Prado'ya meydan okumaya cesaret etti.
En kötü eleme takımı! Üç gollü mağlubiyet taraftarlar tarafından lanetlendi ve yenilgi kurtarıcı olacak
Resmi daha gerçekçi hale getirin! Bu gelişmiş süper çözünürlüklü GAN, eski oyunları ikinci baharda başlatıyor
Parkour oyunu, aslında Pepsi tarafından yapılan, baba düzeyinde bir şaheserdir! Sadece Zhai'ye içki satmak için mi?
Bu SUV logosu Şahlanan At Ferrari ile karşılaştırılabilir ve iç mekan düşük profilli bir BMW'ye benziyor, ancak yalnızca 60.000
Çin Süper Ligi oyuncuları, şampiyonlarını savunmak için kafa sallayıp Dünya Kupası'na tekme attılar.Güney Kore ve Almanya birlikte öldü
WeChat AI tamamlanıyor: Tüm dünyayı dolaşmak ve ardından yüzünüzü fırçalamak için para harcamak için kodlar var
Arabada otururken önünüzde büyük bir ekran var Bu araba Tesla'dan çok daha göz kamaştırıcı
BYD, bir satış noktası olarak görünümüne bağlıdır Bu Audi tasarımcısı yetkin olabilir mi?
Dünya Kupası sahnesinde solucan gerçekten ağacı salladı ve "HU" sesinin ardından başını kaldırdı ve eve gitti.
Yerel bir zorbayla karşılaşan "Raptor" düğün arabası otoriterdir, ancak sorulduğunda bu araba aslında sadece 100.000'in biraz üzerinde satılır.
To Top