Bence herkes B istasyonuna aşinadır. Aslında B istasyonunda çok sayıda tarayıcı var. Bununla birlikte, kağıt üzerinde sığ hissediyorum ve bunu kişisel olarak yapmam gerektiğini kesinlikle biliyorum, bu yüzden buradayım. Son olarak, taranan toplam veri miktarı 7.6 milyon Makale.
Çalışmaya hazır
Önce B istasyonunu açın, ana sayfada bir video bulun ve içine tıklayın. Normal işlem, geliştirici araçlarını açın. Bu sefer amaç, B istasyonu tarafından sağlanan api'yi tarayarak video bilgilerini elde etmektir. Web sayfasını ayrıştırmadan, web sayfasını ayrıştırma hızı çok yavaştır ve IP tarafından engellenmesi kolaydır.
JS seçeneğini kontrol edin, F5 yenileyin
API'nin adresini buldum
Bir yere kopyalayın, gereksiz içeriği kaldırın, https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633 alın, bir tarayıcı ile açın, aşağıdaki json verilerini alacaksınız
El yazısı kod
Eh, kod burada kodlanabilir ve veriler istek yoluyla sürekli yineleme yoluyla elde edilir Tarayıcıyı daha verimli hale getirmek için çok iş parçacığı kullanılabilir.
Çekirdek kod
Yinelemeli tarama
Tüm projenin en önemli kısmı, oldukça kısa olan yaklaşık 20 satırlık koddur.
İşlemin etkisi kabaca şu şekildedir: Sayı, kaç bağlantının tarandığını gösterir.Aslında, tüm site bilgileri bir veya iki gün içinde taranabilir.
Taradıktan sonra ne yapacağıma gelince, bu benim hobime bağlı, önce csv dosyası olarak kaydedip sonra bir araya getirip veritabanına ekliyorum.
Veritabanı Tablosu
Bu içerikler birkaç ay önce tarandığından, veriler aslında biraz gecikiyor.
Toplam veri miktarı
Oynatılan ilk on videoyu sorgulayın
Yanıt olarak ilk on videoyu sorgulayın