g u t x .com.tr İpek yolu - Çin'i anlamaya götürürüm

Arama Motoru Teknolojisi Web Tarayıcısı

Web tarayıcı teknolojisi, arama motoru mimarisinde daha temel bir veri teknolojisidir.Web gezgini teknolojisi sayesinde, tüm arama motoru için veri desteği sağlayan bir ayna dosyası oluşturmak için İnternette on milyarlarca web sayfası bilgisini yerel olarak kaydedebiliriz.

1. Web tarayıcı teknolojisinin temel iş akışı ve altyapısı

Bir web tarayıcısının web sayfası bilgilerini elde etme yöntemi, web sayfalarına erişmek için genellikle bir tarayıcı kullandığımızla tamamen aynıdır. Bu, HTTP protokolüne göre elde edilir. İşlem esas olarak aşağıdaki adımları içerir:

1) Getirilecek URL'nin etki alanı adını çözümlemek için DNS etki alanı adı sunucusuna bağlanın (URL ------ > IP);

2) HTTP protokolüne göre, web sayfası içeriğini elde etmek için HTTP istekleri gönderin.

Aşağıdaki şekilde eksiksiz bir web tarayıcısı temel çerçevesi gösterilmektedir:

Tüm mimari aşağıdaki süreçlere sahiptir:

1) Talep eden, taranması gereken çekirdek URL'lerin bir listesini sağlar ve sağlanan URL listesine ve karşılık gelen önceliğe göre taranacak (önce gelen) URL'lerin bir sırasını oluşturur;

2) Taranacak URL kuyruğunun sırasına göre web sayfası taranması;

3) Elde edilen web sayfası içeriğini ve bilgilerini yerel web sayfası kitaplığına indirin ve taranan URL'lerin bir listesini oluşturun (kopyaları kaldırmak ve tarama sürecini değerlendirmek için kullanılır);

4) Taranan web sayfalarını taranacak URL sırasına koyun ve döngüsel tarama işlemleri gerçekleştirin;

2. Web tarayıcılarının tarama stratejisi

Tarayıcı sisteminde, taranacak URL sırası önemli bir kısımdır. Taranacak URL kuyruğundaki URL'lerin hangi sırayla düzenlendiği de çok önemli bir sorudur çünkü hangi sayfanın önce taranacağı ve daha sonra hangi sayfanın taranacağı sorusunu içerir. Bu URL'lerin sırasını belirleme yöntemine tarama stratejisi denir. Aşağıda, birkaç yaygın tarama stratejisine odaklanılmaktadır:

1) Derinlik ilk geçiş stratejisi

Derinlik ilk geçiş stratejisinin anlaşılması kolaydır, bu, yönlendirilmiş grafiğimizdeki derinlik ilk geçiş ile aynıdır, çünkü ağın kendisi bir grafik modelidir. Önce derinlik geçişi fikri, başlangıçtaki bir web sayfasından taramaya başlamak ve ardından, artık taramayana kadar bağlantıya göre tek tek taramak, bağlantıyı izlemeye devam etmek için önceki sayfaya dönmektir.

Yönlendirilmiş bir grafik derinliği arama örneği aşağıdaki gibidir:

Yukarıdaki şeklin sol görüntüsü, yönlendirilmiş bir grafiğin şematik bir diyagramıdır ve sağdaki görüntü, derinlik-öncelikli geçişin arama sürecinin şematik bir diyagramıdır. Önce derinlik geçişinin sonucu:

2) Kapsamlı ilk arama stratejisi

Önce enine arama ve derinlik aramasının çalışma yöntemleri görecelidir. Buradaki fikir, yeni indirilen web sayfasında bulunan bağlantıyı doğrudan taranacak URL kuyruğunun sonuna eklemektir. Bu, web tarayıcısının ilk olarak başlangıç web sayfasında bağlantılı tüm web sayfalarını tarayacağı ve ardından bağlantılı web sayfalarından birini seçeceği ve bu web sayfasında bağlantılı tüm web sayfalarını taramaya devam edeceği anlamına gelir.

Yukarıdaki şekil, yukarıdaki örneğin yönlendirilmiş grafiğinin en geniş arama akış şemasıdır ve geçişin sonucu:

v1 v2 v3 v4 v5 v6 v7 v8

Ağaç yapısı perspektifinden, grafiğin enine geçişi, ağacın seviye geçişidir.

3) Backlink arama stratejisi

Geri bağlantıların sayısı, diğer web sayfalarından bir web sayfasına giden bağlantıların sayısını ifade eder. Geri bağlantıların sayısı, bir web sayfasının içeriğinin başkaları tarafından ne derece tavsiye edildiğini gösterir. Bu nedenle, arama motorlarının tarama sistemi çoğu kez bu göstergeyi web sayfalarının önemini değerlendirmek için kullanacak ve böylece farklı web sayfalarının taranma sırasını belirleyecektir.

Gerçek ağ ortamında, reklam bağlantılarının ve hile bağlantılarının varlığı nedeniyle, geri bağlantıların sayısı tamamen başkaları tarafından beklenemez. Bu nedenle, arama motorları genellikle bazı güvenilir geri bağlantıları dikkate alır.

4) Büyük site öncelik stratejisi

URL sırasındaki taranacak tüm web sayfaları için ait oldukları web sitesine göre sınıflandırılırlar. İndirilecek çok sayıda sayfaya sahip web siteleri için önce indirin. Bu stratejiye bu nedenle büyük istasyon öncelik stratejisi denir.

5) Diğer arama stratejileri

Daha yaygın olarak kullanılan tarayıcı arama oranlarından bazıları, Kısmi PageRank arama stratejisini (PageRank puanına göre bir sonraki taranan URL'yi belirleme), OPIC arama stratejisini (ayrıca bir tür önem) içerir. Belirtilmesi gereken son şey, web sayfalarının tarama aralığını kendi ihtiyaçlarımıza göre ayarlayabileceğimizdir, böylece temel ana sitelerimizden bazılarının veya aktif site içeriğimizin gözden kaçmamasını sağlayabiliriz.

3. Web tarayıcısı güncelleme stratejisi

İnternet gerçek zamanlı olarak değişir ve oldukça dinamiktir. Web sayfası güncelleme stratejisi, esas olarak önceden indirilen sayfaların ne zaman güncelleneceğini belirlemektir. Üç yaygın güncelleme stratejisi vardır:

1) Tarihsel referans stratejisi

Adından da anlaşılacağı gibi, sayfanın önceki geçmiş güncelleme verilerine dayanarak sayfanın gelecekte ne zaman değişeceğini tahmin edin. Genel olarak, tahminler Poisson süreç modellemesi yoluyla yapılır.

2) Kullanıcı deneyimi stratejisi

Arama motorları belirli bir sorgu koşulu için çok sayıda sonuç döndürebilseler de, kullanıcılar genellikle yalnızca sonuçların ilk birkaç sayfasına dikkat ederler. Bu nedenle, tarama sistemi önce, aslında sorgu sonucunun ilk birkaç sayfasında bulunan web sayfalarını güncelleyebilir ve daha sonra bu web sayfalarını güncelleyebilir. Bu güncelleme stratejisi ayrıca geçmiş bilgileri de gerektirir. Kullanıcı deneyimi stratejisi, web sayfalarının birden çok geçmiş versiyonunu korur ve geçmiş her içerik değişikliğinin arama kalitesi üzerindeki etkisine göre ortalama bir değer elde eder ve bu değeri ne zaman yeniden taranacağına karar vermek için temel olarak kullanır.

3) Küme örnekleme stratejisi

Yukarıda bahsedilen iki güncelleme stratejisinin bir önermesi vardır: web sayfasının geçmiş bilgileri gereklidir. Bu şekilde iki sorun vardır: Birincisi, sistem her sistem için birden fazla geçmiş bilgi sürümünü kaydederse, şüphesiz çok fazla sistem yükünü artıracaktır; ikincisi, yeni web sayfasında hiç geçmiş bilgisi yoksa, güncelleme stratejisi belirlenemez.

Bu strateji, web sayfalarının birçok özniteliğe sahip olduğuna ve benzer özniteliklere sahip web sayfalarının benzer güncelleme sıklıklarına sahip olduğuna inanmaktadır. Belirli bir web sayfası kategorisinin güncelleme sıklığını hesaplamak için, yalnızca bu web sayfası kategorisini örneklemeniz ve tüm kategorinin güncelleme döngüsü olarak güncelleme döngülerini kullanmanız gerekir. Basit fikir aşağıdakiler gibidir:

4. Dağıtılmış kapma sistemi yapısı

Genel olarak, tarama sisteminin İnternet'in tamamında yüz milyonlarca web sayfasıyla yüzleşmesi gerekir. Tek bir tarayıcının böyle bir görevi gerçekleştirmesi imkansızdır. Bunu birlikte ele almak için genellikle birden fazla kapma programı gerektirir. Genel olarak konuşursak, tarama sistemi genellikle dağıtılmış üç katmanlı bir yapıdır. resim gösterdiği gibi:

En alt katman, farklı coğrafi konumlara dağıtılmış veri merkezleridir. Her veri merkezinde birkaç tarama sunucusu vardır ve her bir tarama sunucusu, dağıtılmış birkaç tarama programına sahip olabilir. Bu, temel bir dağıtılmış tarama sistemi oluşturur.

Bir veri merkezinde farklı kapma sunucuları için birlikte çalışmanın birkaç yolu vardır:

1) Efendi-Köle

Master-slave tipinin temel yapısı şekilde gösterilmiştir:

Master-slave modu için, taranacak URL'lerin sırasını muhafaza etmek için özel bir Master sunucu vardır.Her seferinde farklı Slave sunuculara URL'leri dağıtmaktan sorumludur ve Slave sunucu gerçek web sayfası indirme işinden sorumludur. Taranacak URL kuyruğunu korumaya ve URL'leri dağıtmaya ek olarak, Ana sunucu aynı zamanda her Bağımlı sunucunun yüküne aracılık etmekten de sorumludur. Bazı Slave sunucularından kaçınmak için çok boş veya yorgun.

Bu modda, Master'ın bir sistem darboğazı haline gelmesi genellikle kolaydır.

2) Eşler Arası

Eşler arası denklemin temel yapısı şekilde gösterilmiştir:

Bu modda, tüm sürünen sunucular arasında iş bölümünde hiçbir fark yoktur. Her bir tarama sunucusu, taranacak URL kuyruğundan URL'yi ve ardından URL'nin ana etki alanı adının hash değerini H alabilir ve ardından H mod m'yi hesaplayabilir (burada m, sunucu sayısıdır, yukarıdaki şekil bir örnektir, m 3) için hesaplanan sayı, URL'yi işleyen ana bilgisayar numarasıdır.

Örnek: www.baidu.com URL'si için hesap makinesi karma değerinin H = 8, m = 3, ardından H mod m = 2 olduğunu ve böylece 2 numaralı sunucunun bağlantıyı alacağını varsayalım. Sunucu 0'ın şu anda URL'yi aldığını varsayarsak, URL'yi sunucu 2'ye iletir ve sunucu 2 onu alır.

Bu modelde bir sorun var. Bir sunucu çöktüğünde veya yeni bir sunucu eklendiğinde, tüm URL'lerin kalan hash değerinin sonucu değişecektir. Başka bir deyişle, bu yaklaşımın ölçeklenebilirliği iyi değil. Bu duruma yanıt olarak, başka bir iyileştirme planı önerildi. Bu geliştirilmiş şema, sunuculardaki işbölümünü belirlemek için tutarlı bir karmadır. Temel yapısı şekilde gösterilmiştir:

Tutarlı hashing, URL'nin ana alan adını hashler ve 0 ile 232 arasında değişen bir sayıya eşler. Bu aralık m sunuculara eşit olarak dağıtılır ve URL ana etki alanı adının karma işleminin değer aralığı, tarama için hangi sunucunun kullanıldığına karar verilir.

Belli bir sunucuda bir sorun varsa o sunucudan sorumlu olması gereken web sayfaları saat yönünde ertelenecek ve bir sonraki sunucu onu alacaktır. Bu durumda, bir sunucuda bir sorun varsa, diğer işleri etkilemeyecektir.

Xiaotu, sana "gerçeklik" denmesi iyi bir şey değil

Wenzhou Gang'ın Fortis'teki son güçlü hisse senetleri, Nanhua Biyoteknoloji Analizi