天蠶在你身邊


不方便打電話?讓天蠶聯絡你

解說URL權重,以目錄深度評估網頁重要度參考
1、URL權值的設定:根據URL的目錄深度來定,深度是多少,權值就減少多少,權值最小為零。
2、URL中出現字符”/”,”?”,或”&” 1次,則權值減1,出現”search”,”proxy”,或”gate” 1次,則權值減2;最多減到零。
(包含”?”,或”&”的URL是帶參數的形式,需要經過被請求方程序服務獲得網頁,不是搜索引擎系統側重的靜態 網頁,因此權值相應降低。包含”search”,”proxy”,或”gate”,說明該網頁極大可能是搜索引擎中檢索的結果頁面,代理頁面,因此要降低 權值)。
3、定URL初始權值為10(此值設定的越小,從未訪問URL集合中排序輸出就越快。但是也不能太小,否則URL的權值意義就不大了,導致搜集策略不明顯);
4、選擇未訪問URL的策略。
因為權值小不一定說明不重要,所以有必要給一定的機會搜集權值小的未訪問URL。選擇未訪問URL的策略可以采用輪流 的方法進行,一次按照權值排序取,一次隨機取;或者N次按照權值排序取,M次隨機取(N1,M1)。
N,M 的選擇可以根據系統實際運行情況獲得。
例如:URL多樣化
抓取優先級
爬蟲順著一個個的URL在互聯網上抓取網頁,它一邊下載這個網頁,一邊在提取這個網頁中的鏈接。假設從搜索引擎某一個節點出來的爬蟲有爬蟲A、爬蟲B、爬蟲C,當它們到達www.ifaceseo.com這個網站的時候,每個爬蟲都會抓取到很多URL
這里會有一個待抓取列表
重慶網絡公司
地址:重慶市渝中區上清寺鑫隆達B座28-8
郵編:400015
電話:023-63612462
EMAIL:cnjl_net@163.com