搜索引擎為用戶展現的每一條搜索結果,都對應着互聯網上的一個頁面。每一條搜索結果從產生到被搜索引擎展現給用戶,都需要經過四個過程:抓取、過濾、建立索引和輸出結果。

1、關於抓取(對應的4種鏈接提交方式)

抓取是基礎,那麼是什麼因素影響着百度蜘蛛的抓取頻率和數量呢?百度給出了官方答覆:

(1),網站更新頻率:更新快多來,更新慢少來,直接影響Baiduspider的來訪頻率

(2),網站更新質量:更新頻率提高了,僅僅是吸引了Baiduspier的注意,Baiduspider對質量是有嚴格要求的,如果網站每天更新出的大量內容都被Baiduspider判定為低質頁面,依然沒有意義。

(3),連通度:網站應該安全穩定、對Baiduspider保持暢通,經常給Baiduspider吃閉門羹可不是好事情

(4),站點評價:百度搜索引擎對每個站點都會有一個評價,且這個評價會根據站點情況不斷變化,是百度搜索引擎對站點的一個基礎打分(絕非外界所說的百度權重),是百度內部一個非常機密的數據。站點評級從不獨立使用,會配合其它因子和閾值一起共同影響對網站的抓取和排序。

2、關於過濾(過濾掉垃圾內容,底層庫內容)

百度會自己過濾掉一些垃圾頁面,哪些是垃圾頁面?下面是官方答覆:

(1), 重複內容的網頁:互聯網上已有的內容,百度必然沒有必要再收錄。

(2), 主體內容空短的網頁

【1】有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎拋棄

【2】加載速度過慢的網頁,也有可能被當作空短頁面處理,注意廣告加載時間算在網頁整體加載時間內。

【3】很多主體不突出的網頁即使被抓取回來也會在這個環節被拋棄。

(3), 部分作弊網頁

3、關於建庫(內容為王,你發的文章是否進入了優質庫)

百度抓回來的頁面,會根據頁面的質量把這些頁面分別放到優質庫、普通庫、低質庫中去。那麼百度如何判斷一個頁面的質量的呢?以下是官方的答覆:

(1),對用戶的價值:

【1】內容獨特,百度搜索引擎喜歡unique的內容

【2】主體突出,切不要出現網頁主體內容不突出而被搜索引擎誤判為空短頁面不抓取

【3】內容豐富

【4】廣告適當

(2),鏈接重要程度

【1】目錄層級——淺層優先

【2】鏈接在站內的受歡迎程度,內鏈

4、關於輸出結果(權重、權重、還是權重)

最後,百度會根據用戶搜索的關鍵詞,第一是把相關的網頁從索引庫中提取出來,第二是把提取出來的網頁按照不同維度的得分進行綜合排序。“不同維度”包括:

(1),相關性:網頁內容與用戶檢索需求的匹配程度,比如網頁包含的用戶檢查關鍵詞的個數,以及這些關鍵詞出現的位置;外部網頁指向該頁面所用的錨文本等

(2),權威性:用戶喜歡有一定權威性網站提供的內容,相應的,百度搜索引擎也更相信優質權威站點提供的內容。

(3),時效性:時效性結果指的是新出現的網頁,且網頁內承載了新鮮的內容。目前時效性結果在搜索引擎中日趨重要。

(4),重要性:網頁內容與用戶檢查需求匹配的重要程度或受歡迎程度

(5),豐富度:豐富度看似簡單卻是一個覆蓋範圍非常廣的命題。可以理解為網頁內容豐富,可以完全滿足用戶需求;不僅可以滿足用戶單一需求,還可以滿足用戶的延展需求。

(6),受歡迎程度:指該網頁是不是受歡迎。

周彥充QQ:596220609,微信:zycbat 歡迎和我交流