搜索引擎是如何判斷網(wǎng)頁的相關(guān)性的

相關(guān)性是指內(nèi)容和關(guān)鍵詞的相關(guān)程度�，F(xiàn)在搜索引擎其實并沒有真正解決相關(guān)性計算的問題，只是通過關(guān)鍵詞分詞匹配、關(guān)鍵詞在內(nèi)容中的頻率密度、關(guān)鍵詞字體位置和頁面外鏈等表面特征來進(jìn)行內(nèi)容相關(guān)度的計算。當(dāng)下搜索引擎還不能真正理解搜索詞和文章所表達(dá)的含義，所以也使得部分內(nèi)容應(yīng)該有排名但實際上卻沒有的現(xiàn)象�，F(xiàn)在搜索引擎判斷相關(guān)性般會采用關(guān)鍵詞匹配和語義分析兩種判斷方法。
搜索引擎對索引庫的檢索過程可以簡單描述如下:
(1)把用戶提交的搜索詞分成詞A 和詞B。
(2) 同時使用詞A 和詞B 在索引庫中進(jìn)行檢索，并提出所有包含詞A 或者詞B 的文件，
組成文件集合L。
(3)在文件集合L 中把同時包含詞A和詞B的文件優(yōu)先提出來組成文件集合M排在前面，
把只包含詞A或詞B的文件排在后面。
(4) 繼續(xù)對文件集合M進(jìn)行分析，把完全包含用戶搜索詞的文檔提出來組成文件集合N,并排在前面，把內(nèi)容中沒有完全匹配搜索詞的文件排在后面。
(S) 再根據(jù)搜索詞在網(wǎng)頁中出現(xiàn)的次數(shù)、位置、密度和形式等對文件集合N中的文件進(jìn)行排序。
(6) 搜索引擎還會分析文件的外鏈數(shù)量、質(zhì)量和錨文本，根據(jù)錨文本輔助分析文件和關(guān)鍵詞的相關(guān)度、外鏈的數(shù)量和質(zhì)量來確定文件的重要程度，以進(jìn)行排序調(diào)整。
以上只是簡單模擬搜索引擎的檢索排序過程，為了描述方便，引入了“文件集合”。在整個檢索和排名過程中，關(guān)鍵詞匹配程度、密度、頻率、位置、形式和外鏈情況會應(yīng)用到所有文件上,而不僅僅是上文所提到的文件集合上。由以上檢索排序模擬過程可以看出，搜索引擎判斷個網(wǎng)頁或者文件與搜索詞的相關(guān)度，主要根據(jù)文件中關(guān)鍵詞出現(xiàn)的頻率(次數(shù))、密度(占全部內(nèi)容的比例)、終分詞后關(guān)鍵詞之間的距離(是否完全匹配)、位置和形式(是否在標(biāo)題、內(nèi)容比較靠前的位置以及是否黑體、變色、H標(biāo)簽等突出顯示)、文件外鏈錨文本(是否和內(nèi)容有統(tǒng)的文本描述) 等，外鏈的數(shù)量和質(zhì)量并不是判斷內(nèi)容相關(guān)性的因素，只是判斷文件重要程度、內(nèi)容質(zhì)量或可信任程度的標(biāo)準(zhǔn)。