相關(guān)性是指內(nèi)容和關(guān)鍵詞的相關(guān)程度,F(xiàn)在搜索引擎其實并沒有真正解決相關(guān)性計算的問題,只是通過關(guān)鍵詞分詞匹配、關(guān)鍵詞在內(nèi)容中的頻率密度、關(guān)鍵詞字體位置和頁面外鏈等表面特征來進(jìn)行內(nèi)容相關(guān)度的計算。當(dāng)下搜索引擎還不能真正理解搜索詞和文章所表達(dá)的含義,所以也使得部分內(nèi)容應(yīng)該有排名但實際上卻沒有的現(xiàn)象,F(xiàn)在搜索引擎判斷相關(guān)性般會采用關(guān)鍵詞匹配和語義分析兩種判斷方法。
搜索引擎對索引庫的檢索過程可以簡單描述如下:
(1)把用戶提交的搜索詞分成詞A 和詞B。
(2) 同時使用詞A 和詞B 在索引庫中進(jìn)行檢索,并提出所有包含詞A 或者詞B 的文件,
組成文件集合L。
(3)在文件集合L 中把同時包含詞A和詞B的文件優(yōu)先提出來組成文件集合M排在前面,
把只包含詞A或詞B的文件排在后面。
(4) 繼續(xù)對文件集合M進(jìn)行分析,把完全包含用戶搜索詞的文檔提出來組成文件集合N,并排在前面,把內(nèi)容中沒有完全匹配搜索詞的文件排在后面。
(S) 再根據(jù)搜索詞在網(wǎng)頁中出現(xiàn)的次數(shù)、位置、密度和形式等對文件集合N中的文件進(jìn)行排序。
(6) 搜索引擎還會分析文件的外鏈數(shù)量、質(zhì)量和錨文本,根據(jù)錨文本輔助分析文件和關(guān)鍵詞的相關(guān)度、外鏈的數(shù)量和質(zhì)量來確定文件的重要程度,以進(jìn)行排序調(diào)整。
以上只是簡單模擬搜索引擎的檢索排序過程,為了描述方便,引入了“文件集合”。在整個檢索和排名過程中,關(guān)鍵詞匹配程度、密度、頻率、位置、形式和外鏈情況會應(yīng)用到所有文件上,而不僅僅是上文所提到的文件集合上。由以上檢索排序模擬過程可以看出,搜索引擎判斷個網(wǎng)頁或者文件與搜索詞的相關(guān)度,主要根據(jù)文件中關(guān)鍵詞出現(xiàn)的頻率(次數(shù))、密度(占全部內(nèi)容的比例)、終分詞后關(guān)鍵詞之間的距離(是否完全匹配)、位置和形式(是否在標(biāo)題、內(nèi)容比較靠前的位置以及是否黑體、變色、H標(biāo)簽等突出顯示)、文件外鏈錨文本(是否和內(nèi)容有統(tǒng)的文本描述) 等,外鏈的數(shù)量和質(zhì)量并不是判斷內(nèi)容相關(guān)性的因素,只是判斷文件重要程度、內(nèi)容質(zhì)量或可信任程度的標(biāo)準(zhǔn)。