(1)提取文字
現(xiàn)在的搜索引擎還是以文字內(nèi)容為基礎(chǔ),從網(wǎng)頁文件中去除標(biāo)簽、程序,提取出可以用于排名的網(wǎng)頁文字內(nèi)容。
同時,需要注意,在優(yōu)化網(wǎng)站時,頁面內(nèi)容盡量以文字為主,方便蜘蛛提取用于排名的內(nèi)容。
(2)中文分詞
搜索引擎將抓取到的頁面中的文字提取出來后,需要對提取出的文字進(jìn)行拆分重組,這個過程稱為中文分詞。
英文等語言,單詞與單詞之間有空格作為天然分隔,搜索引擎索引程序可以直接把句子劃分為單詞的結(jié)合。而中文,詞與詞之間沒有任何分隔符,一個句子中的所有字和詞都是連在起的。 搜索引擎必須首先分辨哪幾個字組成一個詞, 哪些字本身就是一個詞。
進(jìn)行中文分詞時,首先要把網(wǎng)頁中提取的文字按照詞組進(jìn)行劃分,比如“連衣裙批發(fā)”可以分詞為“連衣裙”“批發(fā)”“連衣裙批發(fā)”。
在分詞時,對內(nèi)容沒有任何影響卻大量出現(xiàn)的詞會被搜索引擎自動過濾,如的、地、得、啊、哦、呀、不但、而且等。
搜索引擎對頁面的分詞取決于詞庫的規(guī)模、準(zhǔn)確性和分詞算法的好壞,而不是取決于頁面本身如何,因此SEO人員對于分詞所能做的很少。唯一能做的是在頁面上用某種形式提示搜索引擎,某幾個字應(yīng)該被當(dāng)做一個詞處理,尤其是可能產(chǎn)生歧義的時候,比如在頁面標(biāo)題處出現(xiàn)關(guān)鍵詞,或者使用標(biāo)簽強(qiáng)調(diào)關(guān)鍵詞。
(3)去除重復(fù)頁面
將分詞后的頁面進(jìn)行對比,去除重復(fù)內(nèi)容的頁面。
同一篇文章經(jīng)常會重復(fù)出現(xiàn)在不同網(wǎng)站及同一個網(wǎng)站的不同網(wǎng)址上,搜索引擎并不喜歡這種重復(fù)性的內(nèi)容。用戶搜索時,如果在搜索結(jié)果頁排名靠前的位置看到的都是來自不同網(wǎng)站的同一篇文章,用戶體驗就會很差。對于搜索引擎而言,更傾向于網(wǎng)站更新高質(zhì)量的原創(chuàng)內(nèi)容,這樣做符合搜索引擎的基本原則。
搜索引擎傾向于原創(chuàng),因此,SEO人員應(yīng)該知道簡單地增加“的”“地”“得”、調(diào)換段落順序這種所謂的偽原創(chuàng),并不能逃過搜索引擎的去重算法。優(yōu)化網(wǎng)站時,更新高質(zhì)量的內(nèi)容才是真理。
(4)計算網(wǎng)頁重要度
搜素引擎會根據(jù)網(wǎng)頁的被指向鏈接數(shù)及頁面的原創(chuàng)性兩個因素綜合判斷,計算出頁面的重要程度。
因此,為網(wǎng)站增加指向鏈接、提高頁面的原創(chuàng)度,是SEO人員應(yīng)該重視的內(nèi)容。
(5)建立索引
建立索引,是建立關(guān)鍵詞與網(wǎng)站建設(shè)頁之間的對應(yīng)關(guān)系。建立索引的最大好處在于可以快速獲取對應(yīng)的數(shù)據(jù)。簡單來說,搜索一個關(guān)鍵詞后,搜索引擎能夠在很短的時間內(nèi)將所有相關(guān)的內(nèi)容進(jìn)行展現(xiàn),依靠的就是提前對頁面建立了索引。
本文地址:http://knowyourextract.com//article/4390.html