蜘蛛爬行:搜索引擎派出“蜘蛛”(網頁抓取程序)進行網頁抓取,爬取網頁時一般采用深度優先、寬度優先或最佳優先策略;抓取建庫:將蜘蛛抓取到的網頁放到原始數據庫中,并丟棄掉不符合抓取規則的網頁;網頁處理:對符合規則的網頁進行預處理,主要包括網頁結構化、分詞、降噪、建立索引等;檢索服務:根據用戶提交的關鍵詞從數據庫中將符合匹配規則的網頁調取,并根據權重排序規則對其進行排序;結果展示:將排序好的網頁按不同的方式呈現給用戶。
本文地址:http://knowyourextract.com//article/27632.html