當前網頁檔案信息的主要采集策略有兩種,分別是完全性采集策略和部分性采集策略。完全性收集策略是指對網頁的所有信息進行收集。目前,瑞典、奧地利和美國的多個網頁檔案保存項目采用了完全性采集策略。完全性采集策略的優勢在于不需要人工對網頁內容進行判斷和復制,而是完全由機器完成這一操作,因此其成本較低。對于小型的、資金較為缺乏的檔案管理部門,可適當地選擇完全性收集策略,但需要注意對信息進行過濾。內容結構和類型較為單一的網站可通過設置關鍵詞對無用信息進行過濾,同時建立定期的人工審核機制。
部分性采集策略是指有選擇地對網頁的某個類型或者學科的內容進行收集,因此其內容的專業性較強,主題也十分鮮明。與完全性采集策略不同的是,部分性采集以價值判斷為基礎,通過制定完善的采集標準限定采集的內容,因此標準是否合理就成為部分性采集是否成功的決定性因素。對此,檔案管理部門在選擇部分性采集策略時,應充分考慮到網頁檔案信息的動態變化性,對網頁信息實行動態監控,并及時調整采集策略,不斷提高網頁采集的覆蓋率。
本文地址:http://knowyourextract.com//article/28943.html