◆網(wǎng)址規(guī)范化問(wèn)題會(huì)產(chǎn)生復(fù)制內(nèi)容;
◆代理商和零售商從產(chǎn)品生產(chǎn)商那里轉(zhuǎn)載產(chǎn)品信息,這倒沒(méi)什么不對(duì),一般生產(chǎn)商也都同意,沒(méi)有版權(quán)問(wèn)題,但是絕大部升代理商、零售商、批發(fā)商都是直接copy而不做任何改動(dòng),大家用的都是一模一樣的產(chǎn)品說(shuō)明,所以這些電子商務(wù)網(wǎng)站上充斥著大量復(fù)制內(nèi)容;
◆打印版本,很多網(wǎng)站除了正常供瀏覽的頁(yè)面外,還提供更適于打印的頁(yè)面版本;
◆如果沒(méi)有用適當(dāng)方式禁止抓取,這些打印版本網(wǎng)頁(yè)就會(huì)變成復(fù)制內(nèi)容 ;
◆網(wǎng)站結(jié)構(gòu)造成的各種頁(yè)面版本。如產(chǎn)品列表按價(jià)格、評(píng)論、上架時(shí)間等排序頁(yè)面博客的分類存檔、時(shí)間存檔等;
◆網(wǎng)頁(yè)內(nèi)容由RSS生成。有很多網(wǎng)站,尤其是新聞?lì)惥W(wǎng)站,用其他網(wǎng)站的 RSS feed生成網(wǎng)站內(nèi)容,這些內(nèi)容在原始出處和很多其他類似網(wǎng)站上都已經(jīng)出現(xiàn)過(guò)很多次了;
◆使用Session ID,搜索引擎蜘蛛在不同時(shí)間訪問(wèn)網(wǎng)頁(yè)的時(shí)候,被給予了不同的SessionID,實(shí)際上網(wǎng)頁(yè)內(nèi)容是一樣的。由于Session ID參數(shù)不同,就被當(dāng)成了不同的網(wǎng)頁(yè)實(shí)質(zhì)內(nèi)容太少。每個(gè)網(wǎng)頁(yè)上都不可避免地有通用部分,比如導(dǎo)航條、版權(quán)聲明、廣告等。如果網(wǎng)頁(yè)的正文部分太短,內(nèi)容數(shù)量還抵不上通用部分,就有可能被認(rèn)為是復(fù)制內(nèi)容頁(yè)面;
◆轉(zhuǎn)載及抄表。有時(shí)是其他人抄襲了你的網(wǎng)站內(nèi)容,有時(shí)是善藯的轉(zhuǎn)載,有時(shí)是作者自己在不同網(wǎng)站發(fā)布文章,這些都會(huì)造成復(fù)制內(nèi)容
◆鏡象網(wǎng)站,鏡象網(wǎng)站曾經(jīng)很流行,當(dāng)一個(gè)網(wǎng)站太忙太慢的時(shí)候,用戶可以通過(guò)替代鏡象來(lái)看內(nèi)容或下載,這也有造成復(fù)制內(nèi)容的風(fēng)險(xiǎn);
◆產(chǎn)品或服務(wù)類型之間的區(qū)別比較小,比如有的網(wǎng)站把自己的服務(wù)按地區(qū)進(jìn)行分類,但實(shí)際上提供給每個(gè)地區(qū)的產(chǎn)品或服務(wù)都是一樣的。這些按地區(qū)分類的頁(yè)面只是把地名改了改,其他服務(wù)內(nèi)容說(shuō)明完全一樣;
◆URL任意加字符還是返回200狀態(tài)碼。有的網(wǎng)站由于技術(shù)原因,用戶在URL后加上任意字符或參數(shù),服務(wù)器還能正常返回200狀態(tài)碼,并返回沒(méi)加上任意字符時(shí)樣的重復(fù)內(nèi)容頁(yè)面;
檢查頁(yè)面是否有復(fù)制版本相對(duì)簡(jiǎn)單。合肥網(wǎng)站設(shè)計(jì)拿出頁(yè)面正文中的一句話,加上雙引號(hào),在搜索引擎中搜索一下,從結(jié)果中就能看到是否有多個(gè)頁(yè)面包含這句話。一般來(lái)說(shuō),隨機(jī)挑選的一個(gè)句子,完整出現(xiàn)在另一篇無(wú)關(guān)文章中的可能性很低 。
本文地址:http://knowyourextract.com//article/2777.html