【網(wǎng)站建設(shè)】[SEO優(yōu)化]如何防止假蜘蛛抓取內(nèi)容?

墨殤 2019-11-10 04:15 159 ℃ 0 條

　　高頻率發(fā)布原創(chuàng)內(nèi)容的網(wǎng)站很容易遭到虛假搜索引擎蜘蛛的攻擊，以竊取網(wǎng)站原創(chuàng)內(nèi)容!那么怎么分辨真假搜索引擎蜘蛛呢?分辨后又怎么去禁止虛假搜索引擎蜘蛛偷取網(wǎng)站內(nèi)容呢?

　　一、什么是假蜘蛛?

　　搜索引擎爬蟲我們稱之為蜘蛛，假蜘蛛即偽裝成搜索引擎的爬蟲。目的就是掩人耳目的去爬取采集網(wǎng)站的內(nèi)容。

　　普通的爬蟲很容易被站點(diǎn)發(fā)現(xiàn)屏蔽，對(duì)于搜索引擎蜘蛛站點(diǎn)都是沒(méi)什么警惕心，希望多來(lái)抓取可以有效增加收錄量和速度。

　　二、如何鑒別假蜘蛛

　　網(wǎng)站日志會(huì)記錄所有訪問(wèn)ip的請(qǐng)求頭即user-agent,通過(guò)修改蜘蛛的請(qǐng)求頭為搜索引擎公布的蜘蛛的UA名。

　　因此，我們光看日志是無(wú)法直接辨別真假蜘蛛的。大多數(shù)搜索引擎都是ip反查，比如我們通過(guò)windows電腦cmd中使用nslookp反查蜘蛛的ip能夠獲取到對(duì)應(yīng)搜索引擎解析的為真蜘蛛，在這種方法下假蜘蛛無(wú)法遁形。

　　但是問(wèn)題是如果不能事實(shí)鑒別假蜘蛛，內(nèi)容被采集走了在屏蔽也失去了意義。

　　三、如何防止假蜘蛛抓取內(nèi)容?

　　1、添加蜘蛛白名單

　　有些蜘蛛無(wú)法支持反查，我們可以把這類蜘蛛的ip段添加白名單，同時(shí)我們對(duì)于網(wǎng)站反查到的蜘蛛ip經(jīng)過(guò)人工確定之后，也同樣加入白名單。可以防止程序出錯(cuò)時(shí)誤屏蔽蜘蛛，以及加快程序的響應(yīng)速度。

　　2、原創(chuàng)保護(hù)防采集

　　對(duì)于其他的爬蟲我們還是需要去檢測(cè)同一個(gè)ip是否有大段時(shí)間大量訪問(wèn)的行為，對(duì)于異常ip我們可以使用驗(yàn)證碼等方式驗(yàn)證，這也是基于我們擁有了通過(guò)ip鑒別蜘蛛的前提下，可以避免誤傷搜索引擎的抓取任務(wù)采集。

　　只要你的內(nèi)容可以顯示就可以有辦法采集，要想完全避免是不可能的，是雙方之間的一場(chǎng)博弈。

　　以上就是《[SEO優(yōu)化]如何防止假蜘蛛抓取內(nèi)容?》的全部?jī)?nèi)容，僅供站長(zhǎng)朋友們互動(dòng)交流學(xué)習(xí)，SEO優(yōu)化是一個(gè)需要堅(jiān)持的過(guò)程，希望大家一起共同進(jìn)步。

墨殤SEO

本文地址： http://www.c1675.com/webSEO/32702.html

版權(quán)聲明：本文發(fā)布于等風(fēng)也等你內(nèi)容均來(lái)源于互聯(lián)網(wǎng) 如有侵權(quán)聯(lián)系刪除