【網站建設】[SEO優化]如何防止假蜘蛛抓取內容?
高頻率發布原創內容的網站很容易遭到虛假搜索引擎蜘蛛的攻擊,以竊取網站原創內容!那么怎么分辨真假搜索引擎蜘蛛呢?分辨后又怎么去禁止虛假搜索引擎蜘蛛偷取網站內容呢?
一、什么是假蜘蛛?
搜索引擎爬蟲我們稱之為蜘蛛,假蜘蛛即偽裝成搜索引擎的爬蟲。目的就是掩人耳目的去爬取采集網站的內容。
普通的爬蟲很容易被站點發現屏蔽,對于搜索引擎蜘蛛站點都是沒什么警惕心,希望多來抓取可以有效增加收錄量和速度。
二、如何鑒別假蜘蛛
網站日志會記錄所有訪問ip的請求頭即user-agent,通過修改蜘蛛的請求頭為搜索引擎公布的蜘蛛的UA名。
因此,我們光看日志是無法直接辨別真假蜘蛛的。大多數搜索引擎都是ip反查,比如我們通過windows電腦cmd中使用nslookp反查蜘蛛的ip能夠獲取到對應搜索引擎解析的為真蜘蛛,在這種方法下假蜘蛛無法遁形。
但是問題是如果不能事實鑒別假蜘蛛,內容被采集走了在屏蔽也失去了意義。
三、如何防止假蜘蛛抓取內容?
1、添加蜘蛛白名單
有些蜘蛛無法支持反查,我們可以把這類蜘蛛的ip段添加白名單,同時我們對于網站反查到的蜘蛛ip經過人工確定之后,也同樣加入白名單。可以防止程序出錯時誤屏蔽蜘蛛,以及加快程序的響應速度。
2、原創保護防采集
對于其他的爬蟲我們還是需要去檢測同一個ip是否有大段時間大量訪問的行為,對于異常ip我們可以使用驗證碼等方式驗證,這也是基于我們擁有了通過ip鑒別蜘蛛的前提下,可以避免誤傷搜索引擎的抓取任務采集。
只要你的內容可以顯示就可以有辦法采集,要想完全避免是不可能的,是雙方之間的一場博弈。
以上就是《[SEO優化]如何防止假蜘蛛抓取內容?》的全部內容,僅供站長朋友們互動交流學習,SEO優化是一個需要堅持的過程,希望大家一起共同進步。
墨殤SEO
快來評論,快來搶沙發吧~