WordPress屏蔽spider

See Also:有效指引爬虫对应的措施

WordPress上安装一个Spider Blocker插件,点击“编辑”,将要屏蔽的spider加进去。如:屏蔽Yandex、YisouSpider等,将以下内容加入index.php

array(
'name' => 'Yandex',
're' => 'Yandex',
'desc' => 'http://help.yandex.com/search/?id=1112030',
'state' => true,
),
array(
'name' => 'Google Bot',
're' => 'googlebot',
'desc' => 'https://support.google.com/webmasters/answer/182072?hl=en',
'state' => false,
),
array(
'name' => 'Yisou',
're' => 'Yisou',
'desc' => '',
'state' => true,
),
array(
'name' => 'Etao',
're' => 'Etao',
'desc' => '',
'state' => true,
),
array(
'name' => 'Easou',
're' => 'Easou',
'desc' => '',
'state' => true,
),

其中state为true表示spider被屏蔽,state为false表示爬虫可以正常运行,编辑结束后,点击“保存”。然后在服务器上执行:

curl -I -A "Yandex" blog-scottwang.rhcloud.com

执行结果为:

HTTP/1.1 403 Forbidden
Date: Tue, 16 May 2017 01:40:03 GMT
Server: Apache/2.2.15 (Red Hat)
Content-Type: text/html; charset=iso-8859-1

Yandex已被禁止。

唯一不爽的地方是:WordPress后台修改是修改的服务器上代码,本地代码push到服务器上,重新部署后会覆盖刚刚SpiderBlocker的修改,所以需要在本地修改SpiderBlocker代码。

此条目发表在web分类目录,贴了标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用*标注