欢迎来到知产交易网
帮助中心

知产交易网

热门搜索: 商标转让    公众号   

被爬虫访问耗费大量流量的解决方法

  • 时间:2022-05-10 22:12 编辑:江阴小程序 来源:江阴小程序开发 阅读:352
  • 扫一扫,手机访问
摘要:在站点根目录下创建robots.txt文件,robots.txt文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。说明:robots协议也叫robots.txt,robots协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。根据更多信息中的搜索引擎

在站点根目录下创建robots.txt文件,robots.txt文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。

说明:robots协议也叫robots.txt,robots协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

根据更多信息中的搜索引擎和其对应的User-Agent,Robots.txt代码样例如下所示:


    • 特定三个目录需要分别并列写。

    • 请注意最后需要带斜杠。

    • 禁止所有搜索引擎访问网站的任何位置。


      User-agent:
      Disallow: /
    • 允许所有的搜索引擎访问网站的任何位置。


      User-agent:
      Disallow:
    • 仅禁止Baiduspider搜索引擎访问您的网站。


      User-agent: Baiduspider
      Disallow: /
    • 仅允许Baiduspider访问您的网站。


      User-agent: Baiduspider
      Disallow:
    • 禁止spider搜索引擎访问特定目录。


      User-agent: *
      Disallow: /cgi-bin/
      Disallow: /tmp/
      Disallow: /data/
      说明
    • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。


      User-agent: *
      Allow: /a/b.htm
      Disallow: /a/

更多信息

目前搜索引擎和其对应的User-Agent如下所示。

搜索引擎User-Agent
AltaVistaScooter
baiduBaiduspider
InfoseekInfoseek
HotbotSlurp
AOL SearchSlurp
ExciteArchitextSpider
GoogleGooglebot
GotoSlurp
LycosLycos
MSN Slurp
NetscapeGooglebot
NorthernLightGulliver
WebCrawlerArchitextSpider
IwonSlurp
FastFast
DirectHit Grabber
Yahoo Web PagesGooglebot
LooksmartWebPagesSlurp


声明:本文系本网编辑转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请立即与本网邮箱 7016867@qq.com 联系,我们将在第一时间删除内容!
  • 全部评论(0)
上一篇:管理助手启动时出错:无法使用cacls命令
下一篇:已是最后一篇内容
资讯详情页最新发布上方横幅
最新发布的资讯信息
【经验心得|前端技巧】Pbootcms模板安装教程(2022-07-14 15:47)
【经验心得|前端技巧】pbootcms模板后台编辑器无法上传图片提示:后端配置项没有正常加载,上传插件不能正常使用(2022-05-26 21:31)
【经验心得|设置维护】PHPWEB出现 Mysql version can not be less than 4.1 的解决办法(2022-05-26 21:30)
【经验心得|前端技巧】怎么做站内锚链接(2022-05-26 21:29)
【经验心得|设置维护】Pbootcms安全设置教程(2022-05-17 17:13)
【经验心得|设置维护】管理助手启动时出错:无法使用cacls命令(2022-05-12 16:36)
【经验心得|脚本代码】用这款浏览器插件解除所有防止网页复制的限制(2022-05-12 15:26)
【经验心得|设置维护】被爬虫访问耗费大量流量的解决方法(2022-05-10 22:12)
【行业政策|即时新闻】辟谣,传言1100万人近期将离开上海?(2022-05-01 12:14)
【行业政策|即时新闻】日本大叔因上班看中国泳装网站 下载了约1万多张泳装照片遭处分(2022-05-01 12:12)
联系我们
Q Q:7016867
电话:13775048177
邮箱:7016867@qq.com
时间:08:00 - 17:00
联系客服
商家入驻 在线客服 联系客服
13775048177
手机版

扫一扫进手机版
返回顶部