# 对于任何的网络爬虫来源，遵守如下协议
User-agent: * 
# Disallow 表示不允许访问
Disallow: /?* 			
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
# 以下四个网络爬虫不允许爬取任何资源
User-agent: EtaoSpider 		
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /

基本协议语法：

# 注释
* 代表所有
./代表根目录
User-agent: *		# 代表的是那些爬虫
Disallow: /			# 代表不允许爬虫访问的目录

其他网站的一些Robots协议（但并不是所有网站都有robots协议）：

百度：http://www.baidu.com/robots.txt
新浪新闻：http://news.sina.com.cn/robots.txt
腾讯：http://www.qq.com/robots.txt
腾讯新闻：http://news.qq.com/robots.txt
国家教育部：http://www.meo.edu.cn/robots.txt （注：无robots协议）

Robots协议的遵守方式

Robots的使用

网络爬虫：自动或人工识别robots.txt，再进行内容爬取。

约束性：Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险。

对Robots协议的理解

爬取网页，玩转网页：

访问量很小：可以遵守

访问量较大：建议遵守

爬取网站，爬取系列网站：

非商业且偶尔：建议遵守

商业利益：必须遵守

爬取全网：

必须遵守

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » Python_爬虫2_爬虫引发的问题

点赞(0) 打赏

本文分类：文章资讯
本文标签：Python_爬虫2_爬虫引发的问题
浏览次数：11 次浏览
本文链接：https://freeymw.com/article/37671.html

上一篇 > 时钟之CSS+JS版
下一篇 > 【大数据测试HBase数据库 — 详细教程（含实例与监控调优）】

评论列表共有 0 条评论

暂无评论

Python_爬虫2_爬虫引发的问题

爬虫引发的问题

网络爬虫的尺寸

网络爬虫引发的问题

网络爬虫的限制

Robots协议

案例：京东的Robots协议

基本协议语法：

Robots协议的遵守方式

Robots的使用

对Robots协议的理解

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复