在不违反被爬网站robots协议的情况下,对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存,这样合法吗?
感谢悟空小秘书的邀请
类似百度、360搜等搜索引擎企业,它们会有全网爬虫的,24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话,那么这些企业都要关门了。
这些搜索引擎爬虫在爬取网站之前,都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。
所以制作爬虫程序,强烈建议遵循 robots 规则。另外,爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。
遵循这两点,就不算违法了。
喜欢的、觉得有用的麻烦点个赞,万分感谢~
个人微信公众号:极客猴(ID:Geek_monkey)
自己坚持分享 Python 原创干货,包括基础入门,进阶技巧,网络爬虫,数据分析,Web 应用开发等。欢迎关注~