在不违反被爬网站robots协议的情况下，对一个公开访问的论坛内容(如豆瓣)进行数据抓取和保存，这样合法吗？

网编 2023年03月07日 17:59 313 0

感谢悟空小秘书的邀请

类似百度、360搜等搜索引擎企业，它们会有全网爬虫的，24小时不间断对全网进行爬取。如果这样的网络爬虫不合法的话，那么这些企业都要关门了。

这些搜索引擎爬虫在爬取网站之前，都会看下该站点下是否有 robots.txt。然后按照 rbots.txt 里面定义的规则对该网站进行爬取。

所以制作爬虫程序，强烈建议遵循 robots 规则。另外，爬取网站的数据不得用于商业用途。例如将爬取到的网站数据售卖给网站的竞争对手等。

遵循这两点，就不算违法了。

喜欢的、觉得有用的麻烦点个赞，万分感谢~

个人微信公众号：极客猴（ID：Geek_monkey）

自己坚持分享 Python 原创干货，包括基础入门，进阶技巧，网络爬虫，数据分析，Web 应用开发等。欢迎关注~

标签： #网站 #爬虫 #引擎 #搜索 #网络

上一篇蘑菇街的商业模式是如何进化的？

下一篇良心推荐几款好用的BB霜？

评论列表

留言评论取消回复