为什么今日头条发布的许多文章在知名浏览器上搜不到？

网编 2023年03月08日 09:17 285 0

弄清楚这个问题，需要先了解下其背后的原理。

首先更正下这个问题，搜索结果与浏览器无关，而是浏览器上使用的搜索引擎相关的。

什么是浏览器？

浏览器是一个展示网页内容的应用，比如像QQ浏览器，谷歌浏览器，360浏览器，火狐浏览器等供我们浏览网页的软件应用；

什么是搜索引擎？

搜索引擎是供用户搜索内容的软件服务，比如像百度，谷歌，360，bing,搜索等等。

搜索引擎的原理？

可以举个例子来理解，比如字典工具，我们只需要知道一个词的拼音，或者笔画就可以快速的找到这个词的详细内容所在的页面。

搜索引擎也是类似的，首先收集网络上大量的内容，然后对这些内容进行处理，建立相应的类似于字典的索引，用户在输入内容搜索时，就可以快速的返回相关内容的地址。

为什么搜不到那？

上面已经说明了搜索引擎的原理，把网络上所有的内容都建立索引，按理是应该可以搜索到的才对呀，但是却搜不到，为什么那？

搜索引擎在爬取内容时，需要遵循一个叫做robots的协议。

robots协议也叫robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以获取的。

头条文章的robots协议地址：，内容如下

User-agent: *

Disallow: /

Allow: /complain/

Allow: /media_partners/

Allow: /about/

Allow: /user_agreement/

Allow: /$

User-agent: ByteSpider

Allow: /

User-agent: ToutiaoSpider

Allow: /

表示的时只让头条的网络蜘蛛爬取，而禁止其他搜索引擎爬取，因此这些文章在头条可以搜索到，而其他搜索引擎不可以搜索到。