为什么今日头条发布的许多文章在知名浏览器上搜不到?

科技网编2023-03-08 09:172620

弄清楚这个问题,需要先了解下其背后的原理。

首先更正下这个问题,搜索结果与浏览器无关,而是浏览器上使用的搜索引擎相关的。

什么是浏览器?

浏览器是一个展示网页内容的应用,比如像QQ浏览器,谷歌浏览器,360浏览器,火狐浏览器等供我们浏览网页的软件应用;

什么是搜索引擎?

搜索引擎是供用户搜索内容的软件服务,比如像百度,谷歌,360,bing,搜索等等。

搜索引擎的原理?

可以举个例子来理解,比如字典工具,我们只需要知道一个词的拼音,或者笔画就可以快速的找到这个词的详细内容所在的页面。

搜索引擎也是类似的,首先收集网络上大量的内容,然后对这些内容进行处理,建立相应的类似于字典的索引,用户在输入内容搜索时,就可以快速的返回相关内容的地址。

为什么搜不到那?

上面已经说明了搜索引擎的原理,把网络上所有的内容都建立索引,按理是应该可以搜索到的才对呀,但是却搜不到,为什么那?

搜索引擎在爬取内容时,需要遵循一个叫做robots的协议。

robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以获取的。

头条文章的robots协议地址:,内容如下

User-agent: *

Disallow: /

Allow: /complain/

Allow: /media_partners/

Allow: /about/

Allow: /user_agreement/

Allow: /$

User-agent: ByteSpider

Allow: /

User-agent: ToutiaoSpider

Allow: /

表示的时只让头条的网络蜘蛛爬取,而禁止其他搜索引擎爬取,因此这些文章在头条可以搜索到,而其他搜索引擎不可以搜索到。

头条悟空问答的robots协议地址:,内容如下,

User-agent: *

Disallow: /static/game*

表示除了一些静态内容,都可以爬取。因此所有搜索引擎都是可以爬取的,然后可以被搜索的。

为什么今日头条发布的许多文章在知名浏览器上搜不到?

评论区