为什么今日头条发布的许多文章在知名浏览器上搜不到?
弄清楚这个问题,需要先了解下其背后的原理。
首先更正下这个问题,搜索结果与浏览器无关,而是浏览器上使用的搜索引擎相关的。
什么是浏览器?
浏览器是一个展示网页内容的应用,比如像QQ浏览器,谷歌浏览器,360浏览器,火狐浏览器等供我们浏览网页的软件应用;
什么是搜索引擎?
搜索引擎是供用户搜索内容的软件服务,比如像百度,谷歌,360,bing,搜索等等。
搜索引擎的原理?
可以举个例子来理解,比如字典工具,我们只需要知道一个词的拼音,或者笔画就可以快速的找到这个词的详细内容所在的页面。
搜索引擎也是类似的,首先收集网络上大量的内容,然后对这些内容进行处理,建立相应的类似于字典的索引,用户在输入内容搜索时,就可以快速的返回相关内容的地址。
为什么搜不到那?
上面已经说明了搜索引擎的原理,把网络上所有的内容都建立索引,按理是应该可以搜索到的才对呀,但是却搜不到,为什么那?
搜索引擎在爬取内容时,需要遵循一个叫做robots的协议。
robots协议也叫robots.txt(统一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以获取的。
头条文章的robots协议地址:,内容如下
User-agent: *
Disallow: /
Allow: /complain/
Allow: /media_partners/
Allow: /about/
Allow: /user_agreement/
Allow: /$
User-agent: ByteSpider
Allow: /
User-agent: ToutiaoSpider
Allow: /
表示的时只让头条的网络蜘蛛爬取,而禁止其他搜索引擎爬取,因此这些文章在头条可以搜索到,而其他搜索引擎不可以搜索到。
头条悟空问答的robots协议地址:,内容如下,
User-agent: *
Disallow: /static/game*
表示除了一些静态内容,都可以爬取。因此所有搜索引擎都是可以爬取的,然后可以被搜索的。