调研原因
调研方法
- 查看 robots协议
Robots协议是网站跟搜索引擎之间的一种协议,也称为爬虫协议、机器人协议等。Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。它以ASCII编码的文本文件形式存在,一般存放在网站根目录下。当一个搜索蜘蛛访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。Robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。
所以通过查看 robots协议可以知道有网站是否主动屏蔽了搜索引擎。
2.使用 site高级指令查看收录情况,site指令在【搜索引擎高级用法】中有介绍,可以指定搜索引擎在某网站去搜索内容。这里基于这个特性,可以反映出百度对于该网站的收录情况、收录倾向。
调研网站
- 知乎:未屏蔽
https://www.zhihu.com/robots.txt - B 站:未屏蔽
https://www.bilibili.com/robots.txt - 微信公众号:屏蔽,只有搜狗能搜
https://mp.weixin.qq.com/robots.txt - 小红书:全屏蔽
https://www.xiaohongshu.com/robots.txt - 抖音:大部分都屏蔽了
https://www.douyin.com/robots.txt - 快手:允许
https://www.kuaishou.com/robots.txt - 简书:允许
https://www.jianshu.com/robots.txt - 今日头条:文章等部分允许
https://www.toutiao.com/robots.txt - 稀土掘金:部分屏蔽
https://juejin.cn/robots.txt - CSDN:允许
https://www.csdn.net/robots.txt - 博客园: 全部允许
https://www.cnblogs.com/robots.txt - github:只禁止了百度😂
https://github.com/robots.txt
总结
从上面调研的结果看对于百度搜索引擎,各个平台的规律大概是这样子。小厂小公司的,尤其是不涉及直播带货的,倾向于对百度和所有搜索引擎开放内容。而其他大厂大平台的,几乎都把百度拒之门外了。对于百度而言,微信公众号、头条、和小红书等都把百度给屏蔽了,而这三个恰好都是现在自媒体图文最热的平台,所以在图文这一块,百度的内容来源就很拮据了。另一方面有趣的是视频内容方面,其实快手和 B 站都没有对百度进行屏蔽的,但奈何百度不争气,视频搜索能力跟没有的一样。在视频搜索领域,百度和谷歌的差距就更大了。
说完百度内容的来源受限,但分析玩后我发现这不是百度现在搜索质量差的全部原因。还有自身的原因,广告原因就不多说了(也懒得说)。我发现除了内容来源受限以外,百度搜索能力进步也比较有限以及运营策略比较短视。搜索能力进步慢应该是没竞争的原因,文本搜索在中文领域其实还算得上第二。但是前面提到的视频搜索就差谷歌一大截了,明明B站和快手两大平台都没有屏蔽百度,但视频搜索能力真的残废。另一个就是运营策略了,内容偏向百家号太明显了,谷歌坐拥 blogger 那么大的平台,无数的优质内容都在平台上。谷歌都没偏向自家的内容平台。百度这种策略只能说短期对自己百家号有一定引流作用,但是长期看这无疑是降低百度搜索体验,搜索引擎一旦有人为的控制展示结果而非由内容质量去排名,那长此以往下去肯定把用户推走。