显示标签为“百度”的博文。显示所有博文
显示标签为“百度”的博文。显示所有博文

2023年10月15日星期日

百度站长提交 sitemap需要备案了

     如题,应该是最近才有的改动。目前添加网站可以正常添加,但是添加验证完后提交 sitemap页面已经是需要备案的提示了。未备案的域名无法提交 sitemap,我去看了国内其他家比如 360、搜狗等都还没有要求提供。我估计是百度自己加点的限制,可能是风控审核压力比较大吧。从上一次百度统计的后台提示需要域名备案开始预示着这一步是有可能的了,下面更进一步估计非备案的域名百度不给收录了,估计现在也差不多了。很多个人的博客没有备案的在百度的权重都不高。

    

      国内的个人站点生态越来越难了

2023年10月11日星期三

快进到百度统计需要 icp

     今天打开百度统计看看网站流量,就在我一如既往地先登录。然后查看概览,虽然流量有点少,但还没察觉到有问题。

统计概览

    然后点击查看报告,进去后台查看详细数据,依然是熟悉的界面,仍然没发现问题

后台数据

    继续点击实时分析,习惯性下拉到最下面。就在这时候,发现问题了,下面访问的详细记录已经看不到了。我以为是 bug问题,多次刷新也无果。

实时数据无法查询

    最后在往上看,网页上方有红色的提示,原来是使用该功能需要 ICP备案了🤦‍♂️提示写到:

为了满足法律法规及政府监管的最新规定和要求,保护广大网民的合法权益,您的网站由于存在数据出境风险将无法使用百度统计实时访客功能。涉及域名:cnblog.mangoeffect.net、blog.mangoeffect.net、mangoeffect.net。需完成ICP备案后方可使用该功能,有问题可发送邮件至[email protected] 与我们联系。如已完成ICP备案/整改,请点击此处进行检测。

 

 ICP备案要求提示
    只能说一切都开始加速了,估计很快百度站长也需要备案才能用了。最后没备案百度也不收录,真就局域网一个。

2023年9月26日星期二

小调研:有多少主流中文网站把百度爬虫给拉黑了

 调研原因

    虽然好久不用百度搜索了,但是看网上讨论百度搜索摆烂和中文互联网已死的话题还时不时冒出来。所以就想小小调研一下其中背后的原因。这两个话题是息息相关的,百度搜索质量下降、中文互联网枯竭表现出来都是你在开放的web上搜不到、浏览不到多元的质量高的内容。而今天想研究的是作为最大的中文互联网搜索引擎,究竟是因为什么原因搜索不到质量高的多元的内容了。

调研方法

  1. 查看 robots协议
简单介绍一下 robots协议
Robots协议是网站跟搜索引擎之间的一种协议,也称为爬虫协议、机器人协议等。
Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。它以ASCII编码的文本文件形式存在,一般存放在网站根目录下。当一个搜索蜘蛛访问一个站点时,会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
Robots协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。

所以通过查看 robots协议可以知道有网站是否主动屏蔽了搜索引擎。 

     2.使用 site高级指令查看收录情况,site指令在【搜索引擎高级用法】中有介绍,可以指定搜索引擎在某网站去搜索内容。这里基于这个特性,可以反映出百度对于该网站的收录情况、收录倾向。

调研网站

  1. 知乎:未屏蔽
    https://www.zhihu.com/robots.txt


  2. B 站:未屏蔽
    https://www.bilibili.com/robots.txt


  3. 微信公众号:屏蔽,只有搜狗能搜
    https://mp.weixin.qq.com/robots.txt


  4. 小红书:全屏蔽
    https://www.xiaohongshu.com/robots.txt


  5. 抖音:大部分都屏蔽了
    https://www.douyin.com/robots.txt


  6. 快手:允许
    https://www.kuaishou.com/robots.txt
  7. 简书:允许
    https://www.jianshu.com/robots.txt


  8. 今日头条:文章等部分允许
    https://www.toutiao.com/robots.txt


  9. 稀土掘金:部分屏蔽
    https://juejin.cn/robots.txt
  10. CSDN:允许
    https://www.csdn.net/robots.txt
  11. 博客园: 全部允许
    https://www.cnblogs.com/robots.txt
  12. github:只禁止了百度😂
    https://github.com/robots.txt
    好家伙,就算屏蔽了百度也照样继续爬取,不讲武德🤣。但似乎在平时默认搜索上,几乎看不到这些屏蔽的平台内容在前排。估计是仅在 site指令下搜索会看得到,算是调研中的一个意外惊喜,后续想搜微信公众号内容就方便了。



总结

    从上面调研的结果看对于百度搜索引擎,各个平台的规律大概是这样子。小厂小公司的,尤其是不涉及直播带货的,倾向于对百度和所有搜索引擎开放内容。而其他大厂大平台的,几乎都把百度拒之门外了。对于百度而言,微信公众号、头条、和小红书等都把百度给屏蔽了,而这三个恰好都是现在自媒体图文最热的平台,所以在图文这一块,百度的内容来源就很拮据了。另一方面有趣的是视频内容方面,其实快手和 B 站都没有对百度进行屏蔽的,但奈何百度不争气,视频搜索能力跟没有的一样。在视频搜索领域,百度和谷歌的差距就更大了。

    说完百度内容的来源受限,但分析玩后我发现这不是百度现在搜索质量差的全部原因。还有自身的原因,广告原因就不多说了(也懒得说)。我发现除了内容来源受限以外,百度搜索能力进步也比较有限以及运营策略比较短视。搜索能力进步慢应该是没竞争的原因,文本搜索在中文领域其实还算得上第二。但是前面提到的视频搜索就差谷歌一大截了,明明B站和快手两大平台都没有屏蔽百度,但视频搜索能力真的残废。另一个就是运营策略了,内容偏向百家号太明显了,谷歌坐拥 blogger 那么大的平台,无数的优质内容都在平台上。谷歌都没偏向自家的内容平台。百度这种策略只能说短期对自己百家号有一定引流作用,但是长期看这无疑是降低百度搜索体验,搜索引擎一旦有人为的控制展示结果而非由内容质量去排名,那长此以往下去肯定把用户推走。

2023年9月24日星期日

blogger镜像站优化方案

     在架设镜像站后,算是基本解决了大陆地区访问的问题。上一篇【blogger 添加百度站长】后也解决大陆地区搜索引擎收录的问题,但整体还是存在一些问题的,不够完备。比如目前还存在以下问题

  1. 镜像站的 sitemap内容是错误的,存放的不是镜像的域名地址

  2. 镜像后的站内地址无法自动替换为镜像的域名(估计是 blogger 固定地址的原因,同样镜像 hugo的pages站点就没这个问题)

优化方案

    对于第一个问题,解决办法上篇文章就提到了,就是手动提交。对于个人日常博客,手动提交的工作量其实也还好,对百度的要求就是能收录到就可以。(截止目前只有 Google 收录了,必应都还没收录)


    
    对于第二个问题,之前也尝试了 nginx反向代理的内容替换,但是看起来也不起作用。不知道是否是配置有问题,暂时一个比较麻烦的想法就是做一个独立页面,收录归档镜像站的网址。如此一来有一个页面可以收录全部的镜像地址,方便被墙的朋友可以访问到。


blogger 添加百度站长

     由于墙的存在,默认情况下 blogger 的站点百度是不会收录的。但自定义域名加上 cloudflare代理后估计百度是能收录的,但是等默认收入估计得等到猴年马月去了。最近给blogger 加了一个面向大陆地区的镜像站https://cn.mangodaily.xyz,所以想着把镜像站添加到百度站长后台去。设想理想状态是百度收录镜像站,国内用百度搜索搜索到镜像站链接,国外则是谷歌,如此一来哪里访问都不耽误。


添加步骤

  1. 注册百度站长,登录后台,点击添加网站,填写域名信息

  2. 填写站点属性,最多勾选3 个

  3. 验证网站所有权,由于无法完全拥有 blogger 服务器根目录操作权限,这里选择 html验证方式

  4. 复制提示中代码,到 blogger 后台,主题,自定义修改 html,开头找到有 metal相关的内容,添加之相同位置

  5. 返回百度验证,发现验证失败,于是去访问首页,用开发者模式检查是否已经添加成功,发现已经添加成功了。返回等一会重新验证了几次,还是没成功。

  6. 最后求助谷歌,搜到一篇博文,采用的是添加自定义 css的方法,基于此方法最后终于成功了。



如何使用

    添加完成后一般是把 sitemap给填上,让搜索引擎基于 sitemap自动提取和收录站点的链接。但目前搭建的镜像站点是有问题的,打开 sitemap链接发现,里面的链接内容没有自动替换域为域名的镜像站,所以暂时就不提交错误的 sitemap了,直接的办法就是每新增一篇文章就手动在百度站长后台的手动提交功能提交上去,对于原创个人博客,更新频率有限,也不算太麻烦吧。


2023年9月9日星期六

搜索引擎的高级用法

 搜索引擎是我们日常生活中常用的工具之一,但很多人只是使用基本的搜索功能。以下是一些搜索引擎的高级用法,可以帮助你更精确地找到所需的信息:


1. 使用引号

在搜索词或短语周围加上引号,可以强制搜索引擎只返回包含完全相同短语的结果。例如,搜索 "折叠屏手机" 将只返回包含这个短语的结果,而不是包含 "折叠屏" 和 "手机" 的独立结果。

试了一下,可能现在搜索引擎太智能了,谷歌在比较短的短语搜索。加引号与否结果没发现什么差异

search-result



百度则是内容差异大一点,但是也判断不出哪个更准确一点

search-result


2. 排除词语

如果你想排除某个词语,可以在搜索词前加上减号(-)。例如,搜索 "苹果 -水果" 将返回关于苹果公司而不是水果的结果。

排除这关似乎百度表现更好,苹果不管是否加减号,返回的都是苹果公司相关的内容,完全没有水果中的内容。

百度则区分了这个减号的作用


3. 使用星号通配符

在搜索词中使用星号(*)作为通配符,可以帮助你找到与特定词根相关的多种单词形式。例如,搜索 "计算机*" 将返回与计算机相关的词汇,如计算机科学、计算机工程等。

通配符表现百度和谷歌表现都差不多,有通配符的时候搜索结果则更广泛一点



4. 站点限定搜索

如果你只想在特定网站上搜索信息,可以使用 "site:" 后跟网站域名。例如,搜索 "人工智能 site:wikipedia.org" 将只返回维基百科上与人工智能相关的页面。




5. 文件类型限定搜索

如果你只想搜索特定类型的文件(如PDF、PPT等),可以使用 "filetype:" 后跟文件扩展名。例如,搜索 "人工智能 filetype:pdf" 将返回PDF格式的人工智能文档。




6. 相关词汇搜索

使用 "~" 符号可以找到与搜索词相关的同义词或相关词汇。例如,搜索 "~健康" 可能返回与健康相关的词汇,如健康、医疗、保健等。


7. 时间范围限定搜索

如果你只对特定时间段内的信息感兴趣,可以使用搜索引擎提供的时间过滤器或在搜索词后加上时间范围。例如,搜索 "太空探索 2020..2022" 将只返回在这个时间范围内发布的结果。



或者在搜索之后,可以通过筛选时间段


8. 计算器和单位转换

搜索引擎可以用作计算器,你可以在搜索框中输入数学表达式,例如 "2+2",或者进行单位转换,例如 "100英尺转为米"。


9. 语言翻译

搜索引擎通常可以用作翻译工具。输入 "翻译" 或 "translate",然后跟上要翻译的词语或句子,即可获得翻译结果。




10. 图像搜索

主流搜索引擎允许你上传图片以进行图像搜索,以查找类似或相关的图片和信息。可以用关键字 image或者直接切搜索结果的工具栏


11. 音频和视频搜索

你可以使用搜索引擎来查找特定音频或视频文件,只需在搜索中包括相关的关键词和文件类型。


12. 高级搜索引擎

除了传统搜索引擎,还有专门用于学术研究的搜索引擎(如Google Scholar)、新闻搜索引擎(如Google News)等,它们提供了更多高级搜索选项和过滤器。

谷歌学术

百度学术

这些高级搜索技巧可以帮助你更快地找到特定的信息,并提高搜索效率。不同的搜索引擎可能支持不同的功能,因此你可以根据你使用的搜索引擎来选择适合的高级用法。

聊聊最近的手机圈子

      自从8月底华为的mate60系列手机发布后,沉寂很久的机圈又火了起来。很久没看到这么热闹了,先是华为未发先卖的mate60携着麒麟9000S芯片和5G的回归打响第一炮。紧接着是苹果一年一度的科技春晚发布iphone15系列。然后是小米带着澎湃OS的小米14系列杀出来,...