robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的网络蜘蛛,此网站中的哪些内容是不应被搜索引擎获取的,哪些是可以被获取的。

这个协议也不是一个规范,而只是约定俗成的,有些搜索引擎会遵守这一规范,有些则不然。

typecho 博客默认是没有 robots.txt 文件的,这会导致一个严重的问题,就是网页权重分散,搜索引擎收录了很多杂七杂八的页面,下面就以我自身的血泪史来说明。

google_capture.PNG
baidu_capture.PNG

上面两张图分别是google和百度的收录,可以看见收录了很多以年份和tag分类的页面,通常这些页面我们是不希望被收录的(因为没有robots.txt 所以搜索引擎会抓取所有的页面,吃了没有文化的亏)

现在我们来为博客添加一个 robots.txt

User-agent: *
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /page/
Disallow: /author/
Disallow: /category/
Disallow: /attachment/
Disallow: /feed/
Disallow: /tag/
Disallow: /2019/
Disallow: /2018/
Disallow: /2017/
Disallow: /2016/
Disallow: /2015/

Sitemap: https://heeeepin.com/sitemap.xml

让子弹飞一会~
等过几个月再来看收录情况是否有变化

标签: seo优化

已有 4 条评论

  1. 233血泪史,我每次搜出来都不知道什么东西

    1. 加一个robots.txt就好了

  2. 小哥儿 小哥儿

    请教一下,这个是随便什么服务器,例如:tomcat ,iis,nginx都可以这样吗?顺便求个联系方式,一起交流学习

    1. 这个和什么服务器是没关系的,是搜索引擎爬虫的一种协议
      联系方式可以看关于页面

添加新评论