robots禁止后还能索引收录，是什么原因?

文章来源：未知作者：李坦人气：19 2019-12-05 18:42:08

SEO优化中很多细节容易被人忽略，比方说robots文件。如果网站的robots协议文件禁止了搜索引擎蜘蛛，那么无论你怎么优化都不会被收录。

有时候不希望搜索引擎抓取某些内容可以写robots.txt文件放到根目录，按理蜘蛛会首先读取这个文件，按照robots协议抓取相应的内容。

但很多时候搜索引擎抓取收录了你 robots.txt 不允许抓取的内容，不是因为机器人不遵守，而是从抓取到索引到展现这个过程需要一段时间，当搜索引擎已经抓取了，你才更新，那么之前抓取的是不会那么快删掉的，删除周期并不规律，一般是算法更新后生效的情况多些。但是许多站长们发现，蜘蛛并不太遵守这个协议。

下面说下几个新手可能会需要的信息。

1、robots.txt 怎么写？

各大搜索引擎的站长平台（英文叫 webmasters ）都有详细说明，也有生成工具。

2、怎样确定 robots.txt 有效？

站长平台都有抓取 robots.txt 的工具，也会有“抓取工具”来确认某个页面是不是可以正确抓取。

3、怎样通知搜索引擎 robots.txt 已更新？

和上面的一样，通过站长平台的抓取工具重新抓取（有的是“更新”）即可。

4、让搜索引擎抓取了不应该抓取的内容怎么办？

5、整站禁止抓取，如何操作更有效？

有的搜索引擎索引是不遵守 robots.txt 的，只有在展现的时候遵守，也就是说，就算你 robots.txt 写明了禁止抓取，你会发现还是有机器人来爬。

所以如果是大目录或者是整站禁止抓取，建议在服务器软件（如 nginx）的代码段中直接判断搜索引擎 UA 并返回错误代码。这样一方面可以减轻服务器压力，一方面可以真正禁止抓取。