站长新闻

什么是rrobots.txt协议?

文章来源：老客SEO 作者：老客SEO 人气：18 2018-11-10 22:58:07

　　网站能不能被搜索引擎索引到，除了看有没有向搜索引擎入口提交、有否与其他站点交换链接等之外，还得看根目录底下的robots.txt文件有没有禁止搜索引擎的收录，这里摘录一些关于robots.txt文件的写法备忘。

　　什么是robots.txt文件

　　搜索引擎通过一种爬虫spider程序(又称搜索蜘蛛、robot、搜索机器人等)，自动搜集互联网上的网页并获取相关信息。

　　鉴于网络安全与隐私的考虑，搜索引擎遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt，网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录，或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果该文件不存在，那么爬虫就沿着链接抓取，如果存在，爬虫就会按照该文件中的内容来确定访问的范围。

　　robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

　　robots.txt文件的格式

　　User-agent: 定义搜索引擎的类型

　　Disallow: 定义禁止搜索引擎收录的地址

　　Allow: 定义允许搜索引擎收录的地址

　　我们常用的搜索引擎类型有：

　　google蜘蛛：googlebot

　　百度蜘蛛：baiduspider

　　yahoo蜘蛛：slurp

　　alexa蜘蛛：ia_archiver

　　msn蜘蛛：msnbot

　　altavista蜘蛛：scooter

　　lycos蜘蛛：lycos_spider_(t-rex)

　　alltheweb蜘蛛：fast-webcrawler

　　inktomi蜘蛛： slurp

　　robots.txt文件的写法

　　User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录

　　Disallow: /require/ 　这里定义是禁止爬寻require目录下面的目录

　　Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录

　　Disallow: /ABC 这里定义是禁止爬寻ABC整个目录

　　Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

　　Disallow: /*?* 禁止访问网站中所有的动态页面

　　Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片

　　Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件

　　User-agent: * 　　这里的*代表的所有的搜索引擎种类，*是一个通配符

　　Allow: /cgi-bin/　　这里定义是允许爬寻cgi-bin目录下面的目录

　　Allow: /tmp 这里定义是允许爬寻tmp的整个目录

　　Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

　　Allow: .gif$ 允许抓取网页和gif格式图片

　　robots.txt文件用法举例

　　例1. 禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　实例分析：淘宝网的 Robots.txt文件

　　User-agent: Baiduspider

　　Disallow: /

　　很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

　　例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)

　　User-agent: *

　　Disallow:

　　例3. 禁止某个搜索引擎的访问

　　User-agent: BadBot

　　Disallow: /

　　例4. 允许某个搜索引擎的访问

　　User-agent: baiduspider

　　Disallow: User-agent: *Disallow: /

　　例5.一个简单例子

　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即搜索引擎不会访问这三个目录。

　　需要注意的是对每一个目录必须分开声明，而不要写成 “Disallow: /cgi-bin/ /tmp/”。

　　User-agent:后的*具有特殊的含义，代表“any robot”，所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　Robot特殊参数：

　　允许 Googlebot：

　　如果您要拦截除 Googlebot 以外的所有漫游器访问您的网页，可以使用下列语法：

　　User-agent:

　　Disallow:/

　　User-agent:Googlebot

　　Disallow:

　　Googlebot 跟随指向它自己的行，而不是指向所有漫游器的行。

　　“Allow”扩展名：

　　Googlebot 可识别称为“Allow”的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名，因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。

　　您也可以同时使用“Disallow”和“Allow”。例如，要拦截子目录中某个页面之外的其他所有页面，可以使用下列条目：

　　User-Agent:Googlebot

　　Disallow:/folder1/

　　Allow:/folder1/myfile.html

　　这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。

　　如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile)，可使用”Allow”规则允许该漫游器的访问。例如：

　　User-agent:Googlebot

　　Disallow:/

　　User-agent:Googlebot-Mobile

　　Allow:

　　使用 * 号匹配字符序列：

　　您可使用星号 (*) 来匹配字符序列。例如，要拦截对所有以 private 开头的子目录的访问，可使用下列条目：

　　User-Agent:Googlebot

　　Disallow:/private*/

　　要拦截对所有包含问号 (?) 的网址的访问，可使用下列条目：

　　User-agent:*

　　Disallow:/*?*

　　使用 $ 匹配网址的结束字符

　　您可使用 $ 字符指定与网址的结束字符进行匹配。例如，要拦截以 .asp 结尾的网址，可使用下列条目：

　　User-Agent:Googlebot

　　Disallow:/*.asp$

　　您可将此模式匹配与 Allow 指令配合使用。例如，如果 ? 表示一个会话 ID，您可排除所有包含该 ID 的网址，确保 Googlebot 不会抓取重复的网页。但是，以 ? 结尾的网址可能是您要包含的网页版本。在此情况下，可对 robots.txt 文件进行如下设置：

　　User-agent:*

　　Allow:/*?$

　　Disallow:/*?

　　Disallow:/ *?

　　一行将拦截包含 ? 的网址(具体而言，它将拦截所有以您的域名开头、后接任意字符串，然后是问号 (?)，而后又是任意字符串的网址)。

　　Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言，它将允许包含所有以您的域名开头、后接任意字符串，然后是问号 (?)，问号之后没有任何字符的网址)。

　　Robots Meta标签

　　Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况，而Robots Meta标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样，Robots Meta标签也是放在页面的中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

　　Robots Meta标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

　　index指令告诉搜索机器人抓取该页面;

　　follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

　　Robots Meta标签的缺省值是index和follow，只有inktomi除外，对于它，缺省值是index、nofollow。

　　需要注意的是：上述的robots.txt和Robots Meta标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则，需要搜索引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

　　目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于RobotsMETA标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。

　　Sitemap 网站地图

　　对网站地图的新的支持方式，就是在robots.txt文件里直接包括sitemap文件的链接。就像这样：

　　Sitemap:http://jd.ps-zx.com/sitemap.xml

　　目前对此表示支持的搜索引擎公司有Google, Yahoo和MSN。不过，我们建议还是在Google Sitemap进行提交，里面有很多功能可以分析你的链接状态。

上一篇：如何快速提高自己网站的百度权重呢? 下一篇：如何发布到高质量外链资源

站长新闻

什么是rrobots.txt协议?

相关文章

超千万人正承受60分钟以上极端通勤

OPPO推出125W充电技术兼容主流协议，支持手机平板笔记本

微信支付时，若出现 “风险提醒”你很有可能正在陷入骗局

同样做网络推广，为何你不赚钱？

网络推广如何提高客户信任交易

小红书推广营销法则

超市争相“上线”,直播带货探索新销售场景

联系我们

站长新闻

什么是rrobots.txt协议?

相关文章

超千万人正承受60分钟以上极端通勤

OPPO推出125W充电技术 兼容主流协议，支持手机平板笔记本

微信支付时，若出现 “风险提醒”你很有可能正在陷入骗局

同样做网络推广，为何你不赚钱？

网络推广如何提高客户信任交易

小红书推广营销法则

超市争相“上线”,直播带货探索新销售场景

其他工具

热门商品

天涯论坛发帖

伪原创工具

软文推广营销,新闻源发布推广,媒体发稿投放

发新闻稿 门户行业地方网站媒体新闻发布发稿套餐 网络宣传推广

百 度知道|百度问答|内容编辑发布

联系我们

OPPO推出125W充电技术兼容主流协议，支持手机平板笔记本

发新闻稿门户行业地方网站媒体新闻发布发稿套餐网络宣传推广

百度知道|百度问答|内容编辑发布