什么是Robots meta标签
Robots.txt文件主要是限制整个站点或者目录的搜索引擎访问情况,而Robots Meta标签则主要是针对一个个具体的页面。
关于robots.txt文件的详解介绍,可以点击这里了解:robots协议文件作用以及写法详解。
和其他的 META标签(如使用的语言、页面的描述、关键词等)一样,Robots Meta标签也是放在页面中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。
具体的形式类似:
<html>
<head>
<title>Robots Meta标签</title>
< meta name="Robots" content="index,follow">
< meta http-equiv="Content-Type" Con_TENT="text/html; charset=gb2312">
< meta name="keywords" con_tent="Robots Meta标签 ">
< meta name="description" con_tent="Robots Meta标签">
<link rel="stylesheet" href="/public/css.css" type="text/css">
</head>
<body>
…
</body>
</html>
Robots meta标签的写法:
Robots Meta标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为 name=”BaiduSpider”。
content部分有四个指令选项:index、noindex、follow、nofollow,指令间以 “,”分隔。
index指令告诉搜索机器人抓取该页面;
follow指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;
Robots Meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index、nofollow。
这样,一共有四种组合:
< meta name="robots" content="index,follow">
<!-- 不许抓取本页,但是可以顺着本页抓取索引别的链接 -->
<meta name="robots" content="noindex,follow">
<!-- 不许抓取本页,但是可以顺着本页抓取索引别的链接 -->
< meta name="robots" content="index,nofollow">
<!-- 可以抓取本页,但是不许顺着本页抓取索引别的链接 -->
< meta name="robots" content="noindex,nofollow">
<!-- 不许抓取本页,也不许顺着本页抓取索引别的链接。 -->
其中
< meta name="robots" content="index,follow">可以写成< meta name="robots" content="all" >
< meta name="robots" content="noindex,nofollow">可以写成< meta name="robots" content="none" >
Robots Meta标签 注意点:
上述的robots.txt和Robots Meta标签限制搜索引擎机器人(ROBOTS)抓取站点内容的办法只是一种规则,需要搜索引擎机器人的配合才行,并不是每个ROBOTS都遵守的。
目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于RobotsMETA标签,目前支持的并不多,但是正在逐渐增加,如著名 搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。
例如:
< meta NAME="googlebot" Con_TENT="index,follow,noarchive">
表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
百度的官方说法是目前只支持 nofollow 和 noarchive。
一般情况下:只有禁止索引时,使用 meta robots 才有意义,否则是没有意义的,等于没写。如果页面需要被搜索引擎收录、索引或者希望搜索引擎跟踪该页面的所有链接,就不需要写 meta robots 标签。
meta标签慢慢被越来越多的搜索引擎所应用,了解meta标签,大家可以对自己的博客或网站可以进行简单的SEO配置。
Robots Meta标签列表
index
告诉搜索引擎索引本页面,这是默认属性,如果不设置meta标签,搜索引擎默认会索引本页面。
noindex
告诉搜索引擎不要把本页展示在他们的搜索结果中。
noimageindex
禁止搜索引擎索引本页面上的图片,本页面上的图片不会显示在搜索结果中。
none
none是noindex,nofollow的缩写,告诉搜索引擎不要索引本页面,告诉爬虫不要索引本页面上的链接页面。
follow
告诉搜索引擎爬虫可以爬行本页面上的链接,不管该页面是不是允许索引。
nofollow
告诉搜索引擎不要爬行本页面上的链接。
noarchive
阻止搜索引擎在搜索结果中显示该页面的缓存版本,就是快照。
nocache
功能和noarchive一样,但是适用于MSN/Live搜索引擎。
nosnippet
搜索引擎的搜索结果中会显示一部分搜索文字上下文的内容,nosnippet属性就是拒绝搜索引擎显示这部分内容,另外,所说引擎也不会保存该页面的快照。
noodp
搜索引擎的搜索结果中会显示一部分搜索文字上下文的内容,noodp属性用来阻止使用DMOZ信息做为这部分的文字使用。
noydir
搜索引擎的搜索结果中会显示一部分搜索文字上下文的内容,noydir阻止雅虎使用Yahoo! directory信息作为这部分的文字使用。