引:案件《百度诉360违反Robots协议 称或致隐私泄露》中,百度方面认为,360搜索在未获得百度公司允许的情况下,违反业内公认的Robots协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元……
那么,什么是robots协议?
1.robots.txt是什么?
有没有想过,如果我们某个站点不让百度和google收录,那怎么办?
搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不会去收录。这个写约定的的文件命名为:robots.txt。robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。
如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。
2.Robots.txt 文件怎么写
robots.txt文件的格式:
User-agent: 定义搜索引擎的类型
Disallow: 定义禁止搜索引擎收录的地址
Allow: 定义允许搜索引擎收录的地址
一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow,至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: / (注:只是差一个斜杆)。在文件中只写出要屏蔽的蜘蛛就可以了,允许爬行的蜘蛛就不用写出来了。并且,有几个禁止,就得有几个Disallow函数,要分行描述。
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: * (注:*是一个通配符,在这里指所有的搜索引擎种类)
Disallow: /
例2. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例3. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
例4. 容许搜索引擎访问特定目录中的网页
User-agent: *
Allow:/目录1/目录2(容许访问目录2中的网页)
Allow: /目录3/目录4(容许访问目录4中的网页)
Allow: /目录5/目录6(容许访问目录6中的网页)
Disallow: /目录1/
Disallow: /目录3/
Disallow: /目录5/
特别提示:robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的。
3.Robots.txt 文件应放在哪里?
robots.txt 文件必须放在网站的根目录下,必须命名为:robots.txt,都是小写,robot后面加"s"。放在子目录的 robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。