济宁天气预报
济宁市人力资源和社会保障局
济宁人事考试单位代码
济宁市安全教育平台
济宁违章查询
济宁住房公积金查询
济宁科技网 济宁培训班 济宁银行网上银行 济宁教育网 济宁旅行社 济宁旅游 济宁市地图 济宁房产 济宁教育网 济宁人事考试信息网 济宁新闻网
侠盗飞车 济宁信息港
浏览器之家 济宁汽车 掼蛋
下载吧 股票书籍 word
照片恢复 炸金花
红警之家 掼蛋游戏下载
马伊琍 手机照片恢复
您现在的位置:主页 > 旅游界 > 国内旅游 > 如何不让搜索引擎抓取网站的隐私内容?

如何不让搜索引擎抓取网站的隐私内容?

时间:2013-10-17 00:00来源:未知 www.yunhepan.com

          引:案件《百度诉360违反Robots协议  称或致隐私泄露》中,百度方面认为,360搜索在未获得百度公司允许的情况下,违反业内公认的Robots协议,抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容,已经构成了不正当竞争,并向奇虎索赔1亿元……

那么,什么是robots协议?

1.robots.txt是什么?

有没有想过,如果我们某个站点不让百度和google收录,那怎么办?

搜索引擎已经和我们达成一个约定,如果我们按约定那样做了,它们就不会去收录。这个写约定的的文件命名为:robots.txt。robots.txt是一个最简单的.txt文件,用以告诉搜索引擎哪些网页可以收录,哪些不允许收录。

如果你的站点对所有搜索引擎公开,则不用做这个文件或者robots.txt为空就行。

2.Robots.txt 文件怎么写

robots.txt文件的格式:

User-agent: 定义搜索引擎的类型

Disallow: 定义禁止搜索引擎收录的地址

Allow: 定义允许搜索引擎收录的地址

一般情况下,robots.txt里只写着两个函数:User-agent和 Disallow,至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。在文件中只写出要屏蔽的蜘蛛就可以了,允许爬行的蜘蛛就不用写出来了。并且,有几个禁止,就得有几个Disallow函数,要分行描述。

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: * (注:*是一个通配符,在这里指所有的搜索引擎种类)

Disallow: /

例2. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例3. 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例4. 容许搜索引擎访问特定目录中的网页

  User-agent: *

  Allow:/目录1/目录2(容许访问目录2中的网页)

  Allow: /目录3/目录4(容许访问目录4中的网页)

  Allow: /目录5/目录6(容许访问目录6中的网页)

  Disallow: /目录1/

  Disallow: /目录3/

  Disallow: /目录5/

特别提示:robots里面内容的大小写不可更改,Disallow后面的冒号必须为英文状态的。

3.Robots.txt 文件应放在哪里?

robots.txt 文件必须放在网站的根目录下,必须命名为:robots.txt,都是小写,robot后面加"s"。放在子目录的 robots.txt 文件搜索引擎不能爬取到,所以不会起任何作用。


上一篇:紧盯“中国钱袋子” 多国放宽对华签证
下一篇:要不要“到此一游”?

济宁运河畔网版权与免责声明:

①凡本网来源于注明来“源于:运河畔或www.yunhepan.com”版权均属运河畔网所有,其他媒体可以转载,且需注明“来源运河畔网”
② 凡本网注明“来源:XXX(非济宁运河畔,济宁信息港)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。
③ 如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行。

  • 全网热点
  • 健康
  • 教育
  • 旅游
  • 美食