您现在的位置：主页 > 旅游界 > 国内旅游 > 如何不让搜索引擎抓取网站的隐私内容？

如何不让搜索引擎抓取网站的隐私内容？

时间：2013-10-17 00:00来源：未知 www.yunhepan.com

引：案件《百度诉360违反Robots协议称或致隐私泄露》中，百度方面认为，360搜索在未获得百度公司允许的情况下，违反业内公认的Robots协议，抓取百度旗下百度知道、百度百科、百度贴吧等网站的内容，已经构成了不正当竞争，并向奇虎索赔1亿元……

那么，什么是robots协议？

1.robots.txt是什么？

有没有想过，如果我们某个站点不让百度和google收录，那怎么办？

搜索引擎已经和我们达成一个约定，如果我们按约定那样做了，它们就不会去收录。这个写约定的的文件命名为:robots.txt。robots.txt是一个最简单的.txt文件，用以告诉搜索引擎哪些网页可以收录，哪些不允许收录。

如果你的站点对所有搜索引擎公开，则不用做这个文件或者robots.txt为空就行。

2.Robots.txt 文件怎么写

robots.txt文件的格式：

User-agent：定义搜索引擎的类型

Disallow：定义禁止搜索引擎收录的地址

Allow：定义允许搜索引擎收录的地址

一般情况下，robots.txt里只写着两个函数：User-agent和 Disallow，至少要有一个Disallow函数，如果都允许收录，则写: Disallow: ，如果都不允许收录，则写:Disallow: / （注：只是差一个斜杆）。在文件中只写出要屏蔽的蜘蛛就可以了，允许爬行的蜘蛛就不用写出来了。并且，有几个禁止，就得有几个Disallow函数，要分行描述。

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: * （注：*是一个通配符，在这里指所有的搜索引擎种类）

Disallow: /

例2. 禁止某个搜索引擎的访问

User-agent: BadBot

Disallow: /

例3. 允许某个搜索引擎的访问

User-agent: Baiduspider

allow:/

例4. 容许搜索引擎访问特定目录中的网页

　　User-agent: *

　　Allow：/目录1/目录2（容许访问目录2中的网页）

　　Allow： /目录3/目录4（容许访问目录4中的网页）

　　Allow： /目录5/目录6（容许访问目录6中的网页）

　　Disallow： /目录1/

　　Disallow： /目录3/

　　Disallow： /目录5/

特别提示：robots里面内容的大小写不可更改，Disallow后面的冒号必须为英文状态的。

3.Robots.txt 文件应放在哪里？

robots.txt 文件必须放在网站的根目录下，必须命名为：robots.txt，都是小写，robot后面加"s"。放在子目录的 robots.txt 文件搜索引擎不能爬取到，所以不会起任何作用。

上一篇：紧盯“中国钱袋子”　多国放宽对华签证
下一篇：要不要“到此一游”?

济宁运河畔网版权与免责声明：

①凡本网来源于注明来“源于：运河畔或www.yunhepan.com”版权均属运河畔网所有，其他媒体可以转载，且需注明“来源运河畔网”
② 凡本网注明“来源：XXX（非济宁运河畔,济宁信息港）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。
③ 如因作品内容、版权和其它问题需要同本网联系的，请在30日内进行。

推荐图片

如何不让搜索引擎抓取网站的隐私内容？

运河畔 - 济宁

www.Yunhepan.com

济宁地图 - 济宁天气