简体: 简体中文 English

emc官网首页进入与山东真诺智能设备有限公司签署网站改版合作协议

类型：emc官网首页进入动态了解更多

搜索引擎支持哪些Robots Meta标签

来源：emc官网首页进入中国| 类型：网站百科| 时间：2019-10-18

搜索引擎支持nofollow和noarchive。

　　禁止搜索引擎收录的方法

　　1. 什么是robots.txt文件?搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时，会首先会检查该网站的根域下是否有一个叫做 robots.txt的纯文本文件，这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt，在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

　　请注意，仅当您的网站包含不希望被搜索引擎收录的内容时，才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容，请勿建立robots.txt文件。

　　2. robots.txt文件放在哪里?robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站(比如 //www.abc.com)时，首先会检查该网站中是否存在//www.abc.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

　　网站 URL 相应的 robots.txt的 URL

　　//www.w3.org/ //www.w3.org/robots.txt

　　//www.w3.org:80/ //www.w3.org:80/robots.txt

　　//www.w3.org:1234/ //www.w3.org:1234/robots.txt

　　//w3.org/ //w3.org/robots.txt

　　3. 我在robots.txt中设置了禁止搜索引擎跟收录我网站的内容，为何还出现在搜索引擎跟搜索结果中?如果其他网站链接了您robots.txt文件中设置的禁止收录的网页，那么这些网页仍然可能会出现在搜索引擎跟的搜索结果中，但您的网页上的内容不会被抓取、建入索引和显示，搜索引擎跟搜索结果中展示的仅是其他网站对您相关网页的描述。

　　4. 禁止搜索引擎跟踪网页的链接，而只对网页建索引如果您不想搜索引擎追踪此网页上的链接，且不传递链接的权重，请将此元标记置入网页的部分：

　　如果您不想搜索引擎跟追踪某一条特定链接，搜索引擎跟还支持更精确的控制，请将此标记直接写在某条链接上：sign in

　　要允许其他搜索引擎跟踪，但仅防止搜索引擎跟跟踪您网页的链接，请将此元标记置入网页的部分：

　　5. 禁止搜索引擎在搜索结果中显示网页快照，而只对网页建索引要防止所有搜索引擎显示您网站的快照，请将此元标记置入网页的部分：

　　要允许其他搜索引擎显示快照，但仅防止搜索引擎跟显示，请使用以下标记：

　　注：此标记只是禁止搜索引擎跟显示该网页的快照，搜索引擎跟会继续为网页建索引，并在搜索结果中显示网页摘要。

　　6. 我想禁止百度图片搜索收录某些图片，该如何设置?禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现，请参考“robots.txt文件用法举例”中的例10、11、12。

　　7. robots.txt文件的格式"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开(以CR,CR/NL, or NL作为结束符)，每一条记录的格式如下所示：":"

　　在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行,详细情况如下：

　　User-agent:

　　该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中，加入"User- agent:SomeBot"和若干Disallow、Allow行，那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

　　Disallow:

　　该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html，而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。

　　Allow:

　　该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

　　使用"*"and"$"：

　　Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

　　"$" 匹配行结束符。

　　"*" 匹配0或多个任意字符。

　　8. URL匹配举例Allow或Disallow的值 URL 匹配结果

　　/tmp /tmp yes

　　/tmp /tmp.html yes

　　/tmp /tmp/a.html yes

　　/tmp /tmp no

　　/tmp /tmphoho no

　　/Hello* /Hello.html yes

　　/He*lo /Hello,lolo yes

　　/Heap*lo /Hello,lolo no

　　html$ /tmpa.html yes

　　/a.html$ /a.html yes

　　htm$ /a.html no

　　9. robots.txt文件用法举例例1. 禁止所有搜索引擎访问网站的任何部分

　　下载该robots.txt文件 User-agent: *

　　Disallow: /

　　例2. 允许所有的robot访问

　　(或者也可以建一个空文件 "/robots.txt") User-agent: *

　　Allow: /

　　例3. 仅禁止Baiduspider访问您的网站 User-agent: Baiduspider

　　Disallow: /

　　例4. 仅允许Baiduspider访问您的网站 User-agent: Baiduspider

　　Allow: /

　　User-agent: *

　　Disallow: /

　　例5. 仅允许Baiduspider以及Googlebot访问 User-agent: Baiduspider

　　Allow: /

　　User-agent: Googlebot

　　Allow: /

　　User-agent: *

　　Disallow: /

　　例6. 禁止spider访问特定目录

　　在这个例子中，该网站有三个目录对搜索引擎的访问做了限制，即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明，而不能写成 "Disallow: /cgi-bin/ /tmp/"。 User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例7. 允许访问特定目录中的部分url User-agent: *

　　Allow: /cgi-bin/see

　　Allow: /tmp/hi

　　Allow: /~joe/look

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~joe/

　　例8. 使用"*"限制访问url

　　禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。 User-agent: *

　　Disallow: /cgi-bin/*.htm

　　例9. 使用"$"限制访问url

　　仅允许访问以".htm"为后缀的URL。 User-agent: *

　　Allow: /*.htm$

　　Disallow: /

　　例10. 禁止访问网站中所有的动态页面 User-agent: *

　　Disallow: /*?*

　　例11. 禁止Baiduspider抓取网站上所有图片

　　仅允许抓取网页，禁止抓取任何图片。 User-agent: Baiduspider

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.gif$

　　Disallow: /*.png$

　　Disallow: /*.bmp$

　　例12. 仅允许Baiduspider抓取网页和.gif格式图片

　　允许抓取网页和gif格式图片，不允许抓取其他格式图片 User-agent: Baiduspider

　　Allow: /*.gif$

　　Disallow: /*.jpg$

　　Disallow: /*.jpeg$

　　Disallow: /*.png$

　　Disallow: /*.bmp$

　　例13. 仅禁止Baiduspider抓取.jpg格式图片 User-agent: Baiduspider

　　Disallow: /*.jpg$

来源声明：本文章系emc官网首页进入中国编辑原创或采编整理，如需转载请注明来自emc官网首页进入中国。以上内容部分(包含图片、文字)来源于网络，如有侵权，请及时与本站联系（010-60259772）。

上一篇：网站建设中需要避免的几条建议下一篇：网页设计是创建网站的过程

TAG标签：

建站流程

网站需求
网站策划方案
页面设计风格
确认交付使用
资料录入优化
程序设计开发
后续跟踪服务
联系电话
010-60259772

预约专业咨询顾问沟通！

免责声明

非常感谢您访问我们的网站。在您使用本网站之前，请您仔细阅读本声明的所有条款。

1、本站部分内容来源自网络，涉及到的部分文章和图片版权属于原作者，本站转载仅供大家学习和交流，切勿用于任何商业活动。

2、本站不承担用户因使用这些资源对自己和他人造成任何形式的损失或伤害。

3、本声明未涉及的问题参见国家有关法律法规，当本声明与国家法律法规冲突时，以国家法律法规为准。

4、如果侵害了您的合法权益，请您及时与我们,我们会在第一时间删除相关内容!

联系方式：010-60259772
电子邮件：394588593@qq.com

emc官网首页进入

高校集群解决方案

强军网建设解决方案

政府事业解决方案

智慧会展解决方案

科研领域解决方案

智慧景区解决方案

海外房产解决方案

网站建设

小程序

移动互联网

网络营销

VI设计

emc官网首页进入 与山东真诺智能设备有限公司签署网站改版合作协议

搜索引擎支持哪些Robots Meta标签

建站流程

网站需求

网站策划方案

页面设计风格

确认交付使用

资料录入优化

程序设计开发

后续跟踪服务

热门标签

最新文章

企业官网建设与开发：问题预防与实战策略

企业网站建设的五大关键要点：掌握这五点，打造高效网站

定制网站制作的优势与成本解析

推荐新闻

网站快照对网站权重影响

专业网站建设方案如何写？

网站建设在极短的时间内能够完成吗

提升网站建设用户体验的一些解决方法

郑州网站建设seo技术的核心是什么？

生物医疗网站建设应该突出什么？

预约专业咨询顾问沟通！

免责声明

电话咨询

在线咨询

微信咨询

现在就与专业咨询顾问沟通！

免责声明

emc官网首页进入与山东真诺智能设备有限公司签署网站改版合作协议