欢迎光临
我们一直在努力

网站robots.txt文件简要说明

1、robots.txt文件是用来指示搜索引擎的爬虫哪些页面可以爬取,哪些页面不能爬取的。
2、robots.txt(统一小写)

文件路径:

网站根目录/robots.txt 或者 public/robots.txt

关键指令解释:

User-agent: 指定搜索引擎爬虫(如 Googlebot、Bingbot 等),*代表所有爬虫。

Disallow: 禁止访问的路径,/代表根目录,后面跟随的路径表示要禁止爬取的目录或文件。

Allow: 明确允许访问的路径(仅用于与 Disallow 搭配)。

Sitemap: 提供站点地图的 URL

1、允许所有爬虫爬取所有内容:

写法一:

User-agent: *
Disallow:

写法二:

User-agent: *
Allow:/

2、禁止所有爬虫访问整个网站:

User-agent: *
Disallow: /

3、禁止所有爬虫访问特定目录或文件:

User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /secret.html

4、允许所有爬虫访问某个目录或文件,但禁止其他部分:

User-agent: *
Disallow: /private/
Allow: /public/
Allow: /index.html
赞(0) 打赏
未经允许不得转载:WORDPRESS大侠 » 网站robots.txt文件简要说明

评论 抢沙发

评论前必须登录!

 

更好的WordPress主题

支持快讯、专题、百度收录推送、人机验证、多级分类筛选器,适用于垂直站点、科技博客、个人站,扁平化设计、简洁白色、超多功能配置、会员中心、直达链接、文章图片弹窗、自动缩略图等...

联系我们联系我们

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册