sitemap.xml 是用于向搜索引擎提供网站页面信息的XML文件,需包含loc(必填)、lastmod、changefreq和priority等字段,结构规范、URL有效、符合协议标准,推荐工具自动生成并提交至搜索平台。

sitemap.xml 是一个 XML 文件,用来告诉搜索引擎你网站上有哪些页面、更新频率、重要程度等信息,帮助爬虫更高效地抓取内容。写法有规范,但不复杂,关键是结构正确、URL 有效、符合协议标准。
基础格式和必填字段
一个最简可用的 sitemap.xml 长这样:
说明:
- loc:必须,页面完整 URL(含 http/https)
- lastmod:推荐,最后修改日期(格式为 YYYY-MM-DD,可选带时间,但需 ISO 8601 格式)
- changefreq:可选,提示更新频率(如 always、hourly、daily、weekly、monthly、yearly、never)
- priority:可选,相对权重(0.0 到 1.0),仅对同站页面有意义,不影响跨站排名
生成方法(按建站方式选)
不用手写,多数情况用工具自动生成更可靠:
-
WordPress 站点:装插件如 Yoast SEO、Rank Math 或 All in One SEO,开启「XML Sitemap」功能后自动创建并更新,通常访问
/sitemap_index.xml或/sitemap.xml -
静态网站(如 Hugo、Jekyll、VuePress):构建工具自带 sitemap 生成器,比如 Hugo 用
sitemap.xml模板,Jekyll 用jekyll-sitemap插件 -
自己写 PHP/Node.js 等后端:读取数据库或文件列表,按协议拼 XML 字符串,注意设置响应头
Content-Type: application/xml - 小站没后台?手动+工具辅助:用在线生成器(如 xml-sitemaps.com),输入首页 URL 让它爬取(适合少于 500 页面),下载后上传到网站根目录
注意事项和常见问题
写完或生成后别直接扔上去,检查这几项:
- 确保所有
URL 能正常打开(HTTP 状态码 200),避免 404 或跳转链过长 - 单个 sitemap.xml 最多 5 万条 URL、不超过 50MB(未压缩),超量要用
sitemapindex.xml拆分 - 不要包含参数过多的 URL(如带 session_id、utm_source 的),容易被当成重复页;必要时用
rel="canonical"标明主版本 - 生成后提交到百度搜索资源平台、Google Search Console,不是放上去就完事,要主动推送
- 动态页面(如商品详情页)如果数量巨大,建议用程序定时生成,而非全量硬编码
基本上就这些。核心是让搜索引擎快速发现有效页面,结构规范比堆字段更重要。










