404 未找到 vs 410 已删除:如何使用它们清理网站
了解何时返回 404 未找到和 410 已删除状态码,帮助搜索引擎爬虫更快理解永久删除的页面。
维护健康的网站结构意味着删除过时、陈旧或重复的内容。然而,删除页面的方式对搜索引擎很重要。您告知 Google 和其他搜索引擎页面已被删除的方式取决于服务器发送的 HTTP 状态码:404 未找到或 410 已删除。虽然它们看似相似,但会触发搜索引擎爬虫的不同行为。在本指南中,我们将比较 404 和 410 响应码,并解释如何正确使用它们来改善网站的索引健康状况和爬取效率。
404 与 410:核心区别
快速比较浏览器和爬虫如何处理”未找到”与”已删除”。
什么是 404 未找到状态码?
- 定义: 服务器找不到请求的 URL,但该页面未来可能会重新存在。
- 爬虫行为: 搜索引擎会在数周内多次重新访问该 URL 以检查其是否恢复,然后才最终将其从索引中删除。
- 使用场景: 临时缺失的页面、意外删除或 URL 拼写错误。
什么是 410 已删除状态码?
- 定义: 服务器确认该资源已被有意删除且不会再返回。
- 爬虫行为: 搜索引擎将 410 视为永久删除,通常会立即将该页面从索引中移除。
- 使用场景: 永久停产的产品、旧的低质量内容、过期的职位列表或垃圾内容清理。
如何批量审核和实施状态码
- 使用批量状态检查工具查找损坏的 URL。
- 配置您的
.htaccess、Nginx 或应用程序中间件以返回 410 状态码。 - 创建自定义、有用的 404 和 410 页面的最佳实践,以保持用户参与度。