← 一派胡言 |

如何拒绝 Archive.org 收录并删除已收录的内容

网站如果有一定的流量,就有可能被 Archive.org(WaybackMachine) 收录。如果我们不想被收录,或者在被收录后想移除被收录的内容,该怎么办呢?

1. 使用 robots.txt 拒绝收录

如果不想被收录,则可以在网站根目录的 robots.txt 中添加以下内容:

# Block archive.org bots
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /

2. 给 Archive.org 发送删除邮件

一般来说,邮件中需要证明你是网站的所有者。使用以网站域名作为后缀的邮箱就可以证明了。我的邮件如下:

Dear Madam/Sir,

  Please remove my website domain.com from the Wayback Machine.
https://domain.com/robots.txt has been updated to indicate I do not wish this website to be archived.

  I'm using email address end with domain.com, so I obviously own this domain.

  If additional evidence or action is required (e.g., DMCA takedown notice) please let me know.

  Thank you!

收件人为 info@archive.org,如果你没有域名邮箱,也可以通过域名购买记录等方式证明,但我觉得还是域名邮箱比较简单。邮件发送了 8 小时后,就收到了 Archive.org 的回复说已经进行了删除操作,1 天后生效。

#


发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注