如何拒绝 Archive.org 收录并删除已收录的内容
网站如果有一定的流量,就有可能被 Archive.org(WaybackMachine) 收录。如果我们不想被收录,或者在被收录后想移除被收录的内容,该怎么办呢?
1. 使用 robots.txt 拒绝收录
如果不想被收录,则可以在网站根目录的 robots.txt 中添加以下内容:
# Block archive.org bots
User-agent: ia_archiver
Disallow: /
User-agent: archive.org_bot
Disallow: /
User-agent: ia_archiver-web.archive.org
Disallow: /
2. 给 Archive.org 发送删除邮件
一般来说,邮件中需要证明你是网站的所有者。使用以网站域名作为后缀的邮箱就可以证明了。我的邮件如下:
Dear Madam/Sir, Please remove my website domain.com from the Wayback Machine. https://domain.com/robots.txt has been updated to indicate I do not wish this website to be archived. I'm using email address end with domain.com, so I obviously own this domain. If additional evidence or action is required (e.g., DMCA takedown notice) please let me know. Thank you!
收件人为 [email protected],如果你没有域名邮箱,也可以通过域名购买记录等方式证明,但我觉得还是域名邮箱比较简单。邮件发送了 8 小时后,就收到了 Archive.org 的回复说已经进行了删除操作,1 天后生效。
发表回复