Reddit Is Blocking the Wayback Machine From Archiving Posts

0
10KB

Reddit is blocking the Internet Archive’s Wayback Machine from indexing most of its site, after discovering that AI companies were scraping its data from the digital time capsule.

The move comes as Reddit tightens its grip on user data. The company doesn’t mind AI firms training their models on Reddit posts, but they have to pay first. Reddit previously said it wouldn’t restrict “good faith actors” like the Internet Archive, but now it believes some are helping AI firms dodge licensing fees. Reddit’s sudden change of stance highlights how data licensing has become a major revenue source in the AI era.

The Internet Archive is a nonprofit organization dedicated to building a vast digital library of websites and other online content. So far, it has archived billions of web pages, along with millions of books, videos, and software programs. Its signature tool, the Wayback Machine, lets users save snapshots of webpages and revisit them later to see exactly how they looked on a specific date.

Reddit says it has evidence that some AI companies are exploiting the Wayback Machine to bypass its policies and scrape user content without permission.

“Internet Archive provides a service to the open web, but we’ve been made aware of instances where AI companies violate platform policies, including ours, and scrape data from the Wayback Machine,” a Reddit spokesperson told Gizmodo in an emailed statement. “Until they’re able to defend their site and comply with platform policies (e.g., respecting user privacy, re: deleting removed content) we’re limiting some of their access to Reddit data to protect redditors.”

Reddit told The Verge that the Wayback Machine will no longer be able to crawl post detail pages, comments, or profiles. Instead, it will only be allowed to index Reddit’s homepage. The restrictions begin “ramping up” today, and Reddit says it gave the Internet Archive a heads-up beforehand.

The Internet Archive did not immediately respond to a request for comment from Gizmodo.

Reddit has been tightening control over access to its data in recent years. While the company is open to licensing its data, it’s cracking down on companies that haven’t paid up. The company has already struck multimillion-dollar deals with Google and OpenAI. In the Google deal, Reddit partnered with Google for both search indexing and AI training data, then began blocking other search engines from surfacing recent Reddit posts in their search results.

In June, Reddit sued AI startup Anthropic, accusing it of unauthorized scraping.

Like
Love
Haha
3
Pesquisar
Categorias
Leia mais
Sem categoria
Tại sao nhân viên phục vụ thường xuyên thu dọn đĩa trong các bữa tiệc buffet? Có một ý nghĩa sâu xa hơn đằng sau điều này. Đừng bỏ lỡ
Trong số đó, tiệc buffet là lựa chọn tốt hơn, vì bạn...
Por ttzoo12 Huel 2025-06-26 23:41:07 0 9KB
Sem categoria
Gần 1.000 bức ảnh riêng tư bị lộ, người mẫu xinh đẹp tức giận, khẳng định không phải là "chiêu trò"
Mới đây, cộng đồng mạng vừa được một phen chấn động trước thông tin cô nàng hot girl nổi tiếng...
Por Arisa Cosplayer 2025-06-20 02:44:08 0 9KB
Sem categoria
Học hỏi từ Yua Mikami, người đẹp mới nổi khám phá "lĩnh vực chưa biết", chia sẻ về những giọt nước mắt đã rơi vì một lý do.
Sau khi Yua Mikami giải nghệ, các cô nàng hot girl tân binh cũng đang đổ bộ vào...
Por RZArt Schamberger 2025-06-21 04:09:02 0 10KB
Sem categoria
Nam danh thủ bị tình cũ chê hèn nhát, khiến cô rơi vào cuộc sống địa ngục
Hai thập kỷ sau bê bối ngoại tình rúng động làng túc...
Por summthingfun Phương 2025-08-01 03:45:03 0 8KB
Wellness
VNeID cập nhật một tính năng quan trọng, người dân thuộc 12 địa phương có tên sau đây đặc biệt chú ý
Việc thực hiện giao dịch chuyển quyền sở hữu xe có thể được thực hiện chỉ với một chiếc điện...
Por AcceptableImage7694 Mạch 2025-06-30 04:55:09 0 9KB