Среда, 14 мая в 19:18 UTC+3
Загрузка...

Википедия предлагает разработчикам искусственного интеллекта обучающий набор данных, чтобы, возможно, избавиться от ботов-скраперов.


39Опубликовано 17.04.2025 в 17:54Категория: ИИИсточник
Изображение статьи

Википедия столкнулась с негативным влиянием AI-краулеров — ботов, извлекающих текст и мультимедийные данные из энциклопедии для обучения генеративных моделей искусственного интеллекта. Это привело к увеличению расходов и замедлению времени загрузки для пользователей.

В попытке остановить нагрузку на общедоступный сайт Википедии и снизить потребление пропускной способности, Фонд Викимедиа (управляющий данными Википедии) предлагает разработчикам AI-моделей набор данных, который они могут использовать бесплатно.

Организация объединилась с Kaggle, платформой для анализа данных, чтобы предложить бета-версию структурированного набора данных на английском и французском языках. По словам Google (владельца Kaggle), набор данных отформатирован для машинного обучения, что делает его более полезным для обучения, разработки и анализа данных. Wikimedia Enterprise отмечает, что набор данных включает "аннотации, краткие описания, данные в формате "ключ-значение" (как в информационных блоках), ссылки на изображения и четко сегментированные разделы статей".

В наборе данных отсутствуют ссылки и другие "нетекстовые элементы", такие как видеоклипы. Отсутствие ссылок может усложнить вопрос об атрибуции информации в наборе данных. Однако Wikimedia Enterprise (подразделение Фонда Викимедиа, которое занимается предоставлением доступа к данным Википедии через API) заявляет, что контент в наборе данных свободно лицензирован в соответствии с Creative Commons, общественным достоянием и другими аналогичными лицензиями, поскольку все данные взяты из Википедии.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.