banner

Новости

May 17, 2023

Reddit хочет получать деньги за помощь в обучении большим системам искусственного интеллекта

Реклама

Поддерживается

Интернет-сайт уже давно стал форумом для обсуждения самых разных тем, и такие компании, как Google и OpenAI, используют его в своих проектах в области искусственного интеллекта.

Майк Айзек

Майк Исаак из Сан-Франциско пишет о социальных сетях и индустрии технологий.

Reddit уже давно стал горячей точкой для общения в Интернете. Около 57 миллионов человек посещают сайт каждый день, чтобы пообщаться на такие разные темы, как макияж, видеоигры и советы по мойке подъездных путей.

В последние годы набор чатов Reddit также стал бесплатным учебным пособием для таких компаний, как Google, OpenAI и Microsoft. Эти компании используют разговоры Reddit для разработки гигантских систем искусственного интеллекта, которые, по мнению многих в Кремниевой долине, находятся на пути к тому, чтобы стать следующим большим достижением технологической индустрии.

Теперь Reddit хочет, чтобы ему за это платили. Во вторник компания заявила, что планирует начать взимать с компаний плату за доступ к ее интерфейсу прикладного программирования, или API, методу, с помощью которого внешние организации могут загружать и обрабатывать обширный выбор личных разговоров в социальной сети.

«Объем данных Reddit действительно ценен», — сказал в интервью Стив Хаффман, основатель и генеральный директор Reddit. «Но нам не нужно бесплатно отдавать всю эту ценность некоторым крупнейшим компаниям мира».

Этот шаг является одним из первых значительных примеров того, как социальная сеть взимает плату за доступ к разговорам, которые она ведет, с целью разработки систем искусственного интеллекта, таких как ChatGPT, популярная программа OpenAI. Эти новые системы искусственного интеллекта могут однажды привести к появлению крупного бизнеса, но они вряд ли сильно помогут таким компаниям, как Reddit. Фактически, их можно использовать для создания конкурентов — автоматических дубликатов разговоров Reddit.

Reddit также готовится к возможному первичному публичному размещению акций на Уолл-стрит в этом году. Компания, основанная в 2005 году, зарабатывает большую часть своих денег за счет рекламы и транзакций электронной коммерции на своей платформе. Reddit заявил, что все еще уточняет детали того, сколько будет взиматься плата за доступ к API, и объявит цены в ближайшие недели.

Дискуссионные форумы Reddit стали ценным товаром, поскольку большие языковые модели, или LLM, стали важной частью создания новых технологий искусственного интеллекта.

LLM — это, по сути, сложные алгоритмы, разработанные такими компаниями, как Google и OpenAI, которая является близким партнером Microsoft. Для алгоритмов разговоры на Reddit — это данные, и они входят в огромный пул материалов, которые подаются в LLM для их разработки.

Базовый алгоритм, который помог создать Bard, службу диалогового искусственного интеллекта Google, частично обучен на данных Reddit. Chat GPT OpenAI ссылается на данные Reddit как на один из источников информации, на которой он обучался.

Другие компании также начинают видеть ценность в беседах и изображениях, которые они размещают. Shutterstock, служба хостинга изображений, также продавала данные изображений OpenAI, чтобы помочь создать DALL-E, программу искусственного интеллекта, которая создает яркие графические изображения, требуя только текстовой подсказки.

В прошлом месяце Илон Маск, владелец Twitter, заявил, что борется с использованием API Twitter, который тысячи компаний и независимых разработчиков используют для отслеживания миллионов разговоров в сети. Хотя он не назвал LLM причиной изменения, новые сборы могут достигать десятков или даже сотен тысяч долларов.

Чтобы продолжать совершенствовать свои модели, создателям искусственного интеллекта нужны две важные вещи: огромная вычислительная мощность и огромный объем данных. Некоторые из крупнейших разработчиков ИИ обладают достаточными вычислительными мощностями, но по-прежнему ищут данные, необходимые для улучшения своих алгоритмов, за пределами своих сетей. Сюда входят такие источники, как Википедия, миллионы оцифрованных книг, академические статьи и Reddit.

ДЕЛИТЬСЯ