Компания Nvidia ежедневно загружала видеоматериалы с YouTube, Netflix и других платформ для обучения своих ИИ-систем, при этом разрешений на использование этого контента у правообладателей не было, пишет meduza.
Внутренние документы раскрыли схемы Nvidia
Nvidia, мировой лидер в производстве графических процессоров (GPU) и систем на чипе (SoC), использовала видеоконтент с YouTube, Netflix и других платформ для обучения своих искусственных интеллектов без официального разрешения правообладателей. Журналисты 404 Media получили доступ к внутренним документам компании, переписке в Slack и электронным письмам сотрудников, которые подтвердили эти факты.
Ежедневные загрузки и использование виртуальных машин
Каждый день сотрудники Nvidia скачивали видеоролики общей продолжительностью до 80 лет. Для этого они использовали программное обеспечение yt-dlp и виртуальные машины, обновляющие IP-адреса, что помогало избегать обнаружения и блокировки со стороны YouTube. Основным источником контента был YouTube, хотя упоминались и другие платформы. Для организации процесса менеджеры Nvidia создали отдельный канал в корпоративном мессенджере Slack, где обсуждались детали проекта.
Cosmos: проект сбора и использования видеоконтента
Проект по сбору данных под названием Cosmos стартовал в середине февраля 2024 года. Команда загрузила более 100 тысяч роликов всего за первый месяц работы. Внутренние документы показывают, что проект сосредоточен на создании огромной базы видеоматериалов, используемой для нескольких ИИ-проектов компании, включая платформу Omniverse, беспилотные автомобили и инициативу Digital Humans.
Этика и юридические вопросы
Некоторые сотрудники Nvidia поднимали вопросы о законности и этике таких действий, однако руководство компании утверждало, что у них есть «общее одобрение на все данные». В переписке упоминались большие видеодатасеты, такие как MovieNet и HD-VG-130M, которые использовались для тренировки моделей. Среди скачанного контента оказались популярные ютьюб-каналы и обучающие видеоролики. Вице-президент компании также предложил идею скачивания контента с Netflix для использования в обучении ИИ.
Реакция индустрии и правовая неопределенность
Nvidia не стала первой компанией, обвиненной в нелегальном использовании контента для обучения ИИ. Ранее аналогичные обвинения предъявлялись другим технологическим гигантам, включая OpenAI, Apple и Runway. Представители Google и Netflix подтвердили, что такие действия нарушают условия использования их платформ. Nvidia утверждает, что ее действия соответствуют законам об авторском праве, хотя правовая неопределенность в этой области остается. Эксперты подчеркивают, что пока нет юридического прецедента, который бы четко определил требования к использованию защищенных авторским правом данных для машинного обучения.