Главная страница » Nvidia нелегально скачивала контент с YouTube и других платформ для обучения ИИ

Nvidia нелегально скачивала контент с YouTube и других платформ для обучения ИИ

Компания Nvidia ежедневно загружала видеоматериалы с YouTube, Netflix и других платформ для обучения своих ИИ-систем, при этом разрешений на использование этого контента у правообладателей не было, пишет meduza.

Внутренние документы раскрыли схемы Nvidia

Nvidia, мировой лидер в производстве графических процессоров (GPU) и систем на чипе (SoC), использовала видеоконтент с YouTube, Netflix и других платформ для обучения своих искусственных интеллектов без официального разрешения правообладателей. Журналисты 404 Media получили доступ к внутренним документам компании, переписке в Slack и электронным письмам сотрудников, которые подтвердили эти факты.

Ежедневные загрузки и использование виртуальных машин

Каждый день сотрудники Nvidia скачивали видеоролики общей продолжительностью до 80 лет. Для этого они использовали программное обеспечение yt-dlp и виртуальные машины, обновляющие IP-адреса, что помогало избегать обнаружения и блокировки со стороны YouTube. Основным источником контента был YouTube, хотя упоминались и другие платформы. Для организации процесса менеджеры Nvidia создали отдельный канал в корпоративном мессенджере Slack, где обсуждались детали проекта.

Cosmos: проект сбора и использования видеоконтента

Проект по сбору данных под названием Cosmos стартовал в середине февраля 2024 года. Команда загрузила более 100 тысяч роликов всего за первый месяц работы. Внутренние документы показывают, что проект сосредоточен на создании огромной базы видеоматериалов, используемой для нескольких ИИ-проектов компании, включая платформу Omniverse, беспилотные автомобили и инициативу Digital Humans.

Этика и юридические вопросы

Некоторые сотрудники Nvidia поднимали вопросы о законности и этике таких действий, однако руководство компании утверждало, что у них есть «общее одобрение на все данные». В переписке упоминались большие видеодатасеты, такие как MovieNet и HD-VG-130M, которые использовались для тренировки моделей. Среди скачанного контента оказались популярные ютьюб-каналы и обучающие видеоролики. Вице-президент компании также предложил идею скачивания контента с Netflix для использования в обучении ИИ.

Реакция индустрии и правовая неопределенность

Nvidia не стала первой компанией, обвиненной в нелегальном использовании контента для обучения ИИ. Ранее аналогичные обвинения предъявлялись другим технологическим гигантам, включая OpenAI, Apple и Runway. Представители Google и Netflix подтвердили, что такие действия нарушают условия использования их платформ. Nvidia утверждает, что ее действия соответствуют законам об авторском праве, хотя правовая неопределенность в этой области остается. Эксперты подчеркивают, что пока нет юридического прецедента, который бы четко определил требования к использованию защищенных авторским правом данных для машинного обучения.

Автор

  • Сергей Стамов

    Я журналист, специализирующийся на написании новостей и работе в полевых условиях, где провожу интервью и исследую события на месте. Мое чутье на актуальные темы и умение общаться с людьми позволяют мне выявлять уникальные истории и представлять их читателям в доступной и понятной форме. Я ценю глубокий анализ и внимание к деталям, стремлюсь раскрывать суть сложных вопросов так, чтобы мои статьи были не только информативными, но и захватывающими.

    View all posts

Чтобы быть в курсе самых важных новостей,
подписывайтесь на Инстаграм, ТикТок, Фейсбук и ТЕЛЕГРАММ-канал!

Компания Nvidia ежедневно загружала видеоматериалы с YouTube, Netflix и других платформ для обучения своих ИИ-систем, при этом разрешений на использование этого контента у правообладателей не было, пишет meduza.

Внутренние документы раскрыли схемы Nvidia

Nvidia, мировой лидер в производстве графических процессоров (GPU) и систем на чипе (SoC), использовала видеоконтент с YouTube, Netflix и других платформ для обучения своих искусственных интеллектов без официального разрешения правообладателей. Журналисты 404 Media получили доступ к внутренним документам компании, переписке в Slack и электронным письмам сотрудников, которые подтвердили эти факты.

Ежедневные загрузки и использование виртуальных машин

Каждый день сотрудники Nvidia скачивали видеоролики общей продолжительностью до 80 лет. Для этого они использовали программное обеспечение yt-dlp и виртуальные машины, обновляющие IP-адреса, что помогало избегать обнаружения и блокировки со стороны YouTube. Основным источником контента был YouTube, хотя упоминались и другие платформы. Для организации процесса менеджеры Nvidia создали отдельный канал в корпоративном мессенджере Slack, где обсуждались детали проекта.

Cosmos: проект сбора и использования видеоконтента

Проект по сбору данных под названием Cosmos стартовал в середине февраля 2024 года. Команда загрузила более 100 тысяч роликов всего за первый месяц работы. Внутренние документы показывают, что проект сосредоточен на создании огромной базы видеоматериалов, используемой для нескольких ИИ-проектов компании, включая платформу Omniverse, беспилотные автомобили и инициативу Digital Humans.

Этика и юридические вопросы

Некоторые сотрудники Nvidia поднимали вопросы о законности и этике таких действий, однако руководство компании утверждало, что у них есть «общее одобрение на все данные». В переписке упоминались большие видеодатасеты, такие как MovieNet и HD-VG-130M, которые использовались для тренировки моделей. Среди скачанного контента оказались популярные ютьюб-каналы и обучающие видеоролики. Вице-президент компании также предложил идею скачивания контента с Netflix для использования в обучении ИИ.

Реакция индустрии и правовая неопределенность

Nvidia не стала первой компанией, обвиненной в нелегальном использовании контента для обучения ИИ. Ранее аналогичные обвинения предъявлялись другим технологическим гигантам, включая OpenAI, Apple и Runway. Представители Google и Netflix подтвердили, что такие действия нарушают условия использования их платформ. Nvidia утверждает, что ее действия соответствуют законам об авторском праве, хотя правовая неопределенность в этой области остается. Эксперты подчеркивают, что пока нет юридического прецедента, который бы четко определил требования к использованию защищенных авторским правом данных для машинного обучения.

Автор

  • Сергей Стамов

    Я журналист, специализирующийся на написании новостей и работе в полевых условиях, где провожу интервью и исследую события на месте. Мое чутье на актуальные темы и умение общаться с людьми позволяют мне выявлять уникальные истории и представлять их читателям в доступной и понятной форме. Я ценю глубокий анализ и внимание к деталям, стремлюсь раскрывать суть сложных вопросов так, чтобы мои статьи были не только информативными, но и захватывающими.

    View all posts

Чтобы быть в курсе самых важных новостей,
подписывайтесь на Инстаграм, ТикТок, Фейсбук и ТЕЛЕГРАММ-канал!