Google позволил OpenAI расшифровать миллион часов видео с YouTube для обучения GPT-4

В отчете New York Times говорится, что OpenAI предположительно расшифровала более миллиона часов видео YouTube, чтобы обработать данные для обучения своей самой передовой языковой модели (LLM), GPT-4.

Как сообщается, OpenAI разработала модель транскрипции аудио Whisper , которая помогла компании парсить данные из видеороликов YouTube. Как сообщает The NY Times, замешанные сотрудники OpenAI знали, что этот метод может стать объектом пристального внимания. Однако их это не остановило. В отчете также упоминается президент OpenAI Грег Брокман как один из членов команды, замешанный в инцеденте.

Генеральный директор YouTube Нил Мохан в интервью для Bloomberg сказал, что политика компании «не позволяет загружать такие вещи, как стенограммы или фрагменты видео, и это является явным нарушением наших условий обслуживания». Но на вопрос, использовались ли данные YouTube OpenAI или нет, Мохан дал двусмысленный ответ: «Я видел сообщения о том, что они могли или не могли быть использованы. У меня самого нет информации».