Ученые описали главный баг при генерации изображений

Ученые из Даларнского университета в Швеции описали главный визуальный баг генеративных нейросетей: при многократной переработке одной и той же идеи модели постепенно теряют исходный смысл и начинают сводить все к ограниченному набору шаблонных образов. Авторы считают, что это демонстрирует склонность ИИ к стандартизации и ставит под сомнение разговоры о его творчестве.

Эксперимент устроили как визуальный «испорченный телефон». Stable Diffusion XL генерировала картинку по текстовой подсказке, затем мультимодальная модель LLaVA описывала получившееся изображение, а это описание снова отправляли в Stable Diffusion XL — и так по кругу. Всего подготовили 100 уникальных промптов примерно по 30 слов каждый, чтобы проверить, сохраняется ли смысл хотя бы в общих чертах.

Ожидалось, что итог будет хоть как то напоминать оригинал, но уже к сотому циклу изображения «съезжали» в одинаковые сюжеты, независимо от стартовой темы. В одном из примеров политическая сцена через несколько десятков шагов превратилась в классическую библиотеку, а потом — в роскошную гостиную с красным интерьером. В финале чаще всего всплывали повторяющиеся мотивы вроде спорта, ночных городских видов и сельской архитектуры, а вывод авторов звучит жестко: нейросети воспроизводят усредненную массовую эстетику, а не оригинальное видение.