Новая разработкаКоманда ученых из Техасского университета в Остине разработала технологию, которая с помощью генеративного искусственного интеллекта (ИИ) преобразует звуки из аудиозаписей в изображения улиц. Это открытие показывает, что машины могут воспроизводить связь между звуками и визуальными характеристиками, схожую с человеческим восприятием.
© Ferra.ru
Исследователи собрали данные из разных городских и сельских местностей, включая аудиозаписи и изображения. Эти данные использовались для обучения модели искусственного интеллекта. На основе 10-секундных аудиоклипов ИИ генерировал изображения, которые затем сравнивались с реальными фотографиями.
В рамках исследования было обнаружено, что звуковые среды содержат достаточно визуальных подсказок, чтобы создавать изображения улиц, которые точно отражают реальность.
Сравнения показали, что ИИ точно воспроизводил пропорции неба, зелени и зданий, а также архитектурные стили и освещение (день или ночь). Участники эксперимента в 80% случаев правильно связывали звуковые клипы с изображениями, созданными ИИ.
По словам авторов, эта технология выходит за рамки простого распознавания окружения. Она может помочь глубже понять, как звуки формируют субъективное восприятие местности. Например, шум трафика может ассоциироваться с городом, а шелест листвы — с лесом.
© University of Texas at Austin