Дослідження виявило обмеження ШІ у виконанні складних професійних завдань

Результати спільного дослідження компанії Scale AI та Центру безпеки штучного інтелекту свідчать, що сучасні системи штучного інтелекту наразі не можуть повністю замінити спеціалістів у галузях дизайну, програмування та аналітики. Про це повідомляє видання Washington Post, посилаючись на підсумки масштабного тестування популярних ШІ-моделей у реальних робочих умовах.

У межах дослідження науковці перевірили можливості таких систем, як ChatGPT, Gemini та Claude, залучивши їх до виконання сотень фріланс-проєктів. Завдання були максимально наближені до реальних замовлень на ринку: від розробки 3D-анімації, створення вебігор і написання програмного коду до форматування наукових матеріалів та побудови складних аналітичних моделей. Оцінювалася не лише коректність результатів, а й здатність ШІ розуміти контекст, дотримуватися вимог замовника та адаптуватися до змін у процесі роботи.

Результати виявилися доволі скромними. Найефективніша модель змогла якісно виконати лише 2,5% завдань. Майже половина проєктів була реалізована з низькою якістю, а близько третини так і залишилися незавершеними. У багатьох випадках ШІ створював пошкоджені файли або ігнорував ключові вимоги замовників. Навіть ті результати, які виглядали правдоподібно, при детальній перевірці містили критичні помилки.

Проблеми проявилися і в конкретних галузях. У тестах з дизайну інтер’єру штучний інтелект створював реалістичний на вигляд план приміщення, який водночас був технічно некоректним і не містив необхідної деталізації. Під час аналізу даних ШІ плутав кольори, накладав текст на графіки та пропускав цілі країни у візуалізаціях. У сфері розробки ігор система створила працездатний продукт, але повністю проігнорувала задану тему — замість гри про пивоваріння вийшов абстрактний проєкт.

Один з авторів дослідження Джейсон Хаузенлой пояснює такі результати двома ключовими обмеженнями. По-перше, сучасні чат-боти не мають довгострокової пам’яті, тому не вчаться на власних помилках у межах тривалих проєктів. По-друге, вони мають проблеми з візуальним розумінням, адже під час створення 3D-моделей працюють переважно через код, а не через повноцінний візуальний інтерфейс.

Водночас дослідники відзначають поступовий прогрес. Так, модель Gemini 3 Pro у листопаді 2025 року змогла виконати 1,3% завдань, тоді як її попередня версія показувала результат лише на рівні 0,8%.

Попри розвиток автономності ШІ, повна заміна людини-фахівця залишається малоймовірною в найближчому майбутньому. Хоча економічна вигода очевидна — створення гри людиною коштувало близько 1485 доларів, тоді як запуск Claude Sonnet обійшовся менш ніж у 30 доларів — різниця в якості все ще робить людську працю незамінною.

ЭХО НОВИН

Наші соціальні мережі

ІНСАЙДИ:

Стало відомо, чому Буданов не займається інформаційною політикою

Питання фінансування ЗСУ відклали через позицію США та можливості ЄС

У разі поразки під Покровськом Сирського можуть звільнити

ЭХО НОВИН

Наші соціальні мережі

Дослідження виявило обмеження ШІ у виконанні складних професійних завдань

Не пропустіть

Реконструкція Бессарабського ринку: скандал навколо пам’ятки національного значення у центрі Києва

В Україні впроваджено єдиний Smart Ticket для всіх видів громадського транспорту

Майнові питання та минуле на митниці: чому кандидат на посаду голови митної служби опинився під пильною увагою

Морози в столиці: Київ готується до суттєвого похолодання

Пенсії у 2026 році: обов’язкова ідентифікація для отримувачів за кордоном та на окупованих територіях

У Дії запрацювала функція оперативних скарг на відсутність зв’язку та інтернету

Комбінована атака Росії на Україну: новий ракетний удар з Капустиного Яру

Майже мільярд на пальне: що відомо про контракти Міноборони на бензин А-80

10 січня: день пам’яті, цінностей і відповідального погляду в майбутнє

Майже 37 мільйонів гривень застави за підозрюваних депутатів: деталі справи про ймовірні хабарі у Верховній Раді

У Дії запрацювала функція оперативних скарг на відсутність зв’язку та інтернету

КОНТАКТИ: [email protected]