Результати спільного дослідження компанії Scale AI та Центру безпеки штучного інтелекту свідчать, що сучасні системи штучного інтелекту наразі не можуть повністю замінити спеціалістів у галузях дизайну, програмування та аналітики. Про це повідомляє видання Washington Post, посилаючись на підсумки масштабного тестування популярних ШІ-моделей у реальних робочих умовах.
У межах дослідження науковці перевірили можливості таких систем, як ChatGPT, Gemini та Claude, залучивши їх до виконання сотень фріланс-проєктів. Завдання були максимально наближені до реальних замовлень на ринку: від розробки 3D-анімації, створення вебігор і написання програмного коду до форматування наукових матеріалів та побудови складних аналітичних моделей. Оцінювалася не лише коректність результатів, а й здатність ШІ розуміти контекст, дотримуватися вимог замовника та адаптуватися до змін у процесі роботи.
Результати виявилися доволі скромними. Найефективніша модель змогла якісно виконати лише 2,5% завдань. Майже половина проєктів була реалізована з низькою якістю, а близько третини так і залишилися незавершеними. У багатьох випадках ШІ створював пошкоджені файли або ігнорував ключові вимоги замовників. Навіть ті результати, які виглядали правдоподібно, при детальній перевірці містили критичні помилки.
Проблеми проявилися і в конкретних галузях. У тестах з дизайну інтер’єру штучний інтелект створював реалістичний на вигляд план приміщення, який водночас був технічно некоректним і не містив необхідної деталізації. Під час аналізу даних ШІ плутав кольори, накладав текст на графіки та пропускав цілі країни у візуалізаціях. У сфері розробки ігор система створила працездатний продукт, але повністю проігнорувала задану тему — замість гри про пивоваріння вийшов абстрактний проєкт.
Один з авторів дослідження Джейсон Хаузенлой пояснює такі результати двома ключовими обмеженнями. По-перше, сучасні чат-боти не мають довгострокової пам’яті, тому не вчаться на власних помилках у межах тривалих проєктів. По-друге, вони мають проблеми з візуальним розумінням, адже під час створення 3D-моделей працюють переважно через код, а не через повноцінний візуальний інтерфейс.
Водночас дослідники відзначають поступовий прогрес. Так, модель Gemini 3 Pro у листопаді 2025 року змогла виконати 1,3% завдань, тоді як її попередня версія показувала результат лише на рівні 0,8%.
Попри розвиток автономності ШІ, повна заміна людини-фахівця залишається малоймовірною в найближчому майбутньому. Хоча економічна вигода очевидна — створення гри людиною коштувало близько 1485 доларів, тоді як запуск Claude Sonnet обійшовся менш ніж у 30 доларів — різниця в якості все ще робить людську працю незамінною.

Наші джерела повідомляють, що після зміни конфігурації влади Андрій Єрмак повністю зосередився на підготовці виборчої кампанії президента Володимира Зеленського. Йдеться про окрему політичну вертикаль, яка працює поза межами Офісу президента. Саме цим, за словами співрозмовників, пояснюється нинішній розподіл повноважень у владі. Кирилу Буданову, який очолює Офіс президента, передано переговорний трек. При цьому його роль у […]
Питання фінансування української армії свідомо не виносили на обговорення під час підписання декларації про наміри щодо створення багатонаціональних сил для забезпечення припинення вогню в Україні. Про це повідомили джерела, обізнані з перебігом переговорів. Йдеться про документ, який підписали президенти України та Франції Володимир Зеленський і Еммануель Макрон, а також прем’єр-міністр Великої Британії Кір Стармер. Декларація […]
Провал українських сил на Покровському напрямку може мати серйозні кадрові наслідки для чинного Головнокомандувача Збройних сил України Олександра Сирського. Про це повідомляють джерела, обізнані з внутрішніми обговореннями у військово-політичному керівництві країни. За словами співрозмовників, ситуація на Покровському напрямку розглядається як критична. У разі подальшого погіршення обстановки та втрати контролю над ключовими позиціями цей напрямок може […]