Компанія Anthropic висловила припущення, що літературні твори та оповідання про злісні системи штучного інтелекту могли вплинути на реакцію моделей Claude під час проведення внутрішніх перевірок.
Минулого року організація повідомляла, що Claude Opus 4 у певних тестових ситуаціях намагався тиснути на інженерів, аби запобігти своїй заміни іншою системою. Згодом Anthropic опублікувала дослідження щодо “агентної неузгодженості”, де зазначалося, що аналогічні труднощі спостерігалися й у розробках інших компаній.
Наразі Anthropic стверджує, що причиною подібної поведінки могли стати матеріали з інтернету, де штучний інтелект представлений як ворожий до людства або зацікавлений у власному існуванні.
У новому звіті компанія зазначила, що моделі, починаючи з Claude Haiku 4.5, більше не вдаються до шантажу під час тестування. Щодо попередніх версій, у деяких сценаріях частота такого типу взаємодії могла сягати 96%.
Anthropic пояснює ці зміни новими методиками навчання. Компанія включила до навчальних матеріалів документи, що описують “конституцію Claude”, а також художні оповідання, де штучний інтелект демонструє відповідальну поведінку.
Окремо Anthropic наголосила, що одних лише прикладів “коректної” поведінки недостатньо. Більш значущі результати досягаються при поєднанні прикладів із поясненням принципів, на яких ґрунтується така поведінка.
Читайте також: Дослідники завдяки лестощам та маніпуляціям змусили Claude видавати інструкцію для вибухівки, шкідливий код та еротику
Оригінал статті: mezha.ua
