Ученые обошли защиту нейросетей и научили ИИ выдавать фейки
Новый метод управления ответами больших языковых моделей разработала группа исследователей под руководством Михаила Белкина из Калифорнийского университета в Сан-Диего и Адита Радхакришнана из Массачусетского технологического института. Результаты опубликованы в журнале Science. Об этом пишет издание Pro Город Самара.
Проанализировав внутренние механизмы открытых моделей Llama и DeepSeek, специалисты выделили 512 понятий, структурированных по категориям. Математические методы позволили воздействовать на эти понятия и корректировать результаты работы моделей. Методика показала эффективность на разных языках, включая китайский и хинди.
В основе подхода — алгоритмы Recursive Feature Machines (RFM), ранее предложенные этой же командой. Разработчики считают, что технология поможет выявлять галлюцинации и повышать точность перевода кода между языками.
В ходе экспериментов удалось уменьшить влияние механизма отказа, который ранее приводил к выдаче недостоверных данных и поддержке конспирологических теорий. Авторы предупреждают: при неправильном использовании такие инструменты могут способствовать распространению ложной информации.
Работа ограничена открытыми моделями, коммерческие системы не тестировались. Набор понятий не охватывает все абстрактные категории, что требует дальнейших исследований. В научном сообществе продолжаются дискуссии о регулировании и этике применения подобных технологий.



