jailbreak testing methodology

  1. Кудрин Евгений

    Статья AI Red Teaming: методология тестирования ML-систем на безопасность

    Введение Задача AI red teaming - проверить, выдержит ли система столкновение с реальностью: с действиями обычного пользователя, недоброжелателя, действующего вслепую, или внутреннего сотрудника на грани нервного срыва. Пока теоретики вычерчивают на досках безупречную архитектуру доверия, red...