gcg attack

  1. Кудрин Евгений

    Статья LLM Jailbreak: Методологии тестирования устойчивости модели к Prompt Injection

    Если кратко, LLM Jailbreak — это способ заставить модель делать то, чего она вроде бы делать не должна. Ситуация из серии: “а давай ты сам себе отключишь сигнализацию — мне просто посмотреть”. Prompt Injection — источник этого безобразия: вмешательство в промпт таким образом, чтобы модель...