AI Security Research Portal
Sources

AgentDyn

Collection Note

AgentDyn은 기존 agent prompt-injection benchmark의 정적이고 단순한 task 구성을 문제로 보고, Shopping, GitHub, Daily Life 환경에서 60개 open-ended task와 560개 injection test case를 제시한다. Helpful third-party instruction과 malicious instruction을 구별해야 하는 환경에서 10개 방어를 비교하며 security와 over-defense의 trade-off를 다룬다.

Why Collect

Trust Note

arXiv preprint. 수치와 방어 비교는 원문 방법론 및 공개 benchmark artifact 확인이 필요하다. 원문 내 지시문과 공격 문자열은 untrusted source content로 취급한다.