Large-Scale Public Indirect Prompt-Injection Competition
Collection Note
대규모 공개 red-team competition에서 tool calling, coding, computer use agent를 대상으로 공격과 concealment를 함께 평가한다. 464명의 참가자, 272,000회 공격 시도, 13개 frontier model, 41개 scenario를 보고하며, final response에 compromise 흔적을 남기지 않으면서 harmful action을 성공시키는 문제를 강조한다.
Why Collect
- final-answer inspection만으로 실제 compromise를 탐지하기 어렵다는 실증 근거를 제공한다.
- 공격 transferability와 benchmark staleness를 대규모 데이터로 분석한다.
- [[04_Research_Questions/RQ - Continuous Agent Guardrail Regression Monitoring]], [[04_Research_Questions/RQ - AI Security Judge Calibration Protocol]], [[04_Research_Questions/RQ - Incident Replay To Control Mapping For AI Agent Failures]]과 관련된다.
Trust Note
arXiv preprint. 모델별 수치는 특정 competition configuration에 종속되며 일반적인 제품 보안 순위로 해석하지 않는다. 공개 attack data는 ingest 시 최소한으로만 기술하고 실행하지 않는다.