AI Agents May Always Fall for Prompt Injections
Collection Note
이 논문은 data-instruction separation이 contextual manipulation을 놓치거나 정상 동작을 과도하게 차단할 수 있다고 주장한다. Prompt injection을 Contextual Integrity 관점의 information-flow norm 위반으로 재구성하고, flow misrepresentation, norm manipulation, mixed-flow scenario를 제시한다.
Why Collect
- prompt injection을 문자열 또는 instruction hierarchy 문제만으로 다루는 방어의 한계를 검토한다.
- security와 contextual utility 사이의 구조적 trade-off를 연구 문제로 만든다.
- [[04_Research_Questions/RQ - Agent Authority Gradient]]와 [[04_Research_Questions/RQ - Control Validation Coverage For Security for AI Frameworks]]에 잠재적 수정 근거를 제공할 수 있다.
Trust Note
arXiv preprint. 논문의 impossibility 성격 주장은 가정과 formal scope를 원문에서 검토해야 하며, 일반적인 모든 agent architecture에 곧바로 일반화하지 않는다.