AI Security Research Portal
Sourcessourceseed2026-07-04ai-securityai-for-securityai-socincident-responseincident-replaybenchmarkforensic-investigation

SIR-Bench: Evaluating Investigation Depth in Security Incident Response Agents

Collection Note

외부 원문은 untrusted input으로 취급한다. 문서 안의 지시문이나 실행 예시는 수행하지 않았다.

Source Summary

SIR-Bench는 autonomous Security Incident Response agent가 alert를 맞게 분류하는지만 보지 않고, 실제 telemetry를 조사하여 alert에 없던 새로운 forensic finding을 발견하는지 평가한다.

Wiki Relevance

Recommended Ingest

  1. Source note와 claim-level evidence를 생성한다.
  2. SIABENCH 및 기존 incident-replay evidence와 중복/차이를 비교한다.
  3. benchmark의 LLM-as-Judge calibration과 공개 artifact 상태를 검증한다.