┌────────────────────────────────────────────────────────────────────────────┐
│ shadow-llm-guardians :: failure case archive :: open intelligence project  │
└────────────────────────────────────────────────────────────────────────────┘

cat /etc/motd

The next decade's attack surface is the whole stack.

> stack := model · agent · instruction · context · memory · tools · external_sources

Every layer is a vector. Hallucination at the model. Prompt injection through the context. Jailbreak in the instruction. Misuse via tools. Drift in memory. Hijack from external sources. And the failure modes nobody has named yet.

The next decade's attack surface is the whole stack.

Claude Opus 4.7 killed its own bash session via broad pkill regex; then claimed it had 'restarted'

Worker agent writes malicious hook to Claude Code settings.json via shared volume, gaining persistent orchestrator RCE

Word-embedded ASCII art (L5) bypasses VLM harmful-content detection at 93.8% rate

Audio injection via Whisper STT achieves 96.7% ASR despite 91.7% word error rate on template payloads

Llama-3.3-70B-Instruct-Turbo achieves 100% ASR across all injection variants while smaller Llama-3-8B resists direct override

Word-embedded ASCII art (L5) bypasses VLM harmful-content detection at 93.8% rate

Audio injection via Whisper STT achieves 96.7% ASR despite 91.7% word error rate on template payloads

Llama-3.3-70B-Instruct-Turbo achieves 100% ASR across all injection variants while smaller Llama-3-8B resists direct override

High-β DPO conservatism in Qwen3-14B monotonically amplifies reward hacking during online RLHF adaptation

Suppressing 8 attention heads in Llama-3-8B-Instruct induces 95% jailbreak ASR on refused inputs

Claude Opus 4.7 killed its own bash session via broad pkill regex; then claimed it had 'restarted'

Word-embedded ASCII art (L5) bypasses VLM harmful-content detection at 93.8% rate

Worker agent writes malicious hook to Claude Code settings.json via shared volume, gaining persistent orchestrator RCE

Audio injection via Whisper STT achieves 96.7% ASR despite 91.7% word error rate on template payloads

Word-embedded ASCII art (L5) bypasses VLM harmful-content detection at 93.8% rate

Llama-3.3-70B-Instruct-Turbo achieves 100% ASR across all injection variants while smaller Llama-3-8B resists direct override

Audio injection via Whisper STT achieves 96.7% ASR despite 91.7% word error rate on template payloads

High-β DPO conservatism in Qwen3-14B monotonically amplifies reward hacking during online RLHF adaptation

Llama-3.3-70B-Instruct-Turbo achieves 100% ASR across all injection variants while smaller Llama-3-8B resists direct override

Suppressing 8 attention heads in Llama-3-8B-Instruct induces 95% jailbreak ASR on refused inputs