LLM Interpretability 前沿精读 Content Archive
23 posts · Page 1 of 1
- SAE 如何解读 LLM 的推理特征 — 首期精读
- 给 Claude 做 CT:Anthropic 解剖一个真实模型的内部
- 让 Claude 读懂自己:自然语言自编码器
- Claude 内心有情绪吗?Anthropic 找到了 171 个情感向量
- Open Problems in Mechanistic Interpretability — 领域地图特辑
- RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因
- Transcoder 为什么比稀疏自编码器更好解释模型?
- SAE 到底能做什么不能做什么?一个让争议消失的框架
- CircuitLasso:不用反复干预,也能学出 SAE feature circuit?
- 线性探针到底读出了推理,还是读出了题目格式?
- 音频模型为什么宁愿相信错字幕,也不相信耳朵?
- SAE 为什么会把字典名额浪费在「大号 token」上?
- SAE 控住了特征,为什么行为还能回来?
- DiffusionGemma 还会把思考写在明面上吗?
- SAE 的解释,什么时候才算可信?
- SAE 把概念拆碎,是不是因为概念本来就不是一根向量?
- 会识别幻觉,为什么还管不住幻觉?
- 同一个事实,模型为什么会答成几套版本?
- 模型遇到错别字,为什么会突然想太多?
- 给 SAE 特征起名,能不能不靠事后猜?
- 几百万个 SAE 特征,真的能拿来用吗?
- 让 AI 解释电路,最难的不是猜,而是验证
- 模型自己判答案,为什么反而看得更少?