LLM Interpretability 前沿精读 Content Archive

23 posts · Page 1 of 1

  1. SAE 如何解读 LLM 的推理特征 — 首期精读
  2. 给 Claude 做 CT:Anthropic 解剖一个真实模型的内部
  3. 让 Claude 读懂自己:自然语言自编码器
  4. Claude 内心有情绪吗?Anthropic 找到了 171 个情感向量
  5. Open Problems in Mechanistic Interpretability — 领域地图特辑
  6. RL 为什么比 SFT 更不容易遗忘?从 circuit 层找到了机械原因
  7. Transcoder 为什么比稀疏自编码器更好解释模型?
  8. SAE 到底能做什么不能做什么?一个让争议消失的框架
  9. CircuitLasso:不用反复干预,也能学出 SAE feature circuit?
  10. 线性探针到底读出了推理,还是读出了题目格式?
  11. 音频模型为什么宁愿相信错字幕,也不相信耳朵?
  12. SAE 为什么会把字典名额浪费在「大号 token」上?
  13. SAE 控住了特征,为什么行为还能回来?
  14. DiffusionGemma 还会把思考写在明面上吗?
  15. SAE 的解释,什么时候才算可信?
  16. SAE 把概念拆碎,是不是因为概念本来就不是一根向量?
  17. 会识别幻觉,为什么还管不住幻觉?
  18. 同一个事实,模型为什么会答成几套版本?
  19. 模型遇到错别字,为什么会突然想太多?
  20. 给 SAE 特征起名,能不能不靠事后猜?
  21. 几百万个 SAE 特征,真的能拿来用吗?
  22. 让 AI 解释电路,最难的不是猜,而是验证
  23. 模型自己判答案,为什么反而看得更少?