Discover My ChannelsJoin Our Discord

Terms of Service Privacy Policy

LLM Interpretability 前沿精读 / Content Archive

LLM Interpretability 前沿精读 Content Archive

23 posts · Page 1 of 1

SAE 如何解读 LLM 的推理特征 — 首期精读2026-06-09
给 Claude 做 CT：Anthropic 解剖一个真实模型的内部2026-06-10
让 Claude 读懂自己：自然语言自编码器2026-06-11
Claude 内心有情绪吗？Anthropic 找到了 171 个情感向量2026-06-12
Open Problems in Mechanistic Interpretability — 领域地图特辑2026-06-13
RL 为什么比 SFT 更不容易遗忘？从 circuit 层找到了机械原因2026-06-14
Transcoder 为什么比稀疏自编码器更好解释模型？2026-06-15
SAE 到底能做什么不能做什么？一个让争议消失的框架2026-06-16
CircuitLasso：不用反复干预，也能学出 SAE feature circuit？2026-06-17
线性探针到底读出了推理，还是读出了题目格式？2026-06-17
音频模型为什么宁愿相信错字幕，也不相信耳朵？2026-06-18
SAE 为什么会把字典名额浪费在「大号 token」上？2026-06-19
SAE 控住了特征，为什么行为还能回来？2026-06-20
DiffusionGemma 还会把思考写在明面上吗？2026-06-21
SAE 的解释，什么时候才算可信？2026-06-23
SAE 把概念拆碎，是不是因为概念本来就不是一根向量？2026-06-24
会识别幻觉，为什么还管不住幻觉？2026-06-25
同一个事实，模型为什么会答成几套版本？2026-06-26
模型遇到错别字，为什么会突然想太多？2026-06-28
给 SAE 特征起名，能不能不靠事后猜？2026-06-29
几百万个 SAE 特征，真的能拿来用吗？2026-06-30
让 AI 解释电路，最难的不是猜，而是验证2026-07-01
模型自己判答案，为什么反而看得更少？2026-07-02

1