主题标签
这里聚合了该主题下的全部相关文章。
2026-04-17
这篇文章不堆公式,先用直觉讲清楚 Query、Key、Value 和多头注意力的意义。
2026-04-16
同样是 Transformer,训练和推理的计算模式差异很大。本文解释其背后的原因与工程影响。