[LG]《LLMs as Noisy Channels: A Shannon P

[LG]《LLMs as Noisy Channels: A Shannon Perspective on Model Capacity and Scaling Laws》X Ouyang, D Liu, Y Cai, J Liu… [ByteDance Seed] (2026)

在LLM缩放领域，“越大越好”遇到反例：过训、量化会让性能回落。过去幂律只看参数和数据收益，忽略噪声会随规模一同放大。

本文的核心洞见是：把LLM重新看作带噪信道。由此，用参数表征带宽、数据表征信号、训练与扰动表征噪声，解释U形损失盆地。