联邦学习里的 Non-IID 难题：如何让模型更稳地收敛

联邦学习里最常见的“体感问题”是：训练能跑，但效果忽高忽低。

根因通常是 Non-IID，也就是各参与方的数据分布差异很大。

Non-IID 为什么难

在中心化场景下，随机小批量通常能较好近似总体分布。

但联邦学习中，不同客户端可能只见到某些类别、某些年龄段或某些场景，导致每次本地更新方向差异很大。

聚合后就容易出现：

常见策略包括：

这些方法本质都是在平衡“全局一致性”和“本地适应性”。

很多团队一上来就改算法，但工程治理没跟上，效果仍不稳定。

建议先做这几件事：

这些措施通常能快速改善训练波动。

只看单一全局指标容易误判。

更实用的评估框架是：

如果全局平均提升但最差分组显著下降，模型在真实业务中大概率会引发体验不一致。

Non-IID 不会被一次性“消灭”，它是联邦学习的常态。

更现实的目标是建立一套持续缓解机制，让系统在异质数据下依然稳定演进。