塔斯娱乐资讯网

[LG]《Local linear convergence of gradien

[LG]《Local linear convergence of gradient methods for overparameterized Gaussian mixtures》J Wang, V Charisopoulos, M Fazel [University of Washington] (2026)

在过参数化高斯混合学习中,局部收敛慢是悬而未决的难题。过去梯度EM受困于平坦方向,本质原因是多个学生分量共用一个真实分量,使Fisher信息退化。

本文的核心洞见是:把退化地形重新看作“峡谷”流形。由此,短梯度步贴近峡谷、长Polyak步沿峡谷收缩这一操作,使慢方向也能几何下降。

这项工作留下的遗产是证明过参数化不必牺牲局部速度。它打开的新门是按损失几何设计一阶算法,但尚未跨过的门槛是有限样本与权重持续更新的完整保证。

arxiv.org/abs/2605.30936 机器学习 人工智能 论文 AI创造营