【转】局部余弦相似度大，全局余弦相似度一定也大吗？

本文转自苏神的博客

在分析模型的参数时，有些情况下我们会将模型的所有参数当成一个整体的向量，有些情况下我们则会将不同的参数拆开来看。比如，一个7B大小的LLAMA模型所拥有的70亿参数量，有时候我们会将它当成“一个70亿维的向量”，有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”，最极端的情况下，我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式，那么当我们要算一些统计指标时，也就会有不同的计算方式，即局部计算和全局计算，这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组，同一组对应的子向量余弦相似度都很大，那么两个大向量的余弦相似度是否一定就大呢？答案是否定的。特别地，这还跟著名的“辛普森悖论”有关。

问题背景

这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说，假设优化器的更新规则是：
$\begin{matrix} (1) & θ_{t + 1} = θ_{t} - η \nabla u_{t} \end{matrix}$ 其中 $u_{t}$ 是某个指定更新方向（的负方向）的向量。此时泰勒展开到一阶有
$\begin{matrix} (2) & (θ_{t + 1}) = (θ_{t} - η \nabla u_{t}) \approx (θ_{t}) - η (u_{t}, g_{t}) \end{matrix}$ 这里的 $g_{t}$ 就是梯度 $\nabla_{θ_{t}} (θ_{t})$ ，所以说，损失函数的变化量近似为
$\begin{matrix} (3) & - η (u_{t}, g_{t}) = - η | | u_{t} | | | | g_{t} | | \cos (u_{t}, g_{t}) \end{matrix}$ 所以笔者想到了观察一下 $u_{t}$ 与 $g_{t}$ 的余弦相似度，即更新向量与梯度的方向一致性。

但问题来了，正如本文开头所说，模型的参数有不同的拆分方式，我们是将模型所有参数当成一个大向量来算更新向量与梯度的余弦（全局），还是每一层、每个参数单独来算（局部）？笔者两者都做了，并且对局部余弦做了截断（保证每个参数对应的更新向量与梯度的余弦大于某个正阈值），然后发现全局居然小于该阈值。初见之下感觉比较意外，于是简单分析了一番。

简单分析

现在问题抽象为：

假如两个向量的局部余弦相似度都不小于 $λ > 0$ ，那么这两个向量的全局余弦相似度一定不小于λ吗？

答案大家已经知道了，是否定的。否定只需要举一个反例，假设x=(1,1),y=(1,2)，很明显x≠y，所以cos(x,y)≠1，但是它们的子向量——也就是每个分量——都是正数，正数作为一维向量，它们的余弦相似度都是1，所以我们就得到了一个局部余弦相似度全是1、全局相似度小于1的反例。

更一般的分析，我们可以设 $x = [x_{1}, x_{2}], y = [y_{1}, y_{2}]$ ，那么
$\begin{aligned} (4) & \cos (x, y) & = \frac{(x, y)}{| | x | | \cdot | | y | |} = \frac{x_{1} y_{1} + x_{2} y_{2}}{\sqrt{x_{1}^{2} + x_{2}^{2}} \cdot \sqrt{y_{1}^{2} + y_{2}^{2}}} & = \frac{\cos (x_{1}, y_{1}) | | x_{1} | | \cdot | | y_{1} | | + \cos (x_{2}, y_{2}) | | x_{2} | | \cdot | | y_{2} | |}{\sqrt{x_{1}^{2} + x_{2}^{2}} \cdot \sqrt{y_{1}^{2} + y_{2}^{2}}} \end{aligned}$

如果让 $‖ x_{1} ‖, ‖ y_{2} ‖ \to 0 ， ‖ x_{2} ‖, ‖ y_{1} ‖$ 保持大于零不动（不失一般性，可以设 $‖ x_{2} ‖ = ‖ y_{1} ‖ = 1$ ），那么可以得到cos(x,y)→0，那就是说，不管 $c o s (x_{1}, y_{1}) 和 c o s (x_{2}, y_{2})$ 多大，总有一种情况可以让cos(x,y)无限接近于0，即无法通过 $c o s (x_{1}, y_{1}) 和 c o s (x_{2}, y_{2})$ 来让cos(x,y)有下界。

至于上界，则可以证明：
$\begin{matrix} (5) & c o s (x, y) \leq m a x c o s (x_{1}, y_{1}), c o s (x_{2}, y_{2}) \end{matrix}$ 证明其实也很简单，因为这个界很松。不失一般性假设 $c o s (x_{1}, y_{1}) \leq c o s (x_{2}, y_{2})$ ，那么根据式(4)有
$\begin{matrix} (6) & \cos (r, y) \leq \frac{| | x_{1} | | \cdot | | y_{1} | | + | | x_{2} | | \cdot | | y_{2} | |}{\sqrt{| | x_{1} | |^{2} + | | x_{2} | |^{2}} \cdot \sqrt{| | y_{1} | |^{2} + | | y_{2} | |^{2}}} \cos (x_{2}, y_{2}) \end{matrix}$ 方括号部分，其实正好是二维向量 $(‖ x_{1} ‖, ‖ x_{2} ‖) 和 (‖ y_{1} ‖, ‖ y_{2} ‖)$ 的余弦相似度，所以它必然不大于1，于是有 $c o s (x, y) \leq c o s (x_{2}, y_{2})$ ，这就证明了不等式(5)。

（再次强调，以上证明都是在 $c o s (x_{1}, y_{1}) \geq 0, c o s (x_{2}, y_{2}) \geq 0$ 的假设下完成的，如果存在小于0的情况，则结论可能需要稍加改动。）

文章小结

本文简单讨论了高维向量的局部余弦相似度与全局余弦相似度之间的关系，并进一步讨论了与之相关的“辛普森悖论”。

问题背景

简单分析

相关悖论

文章小结

分享到微信

推荐文章