标签悖论下的文章 - 科学空间|Scientific Spaces

9 Jan

局部余弦相似度大，全局余弦相似度一定也大吗？

By 苏剑林 | 2024-01-09 | 28724位读者 | 引用

在分析模型的参数时，有些情况下我们会将模型的所有参数当成一个整体的向量，有些情况下我们则会将不同的参数拆开来看。比如，一个7B大小的LLAMA模型所拥有的70亿参数量，有时候我们会将它当成“一个70亿维的向量”，有时候我们会按照模型的实现方式将它看成“数百个不同维度的向量”，最极端的情况下，我们也会将它看成是“七十亿个1维向量”。既然有不同的看待方式，那么当我们要算一些统计指标时，也就会有不同的计算方式，即局部计算和全局计算，这引出了局部计算的指标与全局计算的指标有何关联的问题。

本文我们关心两个向量的余弦相似度。如果两个大向量的维度被拆成了若干组，同一组对应的子向量余弦相似度都很大，那么两个大向量的余弦相似度是否一定就大呢？答案是否定的。特别地，这还跟著名的“辛普森悖论”有关。

问题背景

这个问题源于笔者对优化器的参数增量导致的损失函数变化量的分析。具体来说，假设优化器的更新规则是：
\begin{equation}\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_t - \eta_t \boldsymbol{u}_t\end{equation}

点击阅读全文...

分类：数学研究标签：不等式, 相似度, 悖论阅读全文 7 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

psps: 苏老师，请问论文这一段说的不是楼上的意思吗？When using LoRA, We do no...
huayi: 按照拟人的图像理解这个角度，VAR的那种Next-Scale的自回归是不是更优美一点？
笑雨: 请问神经网络的参数，多大的变动会处于将崩溃又未崩溃的极限点呀？不知道这个波动范围是不是有限的，...
笑雨: 请忽略这个提问。https://kexue.fm/archives/6051 这里写有
笑雨: 还是神经网络大病缠身了才找lipschitz条件，小感冒的时候只需要它哥哥就行了；如果自己扛过...
笑雨: 除了GAN，不知道对其他训练网络有没有好处
笑雨: 苏神，几乎每个神经网络都希望对x的邻域的各种输入，保持几乎同样的输出，抗噪声，是否我们只要训一...
asdasf: emmm我又多测了几次，在非方阵下，看起来矩阵越大，重建误差的差距越小。也符合文中的越稀疏越优...
笑雨: 苏神，我觉得momentum，adamW里头都有冲量，或者历史平均数。我想这些都是为了让模型的...
刘太臣: 按照这个思路，魔改flash-attention估计不太行，head_size的维度变为(51...