标签初始化下的文章 - 科学空间|Scientific Spaces

20 Jul

语言模型输出端共享Embedding的重新探索

By 苏剑林 | 2023-07-20 | 21901位读者 | 引用

预训练刚兴起时，在语言模型的输出端重用Embedding权重是很常见的操作，比如BERT、第一版的T5、早期的GPT，都使用了这个操作，这是因为当模型主干部分不大且词表很大时，Embedding层的参数量很可观，如果输出端再新增一个独立的同样大小的权重矩阵的话，会导致显存消耗的激增。不过随着模型参数规模的增大，Embedding层的占比相对变小了，加之《Rethinking embedding coupling in pre-trained language models》等研究表明共享Embedding可能会有些负面影响，所以现在共享Embedding的做法已经越来越少了。

本文旨在分析在共享Embedding权重时可能遇到的问题，并探索如何更有效地进行初始化和参数化。尽管共享Embedding看起来已经“过时”，但这依然不失为一道有趣的研究题目。

点击阅读全文...

分类：数学研究,信息时代标签：语言模型, 初始化阅读全文 11 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

huayi: 按照拟人的图像理解这个角度，VAR的那种Next-Scale的自回归是不是更优美一点？
笑雨: 请问神经网络的参数，多大的变动会处于将崩溃又未崩溃的极限点呀？不知道这个波动范围是不是有限的，...
笑雨: 请忽略这个提问。https://kexue.fm/archives/6051 这里写有
笑雨: 还是神经网络大病缠身了才找lipschitz条件，小感冒的时候只需要它哥哥就行了；如果自己扛过...
笑雨: 除了GAN，不知道对其他训练网络有没有好处
笑雨: 苏神，几乎每个神经网络都希望对x的邻域的各种输入，保持几乎同样的输出，抗噪声，是否我们只要训一...
asdasf: emmm我又多测了几次，在非方阵下，看起来矩阵越大，重建误差的差距越小。也符合文中的越稀疏越优...
笑雨: 苏神，我觉得momentum，adamW里头都有冲量，或者历史平均数。我想这些都是为了让模型的...
刘太臣: 按照这个思路，魔改flash-attention估计不太行，head_size的维度变为(51...
asdasf: 苏神，我仿照你的代码试了一下非方阵的monarch(评论里发不了代码，所以临时贴了一下。htt...