包含关键字 keras 的文章 - 科学空间|Scientific Spaces

28 Aug

Lion/Tiger优化器训练下的Embedding异常和对策

By 苏剑林 | 2023-08-28 | 16303位读者 | 引用

打从在《Tiger：一个“抠”到极致的优化器》提出了Tiger优化器之后，Tiger就一直成为了我训练模型的“标配”优化器。最近笔者已经尝试将Tiger用到了70亿参数模型的预训练之中，前期效果看上来尚可，初步说明Tiger也是能Scale Up的。不过，在查看训练好的模型权重时，笔者发现Embedding出现了一些异常值，有些Embedding的分量达到了$\pm 100$的级别。

经过分析，笔者发现类似现象并不会在Adam中出现，这是Tiger或者Lion这种带符号函数$\text{sign}$的优化器特有的问题，对此文末提供了两种参考解决方案。本文将记录笔者的分析过程，供大家参考。

现象

接下来，我们的分析都以Tiger优化器为例，但分析过程和结论同样适用于Lion。

点击阅读全文...

分类：信息时代标签：问题, 梯度, 优化器阅读全文 16 评论

21 Feb

“闭门造车”之多模态模型方案浅谈

By 苏剑林 | 2024-02-21 | 43342位读者 | 引用

这篇文章分享一下笔者关于多模态模型架构的一些闭门造车的想法，或者说一些猜测。

最近Google的Gemini 1.5和OpenAI的Sora再次点燃了不少人对多模态的热情，只言片语的技术报告也引起了大家对其背后模型架构的热烈猜测。不过，本文并非是为了凑这个热闹才发出来的，事实上其中的一些思考由来已久，最近才勉强捋顺了一下，遂想写出来跟大家交流一波，刚好碰上了两者的发布。

事先声明，“闭门造车”一词并非自谦，笔者的大模型实践本就“乏善可陈”，而多模态实践更是几乎“一片空白”，本文确实只是根据以往文本生成和图像生成的一些经验所做的“主观臆测”。

问题背景

首先简化一下问题，本文所讨论的多模态，主要指图文混合的双模态，即输入和输出都可以是图文。可能有不少读者的第一感觉是：多模态模型难道不也是烧钱堆显卡，Transformer“一把梭”，最终“大力出奇迹”吗？

点击阅读全文...

分类：信息时代标签：生成模型, attention, 扩散, 多模态阅读全文 55 评论

«
1
...
15
16
17
18

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

yetian: 实际中都是基于（23）吗？采样于原数据集和正态噪音
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...
yetian: 剑林你好，这个文章对于我直观理解diffusion process 的SDE框架特别有帮助，感...
ZYZ: https://github.com/naver-ai/rope-vit
ZYZ: 数学上应该没区别，实际中时好时坏。 EDM里面的input output scaling也相当...
Linz: 感谢您的分享，您的想法和推导非常有意思！我们也发现了比较相关的性质，整理到了之前的文章（Lin...
JimmySue: 苏神，信噪比章节的对比方式感觉不严谨。高斯分布样本的均值的分布方差是原来的 1/n, 均值 p...
tsotfsk: AUC的光滑近似就是pairwise的loss。《MBA: Mini-Batch AUC O...
王磊: 如果把模型架构和训练方式分开考虑的话，rectified flow是一种特定的训练contin...
777: 是推理的时候多步去噪后的结果近乎噪声，预测x0正常也指的是多步去噪后的最终结果，用的是1d的unet