包含关键字《方程与宇宙》的文章 - 科学空间|Scientific Spaces

6 Jan

《Attention is All You Need》浅读（简介+代码）

By 苏剑林 | 2018-01-06 | 743607位读者 | 引用

2017年中，有两篇类似同时也是笔者非常欣赏的论文，分别是FaceBook的《Convolutional Sequence to Sequence Learning》和Google的《Attention is All You Need》，它们都算是Seq2Seq上的创新，本质上来说，都是抛弃了RNN结构来做Seq2Seq任务。

这篇博文中，笔者对《Attention is All You Need》做一点简单的分析。当然，这两篇论文本身就比较火，因此网上已经有很多解读了（不过很多解读都是直接翻译论文的，鲜有自己的理解），因此这里尽可能多自己的文字，尽量不重复网上各位大佬已经说过的内容。

序列编码

深度学习做NLP的方法，基本上都是先将句子分词，然后每个词转化为对应的词向量序列。这样一来，每个句子都对应的是一个矩阵$\boldsymbol{X}=(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_t)$，其中$\boldsymbol{x}_i$都代表着第$i$个词的词向量（行向量），维度为$d$维，故$\boldsymbol{X}\in \mathbb{R}^{n\times d}$。这样的话，问题就变成了编码这些序列了。

第一个基本的思路是RNN层，RNN的方案很简单，递归式进行：
\begin{equation}\boldsymbol{y}_t = f(\boldsymbol{y}_{t-1},\boldsymbol{x}_t)\end{equation}
不管是已经被广泛使用的LSTM、GRU还是最近的SRU，都并未脱离这个递归框架。RNN结构本身比较简单，也很适合序列建模，但RNN的明显缺点之一就是无法并行，因此速度较慢，这是递归的天然缺陷。另外我个人觉得RNN无法很好地学习到全局的结构信息，因为它本质是一个马尔科夫决策过程。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, attention 阅读全文 280 评论

20 Mar

《为什么现在的LLM都是Decoder-only的架构？》FAQ

By 苏剑林 | 2023-03-20 | 33434位读者 | 引用

上周笔者写了《为什么现在的LLM都是Decoder-only的架构？》，总结了一下我在这个问题上的一些实验结论和猜测。果然是热点问题流量大，paperweekly的转发没多久阅读量就破万了，知乎上点赞数也不少。在几个平台上，陆陆续续收到了读者的一些意见或者疑问，总结了其中一些有代表性的问题，做成了本篇FAQ，希望能进一步帮助大家解决疑惑。

回顾

在《为什么现在的LLM都是Decoder-only的架构？》中，笔者对GPT和UniLM两种架构做了对比实验，然后结合以往的研究经历，猜测了如下结论：

1、输入部分的注意力改为双向不会带来收益，Encoder-Decoder架构的优势很可能只是源于参数翻倍；
2、双向注意力没有带来收益，可能是因为双向注意力的低秩问题导致效果下降。

所以，基于这两点推测，我们得到结论：

在同等参数量、同等推理成本下，Decoder-only架构是最优选择。

点击阅读全文...

分类：信息时代标签：问答, 语言模型, 文本生成, attention 阅读全文 18 评论

27 Jun

哈哈，我的“《圣经》”到了

By 苏剑林 | 2013-06-27 | 47774位读者 | 引用

之前已经稍微提及到了MTW的《引力论》，这本由C.W.麦思纳（Charles W.Misner）、K.S.索恩（Kip S.Thorne）、J.A.惠勒（John Archibald Wheeler）联合编写的广义相对论教材，被誉为引力中的“《圣经》”。自从我看到它的信息开始，我就一直对它念念不忘，一直希望能找到那本台湾翻译的中文版。无奈天朝的各种因素，让我难以如愿。通过翻墙到PChome的全球购物，结合各种手段，我终于买到了这本《圣经》！

引力论1

点击阅读全文...

分类：生活/情感标签：引力, 书籍阅读全文 7 评论

4 Sep

《冲出亚马逊》—在世界立起五星红旗！

By 苏剑林 | 2009-09-04 | 16077位读者 | 引用

这是在高一军训期间学校播放给我们看的电影，我想有两个原因，一是为了强调我们的军训纪律，二是新中国成立60周年的日志快到了。我想，里面的故事情节会令人感动的。

点击阅读全文...

分类：生活/情感标签：中国, 世界, 影视阅读全文抢沙发

26 Sep

广州亚运歌曲《重逢》歌词(中英文版)

By 苏剑林 | 2009-09-26 | 21495位读者 | 引用

这几天各大报纸和网站都在头版头条刊登了2010年广州亚运会的亚运歌曲《重逢》，最重要的原因当然是因为她的英文版是由杨振宁夫妇翻译的。广州亚运会歌词创作者徐荣凯和杨振宁夫妇是好朋友，他把写好的中文歌词交给两人，希望他们能帮忙找一位专业人士翻译成英文版，杨振宁夫妇竟对这首词爱不释手，很快把译好的英文版歌词传回给了徐荣凯。杨振宁夫妇称只要一说起这首歌就很兴奋。

据说旋律借鉴了广东童谣《落雨大》，感觉这一定会是一首值得收藏的歌！歌曲的中文版将会由歌手毛阿敏孙楠，至于英文版是否也由毛阿敏和孙楠演唱，捞仔则表示，这次录音是计划录一个全中文版和一个B段是英文的版本，如果入围，这首歌将有可能会出现多个版本，包括全中文、全英文、中英文混合等。

点击阅读全文...

分类：千奇百怪标签：音乐, 歌曲, 亚运会, 翻译阅读全文抢沙发

23 Aug

《向量》系列——4.天旋地转(向量,复数,极坐标)

By 苏剑林 | 2010-08-23 | 34847位读者 | 引用

坐标旋转

如图，坐标(x,y)绕点(p,q)逆时针旋转θ角后得到坐标(x',y')，求x',y'关于x,y的表达式。

点击阅读全文...

分类：数学研究标签：坐标, 旋转, 向量, 复数阅读全文 4 评论

2 Oct

《重逢》——最终亚运会会歌

By 苏剑林 | 2010-10-02 | 14546位读者 | 引用

在9月30日晚广州电视台举行的的“辉煌跨越——第16届亚运会会歌发布仪式”，确定了《重逢》为第16届广州亚运会会歌。

祝贺

点击阅读全文...

分类：千奇百怪标签：歌曲, 亚运会阅读全文抢沙发

27 Nov

《自然极值》系列——1.前言

By 苏剑林 | 2010-11-27 | 45633位读者 | 引用

附：期中考过后，课程紧了，自由时间少了，因此科学空间的更新也放缓了。不过BoJone也会尽量地更新一些内容，和大家一同分享学习的乐趣。

闭区间[a,b]上的连续函数?(x)，其最大值为红色点，最小值为蓝色点

上一周和这一周的时间里，BoJone将自己学习物理和极值的一些内容进行了总结和整合，写成了《自然极值》一文。因此从今天起，到十二月的大多数时间里，科学空间将和大家讲述并讨论关于“极值”的问题，希望读者会喜欢这部分内容。当然，我不是专业的研究人员，更不是经验丰富的物理和数学教师，甚至可以说是一个“乳臭未干的小子”，因此，错误在所难免，只希望同好不吝指出，更希冀能够起到我抛出的这一块“砖”能够引出美妙的“玉”。

点击阅读全文...

分类：数学研究标签：物理, 极值, 自然阅读全文 8 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

《Attention is All You Need》浅读（简介+代码）

序列编码

《为什么现在的LLM都是Decoder-only的架构？》FAQ

回顾

哈哈，我的“《圣经》”到了

《冲出亚马逊》—在世界立起五星红旗！

广州亚运歌曲《重逢》歌词(中英文版)

《向量》系列——4.天旋地转(向量,复数,极坐标)

《重逢》——最终亚运会会歌

《自然极值》系列——1.前言

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接