包含关键字经验分布函数的分布的文章

18 Jul

也来扯几句“全国青少年科技创新大赛”

By 苏剑林 | 2020-07-18 | 35172位读者 | 引用

最近，“全国青少年科技创新大赛”火了，原因很简单，因为公开的每一篇获奖作品都几乎是硕士乃至博士水平的，甚至相比很多知名期刊上的文章都不遑多让，但这些作品的作者却只是中学生甚至只是小学生，他们迈过了各种“天堑”般的坎，完成对很多人甚至是对很多专业硕士博士来说都是“天书”般的科研项目。这份获奖清单在网上也算是掀起了一股轩然大波，让我等吃瓜群众深感“后浪”的强大。事情仍然在发酵，逐渐地，有成立调查组的，有发表声明的，有为“过度参与”致歉的，有坚称“没有参与”的，看得瓜友们乐此不疲。

点击阅读全文...

分类：千奇百怪标签：情感, 时事阅读全文 6 评论

29 Sep

第1000篇文章

By 苏剑林 | 2020-09-29 | 55224位读者 | 引用

后台提示，本文是科学空间的第1000篇文章。

本想写下一篇文章的，但是看到这个提示，就先瞎写个水文纪念一下。都说人老了就喜欢各种感叹，这话还真不假。看到别人高考来个感想，博客十周年了来个感想，现在第1000篇文章了也来个感想，似乎总想找点理由感叹一下一样。那今天又能扯些啥犊子呢？

1000

首先，自恋一下。1000篇文章，如果要印刷下来，就算每篇文章印一页，那也能印个1000页了，相信不少人都没捧起过1000页的书吧（我还真读过，有文章为证：《哈哈，我的“〈圣经〉”到了》），我居然能写个1000篇，也是挺佩服自己的。当然，早期的文章有部分是转载的，不是全部都自己写的，不过还是坚持了不少原创内容，而且就算是转载的也是经过自己编辑整理的，不算纯Copy，所以也勉强能说的过去吧。

然后，庆幸一下。博客开始的主题是天文和科普，后来慢慢偏向了理论物理和数学，现在则偏向了机器学习，但不管怎样，总算很庆幸地在科学这条路坚持了下来。虽然没有像幼时设想的那样成为一名真正的自然科学家/数学家，但终究有点相关，闲时依然可以做做科学计算，勉强也对得起当初的梦想。

点击阅读全文...

分类：生活/情感标签：生活, 节日, 情感阅读全文 22 评论

4 Dec

层次分解位置编码，让BERT可以处理超长文本

By 苏剑林 | 2020-12-04 | 122494位读者 | 引用

大家都知道，目前的主流的BERT模型最多能处理512个token的文本。导致这一瓶颈的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码，一般的最大位置设为了512，因此顶多只能处理512个token，多出来的部分就没有位置编码可用了。当然，还有一个重要的原因是Attention的$\mathcal{O}(n^2)$复杂度，导致长序列时显存用量大大增加，一般显卡也finetune不了。

位置编码的层次分解示意图

本文主要面向前一个原因，即假设有足够多的显存前提下，如何简单修改当前最大长度为512的BERT模型，使得它可以直接处理更长的文本，主要思路是层次分解已经训练好的绝对位置编码，使得它可以延拓到更长的位置。

点击阅读全文...

分类：信息时代标签：模型, 优化, attention 阅读全文 52 评论

14 Dec

Mitchell近似：乘法变为加法，误差不超过1/9

By 苏剑林 | 2020-12-14 | 40296位读者 | 引用

今天给大家介绍一篇1962年的论文《Computer Multiplication and Division Using Binary Logarithms》，作者是John N. Mitchell，他在里边提出了一个相当有意思的算法：在二进制下，可以完全通过加法来近似完成两个数的相乘，最大误差不超过1/9。整个算法相当巧妙，更有意思的是它还有着非常简洁的编程实现，让人拍案叫绝。然而，笔者发现网上居然找不到介绍这个算法的网页，所以在此介绍一番。

你以为这只是过时的玩意？那你就错了，前不久才有人利用它发了一篇NeurIPS 2020呢！所以，确定不来了解一下吗？

点击阅读全文...

分类：数学研究标签：模型, 算法, 优化阅读全文 10 评论

3 Mar

T5 PEGASUS：开源一个中文生成式预训练模型

By 苏剑林 | 2021-03-03 | 190541位读者 | 引用

去年在文章《那个屠榜的T5模型，现在可以在中文上玩玩了》中我们介绍了Google的多国语言版T5模型（mT5），并给出了用mT5进行中文文本生成任务的例子。诚然，mT5做中文生成任务也是一个可用的方案，但缺乏完全由中文语料训练出来模型总感觉有点别扭，于是决心要搞一个出来。

经过反复斟酌测试，我们决定以mT5为基础架构和初始权重，先结合中文的特点完善Tokenizer，然后模仿PEGASUS来构建预训练任务，从而训练一版新的T5模型，这就是本文所开源的T5 PEGASUS。

T5 PEGASUS的训练数据示例

Github地址：https://github.com/ZhuiyiTechnology/t5-pegasus

点击阅读全文...

分类：信息时代标签：语言模型, 文本生成, attention 阅读全文 107 评论

3 Apr

P-tuning：自动构建模版，释放语言模型潜能

By 苏剑林 | 2021-04-03 | 148600位读者 | 引用

在之前的文章《必须要GPT3吗？不，BERT的MLM模型也能小样本学习》中，我们介绍了一种名为Pattern-Exploiting Training（PET）的方法，它通过人工构建的模版与BERT的MLM模型结合，能够起到非常好的零样本、小样本乃至半监督学习效果，而且该思路比较优雅漂亮，因为它将预训练任务和下游任务统一起来了。然而，人工构建这样的模版有时候也是比较困难的，而且不同的模版效果差别也很大，如果能够通过少量样本来自动构建模版，也是非常有价值的。

P-tuning直接使用[unused]来构建模版，不关心模版的自然语言性

最近Arxiv上的论文《GPT Understands, Too》提出了名为P-tuning的方法，成功地实现了模版的自动构建。不仅如此，借助P-tuning，GPT在SuperGLUE上的成绩首次超过了同等级别的BERT模型，这颠覆了一直以来“GPT不擅长NLU”的结论，也是该论文命名的缘由。

点击阅读全文...

分类：信息时代标签：语言模型, NLP 阅读全文 66 评论

31 Oct

bert4keras在手，baseline我有：CLUE基准代码

By 苏剑林 | 2021-10-31 | 77902位读者 | 引用

CLUE（Chinese GLUE）是中文自然语言处理的一个评价基准，目前也已经得到了较多团队的认可。CLUE官方Github提供了tensorflow和pytorch的baseline，但并不易读，而且也不方便调试。事实上，不管是tensorflow还是pytorch，不管是CLUE还是GLUE，笔者认为能找到的baseline代码，都很难称得上人性化，试图去理解它们是一件相当痛苦的事情。

所以，笔者决定基于bert4keras实现一套CLUE的baseline。经过一段时间的测试，基本上复现了官方宣称的基准成绩，并且有些任务还更优。最重要的是，所有代码尽量保持了清晰易读的特点，真·“Deep Learning for Humans”。

代码链接：https://github.com/bojone/CLUE-bert4keras

代码简介

下面简单介绍一下该代码中各个任务baseline的构建思路。在阅读文章和代码之前，请读者自行先观察一下每个任务的数据格式，这里不对任务数据进行详细介绍。

点击阅读全文...

分类：信息时代标签：模型, 代码, keras 阅读全文 28 评论

8 Sep

有限内存下全局打乱几百G文件（Python）

By 苏剑林 | 2021-09-08 | 72142位读者 | 引用

这篇文章我们来做一道编程题：

如何在有限内存下全局随机打乱（Shuffle）几百G的文本文件？

题目背景其实很明朗，现在预训练模型动辄就几十甚至几百G语料了，为了让模型能更好地进行预训练，对训练语料进行一次全局的随机打乱是很有必要的。但对于很多人来说，几百G的语料往往比内存还要大，所以如何能在有限内存下做到全局的随机打乱，便是一个很值得研究的问题了。

已有工具

假设我们的文件是按行存储的，也就是一行代表一个样本，我们要做的就是按行随机打乱文件。假设我们只有一个文件，并且这个文件大小明显小于内存，那么我们可以用linux自带的shuf命令：

shuf input.txt -o output.txt

点击阅读全文...

分类：信息时代标签：编程, python 阅读全文 17 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

也来扯几句“全国青少年科技创新大赛”

第1000篇文章

层次分解位置编码，让BERT可以处理超长文本

Mitchell近似：乘法变为加法，误差不超过1/9

T5 PEGASUS：开源一个中文生成式预训练模型

P-tuning：自动构建模版，释放语言模型潜能

bert4keras在手，baseline我有：CLUE基准代码

代码简介

有限内存下全局打乱几百G文件（Python）

已有工具

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接