包含关键字 Transformer升级之路的文章 - 科学空间|Scientific Spaces

5 Sep

进驻中山大学南校区，折腾校园网

By 苏剑林 | 2016-09-05 | 81170位读者 | 引用

开始研究僧之旅，希望有一天能企及扫地僧的境界。

进入中山大学后，各种郁闷的事情就来了。首先最郁闷的就是开学时间特早，8月26日开学，感觉至少比一般学校早了一星期，开学这么早有意思么～～接着就是感觉中大的管理制度各种混乱，比我本科的华师差多了。好吧，这些琐事先不吐槽，接下来弄校园网，这是作死的开始。

我们是在南校区的，校园网是通过锐捷客户端来认证的，而我是用macbook的，不过中大这边还很人性化地提供了Mac版的锐捷，体积就1M左右，挺好的。但众所周知，macbook并没有有线网卡，每次我上网都得插着个USB网卡然后连着网线，这该有多郁闷。于是想办法通过路由器拨号。我也不算没经验的了，对openwrt这个系统有过一定研究，以前在本科的时候也是锐捷，可以用mentohust替代拨号，很简单。于是我在这里重复这样的过程，发现一直认证失败，按照网上提示的各种方法，都无法解决。

经过研究，我发现在Windows下，这里就只能用官方提供了锐捷4.90版本，从其他地方下载的更高级或者更低级的锐捷，都无法通过验证。估计就是因为这个机制，导致了mentohust难以通过验证。而且网上流行的mentohust都是基于V2协议的，但4.90是基于V4的。后来我又去下载了V4版本的进行交叉编译，测试发现还不成功。几近绝望的时候，我发现了mentohust-proxy，一个mentohust的改进版，让我找到了希望。（怎么找到它？我是直接到github搜索了，因为实在没辙了～～）

原理很简单，如果直接通过mentohust无法完成认证，那么就通过代理模式，由电脑来完成认证，而mentohust只需要负责发送心跳包维持联网就行。这是个很折中的方案，但应该说是一个很通用的方案，因为它的成功与否，基本就取决于自己电脑的锐捷客户端而已。看到这个方案，我就知道有戏了，于是赶紧补习了一下交叉编译的知识，最后成功编译好了，并且在路由上成功地完成了认证。

点击阅读全文...

分类：信息时代标签：openwrt, 路由器阅读全文 13 评论

3 Apr

变分自编码器（三）：这样做为什么能成？

By 苏剑林 | 2018-04-03 | 191849位读者 | 引用

话说我觉得我自己最近写文章都喜欢长篇大论了，而且扎堆地来～之前连续写了三篇关于Capsule的介绍，这次轮到VAE了，本文是VAE的第三篇探索，说不准还会有第四篇～不管怎么样，数量不重要，重要的是能把问题都想清楚。尤其是对于VAE这种新奇的建模思维来说，更加值得细细地抠。

这次我们要关心的一个问题是：VAE为什么能成？

估计看VAE的读者都会经历这么几个阶段。第一个阶段是刚读了VAE的介绍，然后云里雾里的，感觉像自编码器又不像自编码器的，反复啃了几遍文字并看了源码之后才知道大概是怎么回事；第二个阶段就是在第一个阶段的基础上，再去细读VAE的原理，诸如隐变量模型、KL散度、变分推断等等，细细看下去，发现虽然折腾来折腾去，最终居然都能看明白了。

这时候读者可能就进入第三个阶段了。在这个阶段中，我们会有诸多疑问，尤其是可行性的疑问：“为什么它这样反复折腾，最终出来模型是可行的？我也有很多想法呀，为什么我的想法就不行？”

前文之要

让我们再不厌其烦地回顾一下前面关于VAE的一些原理。

VAE希望通过隐变量分解来描述数据$X$的分布
$$p(x)=\int p(x|z)p(z)dz,\quad p(x,z) = p(x|z)p(z)\tag{1}$$

点击阅读全文...

分类：信息时代标签：原理, 无监督, vae, 生成模型阅读全文 75 评论

3 Jun

基于DGCNN和概率图的轻量级信息抽取模型

By 苏剑林 | 2019-06-03 | 416643位读者 | 引用

背景：前几个月，百度举办了“2019语言与智能技术竞赛”，其中有三个赛道，而我对其中的“信息抽取”赛道颇感兴趣，于是报名参加。经过两个多月的煎熬，比赛终于结束，并且最终结果已经公布。笔者从最初的对信息抽取的一无所知，经过这次比赛的学习和研究，最终探索出在监督学习下做信息抽取的一些经验，遂在此与大家分享。

信息抽取赛道：“科学空间队”在最终的测试结果上排名第七

笔者在最终的测试集上排名第七，指标F1为0.8807（Precision是0.8939，Recall是0.8679），跟第一名相差0.01左右。从比赛角度这个成绩不算突出，但自认为模型有若干创新之处，比如自行设计的抽取结构、CNN+Attention（所以足够快速）、没有用Bert等预训练模型，私以为这对于信息抽取的学术研究和工程应用都有一定的参考价值。

基本分析

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。... 本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE)，旨在为研究者提供学术交流平台，进一步提升中文信息抽取技术的研究水平，推动相关人工智能应用的发展。
------ 比赛官方网站介绍

点击阅读全文...

分类：信息时代标签：模型, 比赛, 概率图, 信息抽取阅读全文 181 评论

2 Apr

bert4keras在手，baseline我有：百度LIC2020

By 苏剑林 | 2020-04-02 | 95103位读者 | 引用

百度的“2020语言与智能技术竞赛”开赛了，今年有五个赛道，分别是机器阅读理解、推荐任务对话、语义解析、关系抽取、事件抽取。每个赛道中，主办方都给出了基于PaddlePaddle的baseline模型，这里笔者也基于bert4keras给出其中三个赛道的个人baseline，从中我们可以看到用bert4keras搭建baseline模型的方便快捷与简练。

地址：https://github.com/bojone/lic2020_baselines

思路简析

这里简单分析一下这三个赛道的任务特点以及对应的baseline设计。

点击阅读全文...

分类：信息时代标签：模型, keras, attention 阅读全文 34 评论

10 Jul

强大的NVAE：以后再也不能说VAE生成的图像模糊了

By 苏剑林 | 2020-07-10 | 112430位读者 | 引用

昨天早上，笔者在日常刷arixv的时候，然后被一篇新出来的论文震惊了！论文名字叫做《NVAE: A Deep Hierarchical Variational Autoencoder》，顾名思义是做VAE的改进工作的，提出了一个叫NVAE的新模型。说实话，笔者点进去的时候是不抱什么希望的，因为笔者也算是对VAE有一定的了解，觉得VAE在生成模型方面的能力终究是有限的。结果，论文打开了，呈现出来的画风是这样的：

NVAE的人脸生成效果

然后笔者的第一感觉是这样的：

W!T!F! 这真的是VAE生成的效果？这还是我认识的VAE么？看来我对VAE的认识还是太肤浅了啊，以后再也不能说VAE生成的图像模糊了...

点击阅读全文...

分类：信息时代标签：变分, vae, 生成模型阅读全文 37 评论

18 Aug

生成扩散模型漫谈（八）：最优扩散方差估计（下）

By 苏剑林 | 2022-08-18 | 44301位读者 | 引用

在上一篇文章《生成扩散模型漫谈（七）：最优扩散方差估计（上）》中，我们介绍并推导了Analytic-DPM中的扩散模型最优方差估计结果，它是直接给出了已经训练好的生成扩散模型的最优方差的一个解析估计，实验显示该估计结果确实能有效提高扩散模型的生成质量。

这篇文章我们继续介绍Analytic-DPM的升级版，出自同一作者团队的论文《Estimating the Optimal Covariance with Imperfect Mean in Diffusion Probabilistic Models》，在官方Github中被称为“Extended-Analytic-DPM”，下面我们也用这个称呼。

结果回顾

上一篇文章是在DDIM的基础上，推出DDIM的生成过程最优方差应该是
\begin{equation}\sigma_t^2 + \gamma_t^2\bar{\sigma}_t^2\end{equation}
其中$\bar{\sigma}_t^2$是分布$p(\boldsymbol{x}_0|\boldsymbol{x}_t)$的方差，它有如下的估计结果（这里取“方差估计2”的结果）：
\begin{equation}\bar{\sigma}_t^2 = \frac{\bar{\beta}_t^2}{\bar{\alpha}_t^2}\left(1 - \frac{1}{d}\mathbb{E}_{\boldsymbol{x}_t\sim p(\boldsymbol{x}_t)}\left[ \Vert\boldsymbol{\epsilon}_{\boldsymbol{\theta}}(\boldsymbol{x}_t, t)\Vert^2\right]\right)\label{eq:basic}\end{equation}

点击阅读全文...

分类：信息时代标签：优化, 生成模型, DDPM, 扩散阅读全文 20 评论

1 Jan

新年快乐！记录一下 Cool Papers 的开发体验

By 苏剑林 | 2024-01-01 | 58551位读者 | 引用

上周在《写了个刷论文的辅助网站：Cool Papers》中，笔者分享了一个自己开发的刷论文网站Cool Papers，并得到了一些用户的认可。然而，“使用的人越多，暴露的问题就越多”，当用户量上来后，才感觉到之前写的代码是多么不严谨，于是过去一整周都在不停地修Bug之中，直到今天下午还发现了一个Bug在修。这篇文章简单总结一下笔者在开发和修Bug过程中的感想。

Cool Papers：https://papers.cool

技术

事实上，“papers.cool”这个域名已经注册了四年多，从这可以看出笔者其实很早以前就计划着做类似Cool Papers的网站，也做过一些雏形，但之所以这个网站在四年后才正式诞生，根本原因就只有一个：技术不行。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 30 评论

17 Oct

《量子力学与路径积分》习题解答V0.2

By 苏剑林 | 2015-10-17 | 17909位读者 | 引用

由于在实习中，事情比较多，做题时间比较少。并且越往后题目难度越大，因此习题解答的更新速度也慢了。现在是0.2版本，基本完成了前五章的习题，并且整理了版面，还加入了新版《量子力学与路径积分》的勘误。

如有问题，请指出，谢谢。

下载：《量子力学与路径积分》习题解答V0.2.pdf

分类：物理化学标签：量子力学, 路径积分阅读全文抢沙发

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

进驻中山大学南校区，折腾校园网

变分自编码器（三）：这样做为什么能成？

前文之要

基于DGCNN和概率图的轻量级信息抽取模型

基本分析

bert4keras在手，baseline我有：百度LIC2020

思路简析

强大的NVAE：以后再也不能说VAE生成的图像模糊了

生成扩散模型漫谈（八）：最优扩散方差估计（下）

结果回顾

新年快乐！记录一下 Cool Papers 的开发体验

技术

《量子力学与路径积分》习题解答V0.2

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接