包含关键字从动力学角度看优化算法的文章

14 Jan

旁门左道之如何让Python的重试代码更加优雅

By 苏剑林 | 2024-01-14 | 44281位读者 | 引用

这篇文章我们讨论一个编程题：如何更优雅地在Python中实现重试。

在文章《新年快乐！记录一下 Cool Papers 的开发体验》中，笔者分享了开发Cool Papers的一些经验，其中就提到了Cool Papers所需要的一些网络通信步骤。但凡涉及到网络通信，就有失败的风险（谁也无法保证网络不会间歇性抽风），所以重试是网络通信的基本操作。此外，当涉及到多进程、数据库、硬件交互等操作时，通常也需要引入重试机制。

在Python中，实现重试并不难，但如何更加简单而又不失可读性地实现重试，还是有一定技巧的。接下来笔者分享一下自己的尝试。

循环重试

完整的重试流程大致上包含循环重试、异常处理、延时等待、后续操作等部分，其标准写法就是用for循环，用“try ... except ...”来捕捉异常，一个参考代码是：

点击阅读全文...

分类：信息时代标签：编程, 代码, python, 优化阅读全文 10 评论

13 Nov

笔者成功地保研到了中山大学的基础数学专业，这个专业自然是比较理论性的，虽然如此，我还会保持着我对数据分析、计算机等方面的兴趣。这几天兴致来了，想做一下结合我的专业跟数据挖掘相结合的研究，所以就爬取了ARXIV上面近五年（2010年到2014年）的数学论文（包含的数据有：标题、分类、年份、月份），想对这几年来数学的“行情”做一下简单的分析。个人认为，ARVIX作为目前全球最大的论文预印本的电子数据库，对它的数据进行分析，所得到的结论是能够具有一定的代表性的。

当然，本文只是用来练手爬虫和基本数据分析的文章，并没有挖掘出特别有价值的信息。文末附录了笔者爬取到的数据，供有兴趣的读者进一步分析研究。

整体情况

这五年来，ARXIV的数学论文总数为135009篇，平均每年27000篇，或者每天74篇。

点击阅读全文...

分类：信息时代标签：python, 数据挖掘阅读全文 2 评论

23 Jun

貌离神合的RNN与ODE：花式RNN简介

By 苏剑林 | 2018-06-23 | 110645位读者 | 引用

本来笔者已经决心不玩RNN了，但是在上个星期思考时忽然意识到RNN实际上对应了ODE（常微分方程）的数值解法，这为我一直以来想做的事情——用深度学习来解决一些纯数学问题——提供了思路。事实上这是一个颇为有趣和有用的结果，遂介绍一翻。顺便地，本文也涉及到了自己动手编写RNN的内容，所以本文也可以作为编写自定义的RNN层的一个简单教程。

注：本文并非前段时间的热点“神经ODE”的介绍（但有一定的联系）。

RNN基本

什么是RNN？

众所周知，RNN是“循环神经网络（Recurrent Neural Network）”，跟CNN不同，RNN可以说是一类模型的总称，而并非单个模型。简单来讲，只要是输入向量序列 $(\boldsymbol{x}_1,\boldsymbol{x}_2,\dots,\boldsymbol{x}_T)$ ，输出另外一个向量序列 $(\boldsymbol{y}_1,\boldsymbol{y}_2,\dots,\boldsymbol{y}_T)$ ，并且满足如下递归关系
$\boldsymbol{y}_t=f(\boldsymbol{y}_{t-1}, \boldsymbol{x}_t, t)\tag{1}$
的模型，都可以称为RNN。也正因为如此，原始的朴素RNN，还有改进的如GRU、LSTM、SRU等模型，我们都称为RNN，因为它们都可以作为上式的一个特例。还有一些看上去与RNN没关的内容，比如前不久介绍的CRF的分母的计算，实际上也是一个简单的RNN。

说白了，RNN其实就是递归计算。

点击阅读全文...

分类：数学研究,信息时代标签：微分方程, 递推, RNN 阅读全文 24 评论

17 Aug

从费马大定理谈起（四）：唯一分解整环

By 苏剑林 | 2014-08-17 | 47075位读者 | 引用

在小学的时候，数学老师就教我们除法运算：

被除数 = 除数 × 商 + 余数

其中，余数要小于除数。不过，我们也许未曾想到过，这一运算的成立，几乎是自然数 $\mathbb{N}$ 所有算术（数论）运算性质成立的基础！在代数中，上面的运算等式称为带余除法（division algorithm）。如果在一个整环中成立带余除法，那么该整环几乎就拥有了所有理想的性质，比如唯一分解性，也就是我们说的算术基本定理。这样的一个整环，被称为唯一分解整环（Unique factorization domain）。

欧几里得整环

Euklid-von-Alexandria_1

唯一分解定理说的是在一个整环之中，所有的元素都可以分解为该整环的某些“素元素”之积，并且在不考虑元素相乘的顺序和相差单位数的意义之下，分解形式是唯一的。我们通常说的自然数就成立唯一分解定理，比如 $60=2^2\times 3\times 5$ ，这种分解是唯一的，这看起来相当显然，但实际上唯一分解定理相当不显然。首先，并不是所有的整数环都成立唯一分解定理的，我们考虑所有偶数组成的环 $2\mathbb{Z}$ ，要注意，在 $2\mathbb{Z}$ 中，2、6、10、30都是素数，因为它们无法分解成两个偶数的乘积了，但是 $60=6\times 10=2\times 30$ ，存在两种不同的分解，因此在这样的数环中，唯一分解定理就不成立了。

点击阅读全文...

分类：数学研究标签：数论, 费马大定理, 分解, 环论阅读全文 2 评论

9 Jan

增强typecho的搜索功能

By 苏剑林 | 2018-01-09 | 72939位读者 | 引用

科学空间是使用typecho程序搭建的博客，侧边栏提供了搜索功能，然而typecho内置搜索功能仅仅是基于字符串的全匹配查找，因此导致很多合理的查询都没法得到结果，比如“2018天象”、“新词算法”都没法给出结果，原因就是文章中都不包含这些字符串。

于是就萌生了加强搜索功能的想法，之前也有读者建议过这个事情。这两天搜索了一下，本来计划用Python下的Whoosh库来建立一个全文检索引擎，但感觉整合和后期维护的工作量太大，还是放弃了。后来想到在typecho自身的搜索上加强，在公司同事（大佬）的帮助下，完成了这个改进。

由于是直接修改typecho源文件实现的改进，因此如果typecho升级后就可能被覆盖，因此在这里做个备忘。

探索

通过在Github检索我发现，typecho的搜索功能是在var/Widget/Archive.php中实现的，具体代码大概在1185～1192行：

点击阅读全文...

分类：信息时代标签：网站, python 阅读全文 13 评论

7 Feb

你的CRF层的学习率可能不够大

By 苏剑林 | 2020-02-07 | 112857位读者 | 引用

CRF是做序列标注的经典方法，它理论优雅，实际也很有效，如果还不了解CRF的读者欢迎阅读旧作《简明条件随机场CRF介绍（附带纯Keras实现）》。在BERT模型出来之后，也有不少工作探索了BERT+CRF用于序列标注任务的做法。然而，很多实验结果显示（比如论文《BERT Meets Chinese Word Segmentation》）不管是中文分词还是实体识别任务，相比于简单的BERT+Softmax，BERT+CRF似乎并没有带来什么提升，这跟传统的BiLSTM+CRF或CNN+CRF的模型表现并不一样。

基于CRF的4标签分词模型示意图

这两天给bert4keras增加了用CRF做中文分词的例子（task_sequence_labeling_cws_crf.py），在调试过程中发现了CRF层可能存在学习不充分的问题，进一步做了几个对比实验，结果显示这可能是CRF在BERT中没什么提升的主要原因，遂在此记录一下分析过程，与大家分享。

点击阅读全文...

分类：信息时代标签：模型, 概率图, crf 阅读全文 44 评论

26 Oct

新词发现的信息熵方法与实现

By 苏剑林 | 2015-10-26 | 117091位读者 | 引用

在本博客的前面文章中，已经简单提到过中文文本处理与挖掘的问题了，中文数据挖掘与英语同类问题中最大的差别是，中文没有空格，如果要较好地完成语言任务，首先得分词。目前流行的分词方法都是基于词库的，然而重要的问题就来了：词库哪里来？人工可以把一些常用的词语收集到词库中，然而这却应付不了层出不穷的新词，尤其是网络新词等——而这往往是语言任务的关键地方。因此，中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材，直接从大规模的语料库中，自动发现可能成词的语言片段。前两天我去小虾的公司膜拜，并且试着加入了他们的一个开发项目中，主要任务就是网络文章处理。因此，补习了一下新词发现的算法知识，参考了Matrix67.com的文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》，尤其是里边的信息熵思想，并且根据他的思路，用Python写了个简单的脚本。

点击阅读全文...

分类：信息时代标签：python, 最大熵, 词库, 新词发现阅读全文 24 评论

14 Mar

庆祝圆周率(π)节！

By 苏剑林 | 2010-03-14 | 72620位读者 | 引用

在圆周率日当天，滑铁卢大学会以供应免费的馅饼当庆祝。

π = 3.141 592 653 589 793 238 462 643 383 279 502 884 197 169 399 375 105 820 974 944 592 ...
$\pi \approx {355}/{113}$
“山巅一寺一壶酒，尔乐苦煞吾，把酒吃，酒杀尔，杀不死，乐而乐”

$\pi$ ，一个小小的符号，代表着一个伟大的数字。从古到今，几乎所有国家都有人研究过它。在很长的时期内， $\pi$ 的有效数字代表了这个国家的数学发展程度，在使用计算机计算以前， $\pi$ 的计算可谓是马拉松式进行。很早人们就知道了2-4位的有效数字（古希腊、古中国、古印度），众所周知之后祖冲之的3.1415926领先了一千多年；紧接着是西方的35位、100位、500位.....甚至有人穷其一生就为算 $\pi$ ！自从计算机参与到其中之后，有效数字光速般增加，而在2009年末，有科学家已经用超级计算机计算出圆周率暂时计到小数点后2万9千亿个小数位。现在 $\pi$ 的位数已经不大重要了（毕竟30位有效数字就完全足够用来精确衡量宇宙大小！）， $\pi$ 的计算成为了测试计算机性能以及测试算法效率的一个指标！

点击阅读全文...

分类：千奇百怪标签：节日, 圆周率阅读全文 2 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

旁门左道之如何让Python的重试代码更加优雅

循环重试

ARXIV数学论文分布：偏微分方程最热门！

整体情况

貌离神合的RNN与ODE：花式RNN简介

RNN基本

什么是RNN？

从费马大定理谈起（四）：唯一分解整环

欧几里得整环

增强typecho的搜索功能

探索

你的CRF层的学习率可能不够大

新词发现的信息熵方法与实现

庆祝圆周率(π)节！

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接