包含关键字自注意力的文章 - 科学空间|Scientific Spaces

26 Oct

新词发现的信息熵方法与实现

By 苏剑林 | 2015-10-26 | 112523位读者 | 引用

在本博客的前面文章中，已经简单提到过中文文本处理与挖掘的问题了，中文数据挖掘与英语同类问题中最大的差别是，中文没有空格，如果要较好地完成语言任务，首先得分词。目前流行的分词方法都是基于词库的，然而重要的问题就来了：词库哪里来？人工可以把一些常用的词语收集到词库中，然而这却应付不了层出不穷的新词，尤其是网络新词等——而这往往是语言任务的关键地方。因此，中文语言处理很核心的一个任务就是完善新词发现算法。

新词发现说的就是不加入任何先验素材，直接从大规模的语料库中，自动发现可能成词的语言片段。前两天我去小虾的公司膜拜，并且试着加入了他们的一个开发项目中，主要任务就是网络文章处理。因此，补习了一下新词发现的算法知识，参考了Matrix67.com的文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》，尤其是里边的信息熵思想，并且根据他的思路，用Python写了个简单的脚本。

点击阅读全文...

分类：信息时代标签：python, 最大熵, 词库, 新词发现阅读全文 24 评论

5 Dec

科学空间：2009年12月重要天象

By 苏剑林 | 2009-12-05 | 23064位读者 | 引用

由于备战考试，这篇预报姗姗来迟。现在，终于可以跟大家见面了。2009年最后一月的夜空，并没有因为严冬的到来而显得冷清。精彩天象将接踵而来，想必寒冷的天气挡不住天文爱好者的热情。当然，光有热情还不够，防寒的措施一定要做好，要是为了一夜观测而吊上一周的点滴，那就不大好了。

12月22日是冬至节气，意味着北半球到了黑夜最长的时段，可观测时间也达到了最长！在这里我也希望大家合理安排观测时间，注意休息，切勿过于疲劳。愿大家在最好的一个月中，能够更好地享受天文的乐趣，以此完美地结束这个天文年！

点击阅读全文...

分类：天文探索标签：行星, 天象, 2009, 流星, 观测, 预测阅读全文抢沙发

14 Dec

域名Sci-Cn.cn转让...

By 苏剑林 | 2009-12-14 | 25311位读者 | 引用

域名已经准备到期了，不打算用了，可以转让给同好们。

点击阅读全文...

分类：生活/情感标签：网站阅读全文 2 评论

19 Dec

【NASA每日一图】极光、流星、雪夜

By 苏剑林 | 2009-12-19 | 23261位读者 | 引用

极光、流星、雪夜

(图片说明：极光、流星、雪夜，版权:Bj?rnar G. Hansen)

点击阅读全文...

分类：图片摄影标签：流星, 极光阅读全文抢沙发

20 Dec

哥本哈根没有“句号”，留下一个“逗号”

By 苏剑林 | 2009-12-20 | 16526位读者 | 引用

结束了，大会结束了。

多少记者、志愿者、领导人，都经过了N个不眠之夜。在此向他们致敬！

这次会议是否成功，还是读者自己来判断吧。

气候变化大会在发布《哥本哈根协议》后闭幕

气候变化大会在发布《哥本哈根协议》后闭幕

总之一切才刚刚开始，还没有出现“。”，只有“，”。这场气候战注定了会很艰辛。这一次会议通过了一份并通过《哥本哈根协定》（提供下载），而下一年的会议将会在墨西哥举行。

还是让我们来看看相关报道好了。

点击阅读全文...

分类：生物自然标签：气候阅读全文抢沙发

26 Dec

新年新天象：2010年1月重要天象

By 苏剑林 | 2009-12-26 | 21646位读者 | 引用

带着鼓励与期待，科学空间迈入了新的一年。虽然天文年已经过去，但是天文不会过去。2010年仍将是精彩天象不断上演的一年，科学空间会一如既往地带给大家准确、丰富的天象信息，为大家的天文观测提供一点点有用信息。同时在此祝大家新的一年里更加开心快乐、更上一层楼！

点击阅读全文...

分类：天文探索标签：天象, 观测, 2010 阅读全文抢沙发

17 Jan

【竖直上抛】炮弹能够射多高(第二宇宙速度)？

By 苏剑林 | 2010-01-17 | 43732位读者 | 引用

一枚炮弹以速度$v_0$向上射出，只考虑重力因素，请问炮弹到达多远的距离后就会开始自由下落？

大炮的发射

大炮的发射

对于这个问题，我们首先采取的是高中生的做法。考虑地球重力，也就是说炮弹在做加速度为-g（-9.8m/s²）的匀变速运动。根据公式$v_t^2-v_0^2=2as$，可得$s=\frac{v_0^2}{2g}$。
此即炮弹能够走得最远距离。

但是看了这条式子，我们会发现，这个“距离”始终是有限的。换一句话说，只要$v_0$不趋于无穷大，s就不会无穷大。但是我们还听到过牛顿这样说过：假如炮弹以某个速度（就是我们现在所所说的第二宇宙速度）飞离地球，它就永远不会回来了。两者不是矛盾吗？

点击阅读全文...

分类：物理化学标签：上抛, 重力, 宇宙速度阅读全文 7 评论

23 Jan

第一学期结束了

By 苏剑林 | 2010-01-23 | 22346位读者 | 引用

How time flies!
时间飞逝！

开学的日子仿佛在昨天，2009年似乎几个小时前才过，而今天又再次到了寒假。
这是我的高中的第一个寒假，也是一个Unusual Long Holidays！（不同往常的长假）

往年，除了老师强加给我们的寒假作业外，我从来不会自觉学些什么。就算真的收获了些什么，也是意外的收获。因为我认为，假期就是用来放松的。

点击阅读全文...

分类：生活/情感标签：时间, 假期阅读全文抢沙发

«
1
...
25
26
27
28
29
30
31
...
116
»

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

热门标签

随机文章

最近评论

Cynthia: 应该在前面还需要一层近似，即$n-1$更新后，$ \nabla _{\theta}L^{\le...
Cynthia: 如果$ \theta =\left[ \theta ^1,\theta ^2,\cdots ,...
苏剑林: 你说$\tilde{w}(t) = w(t)/t^2$？那还有$w(t)$呢。而且损失函数小，...
苏剑林: 关于“合并”的解释同[comment=26191]苏剑林[/comment]。如果RoPE也有...
苏剑林: 后者
苏剑林: 是我的疏忽，你是对的，我修改了一下表述。
苏剑林: 不是很明白你的意思。
苏剑林: 这篇文章就理论来说没有太多新的东西，主要是结合近年来DDPM的经验，挑出了GAN的一个比较稳定...
苏剑林: 不是一回事，grad clip只是clip grad，影响的是Adam的m、v，不影响学习率，...
苏剑林: 1、所以大规模使用Muon的竞争力就在于Implementation；2、这个就看每个人/团队...