13 Jan

【中文分词系列】 6. 基于全卷积网络的中文分词

之前已经写过用LSTM来做分词的方案了,今天再来一篇用CNN的,准确来说是FCN,全卷积网络。其实这个模型的主要目的并非研究中文分词,而是练习tensorflow。从两年前就开始用Keras了,可以说对它比较熟了,也渐渐发现了它的一些不足,比如处理变长输入时不方便、加入自定义的约束比较困难等,所以干脆试试原生的tensorflow了,试了之后发现其实也不复杂。嗯,都是python,能有多复杂。本文就是练习一下如何用tensorflow处理不定长输入任务,以中文分词为例,并在最后加入了硬解码将深度学习与词典分词结合了起来

CNN

另外,就是关于FCN的。放到语言任务中看,(一维)卷积其实就是ngram模型,从这个角度来看其实CNN远比RNN来得自然,RNN好像就是为序列任务精心设计的,而CNN则是传统ngram模型的一个延伸。另外不管CNN和RNN都有权值共享,看上去只是为了降低运算量的一个折中选择,但事实上里边大有道理。CNN中的权值共享是平移不变性的必然结果,而不是仅仅是降低运算量的一个选择,试想一下,将一幅图像平移一点点,或者在一个句子前插入一个无意义的空格(导致后面所有字都向后平移了一位),这样应该给出一个相似甚至相同的结果,而这要求卷积必然是权值共享的,即权值不能跟位置有关系。

点击阅读全文...

19 Oct

“鸡兔同笼”的那些年

“鸡兔同笼”的那些年

“盈亏问题”、“年龄问题”、“植树问题”、“牛吃草问题”、“利润问题”...,小学阶段你是否曾被各种花样的数学应用题折磨过呢?没关系,现在机器学习模型也可以帮助我们去解答应用题了,来看看它可以上几年级了?

本文将给出一个求解小学数学应用题(Math Word Problem)的baseline,基于ape210k数据集训练,直接用Seq2Seq模型生成可执行的数学表达式,最终Large版本的模型能达到75%的准确率,明显高于ape210k论文所报告的结果。所谓“硬刚”,指的是没有对表达式做特别的转换,也没有通过模板处理,就直接生成跟人类做法相近的可读表达式。

点击阅读全文...

10 Apr

分享一次专业领域词汇的无监督挖掘

去年 Data Fountain 曾举办了一个“电力专业领域词汇挖掘”的比赛,该比赛有意思的地方在于它是一个“无监督”的比赛,也就是说它考验的是从大量的语料中无监督挖掘专业词汇的能力。

这个显然确实是工业界比较有价值的一个能力,又想着我之前也在无监督新词发现中做过一定的研究,加之“无监督比赛”的新颖性,所以当时毫不犹豫地参加了,然而最终排名并不靠前~

不管怎样,还是分享一下我自己的做法,这是一个真正意义上的无监督做法,也许会对部分读者有些参考价值。

基准对比

首先,新词发现部分,用到了我自己写的库nlp zero,基本思路是先分别对“比赛所给语料”、“自己爬的一部分百科百科语料”做新词发现,然后两者进行对比,就能找到一批“比赛所给语料”的特征词。

点击阅读全文...

2 Aug

互联网的虚拟操作系统:全球主操作系统

我们经常听到在政治、军事等问题上,以色列和巴勒斯坦有多少的冲突,打了多少的仗,这就是所谓的“巴以冲突”。可是,在IT技术领域,两国的技术人员却跨越隔离墙的重重障碍,携手开发出全球的又一个“第一”。

在经过了三年的开发之后,以色列的一家软件开发公司近日宣布推出全球首款基于互联网的虚拟操作系统。运用这一系统,用户可以在世界上任何地方直接读取自己个人电脑上的桌面和数据。

Ghost官方网站:http://g.ho.st

这款操作系统叫作“Ghost”,其中文名称为“精灵”,英文名,全称Global Hosted Operating System,意思是“全球主操作系统”,Ghost是全球首款基于网络的“云计算”操作系统。目前该系统可以提供包括简体中文在内的20种语言的版本,全球用户已经达到20万。

点击阅读全文...

30 Aug

在线投稿系统上线!欢迎大家来投稿

在暑假的最后一天,用Google简单弄了一个“在线投稿系统”。欢迎大家踊跃投稿!

网站访问量还不大,但是开源共享的科学精神还是有必要的。尽管不会给投稿者您带来很高的知名度,但这也是一个很好的展示机会,在我们这儿专业的平台发表你的科学内容。更重要的,我们做到了无私奉献。

点击阅读全文...

7 May

Cool Papers更新:简单搭建了一个站内检索系统

自从《更便捷的Cool Papers打开方式:Chrome重定向扩展》之后,Cool Papers有两次比较大的变化,一次是引入了venue分支,逐步收录了一些会议历年的论文集,如ICLR、ICML等,这部分是动态人工扩充的,欢迎有心仪的会议的读者提更多需求;另一次就是本文的主题,前天新增加的站内检索功能。

本文将简单介绍一下新增功能,并对搭建站内检索系统的过程做个基本总结。

简介

在Cool Papers的首页,我们看到搜索入口:

Cool Papers(2024.05.07)

Cool Papers(2024.05.07)

点击阅读全文...

4 Feb

[问题解答]双曲线上的最短距离

昨天晚上一位网友与我讨论以下问题:

函数$y=\sqrt{3} x-\frac{1}{x}$的图像为双曲线,在此双曲线的两支上分别取P、Q点,求PQ的最短距离。

显然,如果双曲线是普通的$\frac{x^2}{a^2}-\frac{y^2}{b^2}=1$的形式,则这个问题是相当简单的。就是当y=0时两个点的距离,也就是2a。但是很明显这样的一条双曲线是经过旋转的。因此我们需要知道它究竟旋转了多少度$\theta$。然后列出$y=(\tan\theta) x$,联立双曲线方程就可以求出两个点了。

点击阅读全文...

29 Mar

【备忘】电脑远程控制手机的解决方案

最近由于数据挖掘上的研究,需要想办法通过电脑远程控制手机(主要是安卓),遂查找了网络上的一些工具,这里记录一下结果,纯粹做备忘。有同样需要的读者可以参考。

之前在阿里云的服务器和树莓派上都做过远程控制的,记得Linux下的远程控制工具叫做VNC,于是我google和百度了vnc server android、vnc server apk等,发现这类工具确实不少,比如最知名的当属droid vnc server。但是同类的几个软件我都测试了,它确实是VNC软件,但是在我的几个安卓4.x上,显示都不正常(花屏),无奈抛弃了。再看一下日期,发现原来这些软件基本到2013年就停止更新了,一般支持到安卓2.3而已,怪不得。

点击阅读全文...