包含关键字多视图学习的文章 - 科学空间|Scientific Spaces

2 Aug

复分析学习1：揭示微分与积分的联系

By 苏剑林 | 2012-08-02 | 33920位读者 | 引用

笔者这段时间对复数尤其感兴趣，当然，严格来讲应该是复变函数内容，其中一个原因是通过它，我们可以把一些看似毫不相关的内容联系了起来，体现了数学的简洁美和统一美。我相当有兴趣的其中一个内容是实分析中的泰勒级数和傅里叶级数。这两者都是关于某个函数的级数展开式，其中泰勒级数是用于一般函数展开的，其各项系数通过求n阶导数得到；傅里叶级数的对象是周期函数，其各项系数是通过定积分求得的。在实数世界里，两者毫不相关，但是，复分析却告诉我们：它们只是同一个东西！只是将其在不同的角度“投影”到实数世界里，就产生了不同的“物像”，以至于我们认为它们是不同东西而已。

我们直接来看一个变魔术般的运算：
我们知道，在实数世界里头，我们有
$ln(1+x)=x-\frac{x^2}{2}+\frac{x^3}{3}-\frac{x^4}{4}+...$，其中$|x| < 1$

点击阅读全文...

分类：数学研究标签：复数, 分析, 复分析阅读全文 4 评论

28 Sep

开始学习数学软件Scilab

By 苏剑林 | 2012-09-28 | 38194位读者 | 引用

其实很早之前我就想学习一款数学软件的使用，以前很感兴趣的是mathematica，也玩弄过一阵子，但毕竟在高中没有多大需要，也就没有坚持下来。更重要的是，这些软件都是要收费的。上了大学后，听了师兄姐对数学建模的讲述，发现他们基本上也是用mathematica或者matlab的，但这两个软件都是要收费的，我不大想用破解版本。既然我都已经用上了ubuntu了，那么我就该好好利用它。据说命令跟matlab很相似的软件是scilab，还有octave，不同的是这些都是开源免费的。

出于熟悉代码操作和数学软件编程的目的，我选择了学习scilab。虽然网上说octave与matlab的相似程度更高，但是我感觉scilab比octave用的更广一些，所以就用它。所谓“一理通百理明”，先专心学好一个。

下面是我编写的第一个scialb程序，利用威尔逊方法来进行素性测试。这个代码的主要目的是练习条件语句和循环语句，以及一些输出输入的技巧而已。程序本身比较丑陋。

//我的第一个scilab程序
//完成于2012.09.27

label1=['p:';];  //定义标签
B=x_mdialog(['本程序使用威尔逊方法判断进行素数测试。';'请输入要判断的数'],label1,['127';]);  //输入框
p=evstr(B(1));  //提取输入框里边的数字进行赋值
i=1;
j=1;
q=p-1;
while i<q
    j=j*i;
    j=modulo(j,p);//这个是模函数。
    i=i+1;
end
if j==1
    messagebox(['这是一个素数';],['测试结果']);  //输出，其中后边的“测试结果”是输入框的标题
else
    messagebox(['这是一个合数';],['测试结果']);
end

点击阅读全文...

分类：数学研究标签：编程, 代码, 数学软件, 开发, scilab 阅读全文 6 评论

25 Apr

学习场论（电磁场、重力场）

By 苏剑林 | 2013-04-25 | 39336位读者 | 引用

本博客的文章其实一定程度上反映了我在该时期的学习研究，所以我觉得写blog是一件很惬意的事情，它记录着我的成长历程。读者可能留意到，我上学期说对量子力学很感兴趣，也算是入了一点点门。这学期开学初表示对摄动理论方面的知识很感兴趣，也研究了一两个星期。再后来就将学习重点放在了相对论上面了。现在呢？我在学习朗道的《场论》，主要先学习电磁场（电动力学）。

有的读者可能比较无语：你怎么变来变去，学习不是贵在精而不在多吗？

点击阅读全文...

分类：生活/情感标签：学习, 场论阅读全文 6 评论

6 Jun

闲聊：神经网络与深度学习

By 苏剑林 | 2015-06-06 | 66751位读者 | 引用

神经网络

在所有机器学习模型之中，也许最有趣、最深刻的便是神经网络模型了。笔者也想献丑一番，说一次神经网络。当然，本文并不打算从头开始介绍神经网络，只是谈谈我对神经网络的个人理解。如果希望进一步了解神经网络与深度学习的朋友，请移步阅读下面的教程：
http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

http://blog.csdn.net/zouxy09/article/details/8775360

机器分类

这里以分类工作为例，数据挖掘或机器学习中，有很多分类的问题，比如讲一句话的情况进行分类，粗略点可以分类为“积极”或“消极”，精细点分为开心、生气、忧伤等；另外一个典型的分类问题是手写数字识别，也就是将图片分为10类（0,1,2,3,4,5,6,7,8,9）。因此，也产生了很多分类的模型。

点击阅读全文...

分类：信息时代标签：神经网络, 深度学习, 机器学习阅读全文 15 评论

4 Aug

文本情感分类（二）：深度学习模型

By 苏剑林 | 2015-08-04 | 597496位读者 | 引用

语言处理

在《文本情感分类（一）：传统模型》一文中，笔者简单介绍了进行文本情感分类的传统思路。传统的思路简单易懂，而且稳定性也比较强，然而存在着两个难以克服的局限性：一、精度问题，传统思路差强人意，当然一般的应用已经足够了，但是要进一步提高精度，却缺乏比较好的方法；二、背景知识问题，传统思路需要事先提取好情感词典，而这一步骤，往往需要人工操作才能保证准确率，换句话说，做这个事情的人，不仅仅要是数据挖掘专家，还需要语言学家，这个背景知识依赖性问题会阻碍着自然语言处理的进步。

点击阅读全文...

分类：信息时代标签：python, 深度学习, 机器学习, 文本挖掘阅读全文 176 评论

1 Jul

从Boosting学习到神经网络：看山是山？

By 苏剑林 | 2016-07-01 | 62470位读者 | 引用

前段时间在潮州给韩师的同学讲文本挖掘之余，涉猎到了Boosting学习算法，并且做了一番头脑风暴，最后把Boosting学习算法的一些本质特征思考清楚了，而且得到一些意外的结果，比如说AdaBoost算法的一些理论证明也可以用来解释神经网络模型这么强大。

AdaBoost算法

Boosting学习，属于组合模型的范畴，当然，与其说它是一个算法，倒不如说是一种解决问题的思路。以有监督的分类问题为例，它说的是可以把弱的分类器（只要准确率严格大于随机分类器）通过某种方式组合起来，就可以得到一个很优秀的分类器（理论上准确率可以100%）。AdaBoost算法是Boosting算法的一个例子，由Schapire在1996年提出，它构造了一种Boosting学习的明确的方案，并且从理论上给出了关于错误率的证明。

以二分类问题为例子，假设我们有一批样本$\{x_i,y_i\},i=1,2,\dots,n$，其中$x_i$是样本数据，有可能是多维度的输入，$y_i\in\{1,-1\}$为样本标签，这里用1和-1来描述样本标签而不是之前惯用的1和0，只是为了后面证明上的方便，没有什么特殊的含义。接着假设我们已经有了一个弱分类器$G(x)$，比如逻辑回归、SVM、决策树等，对分类器的唯一要求是它的准确率要严格大于随机（在二分类问题中就是要严格大于0.5），所谓严格大于，就是存在一个大于0的常数$\epsilon$，每次的准确率都不低于$\frac{1}{2}+\epsilon$。

点击阅读全文...

分类：信息时代标签：神经网络, Boosting, 感情分类阅读全文 12 评论

6 Sep

基于双向LSTM和迁移学习的seq2seq核心实体识别

By 苏剑林 | 2016-09-06 | 158591位读者 | 引用

暑假期间做了一下百度和西安交大联合举办的核心实体识别竞赛，最终的结果还不错，遂记录一下。模型的效果不是最好的，但是胜在“端到端”，迁移性强，估计对大家会有一定的参考价值。

比赛的主题是“核心实体识别”，其实有两个任务：核心识别 + 实体识别。这两个任务虽然有关联，但在传统自然语言处理程序中，一般是将它们分开处理的，而这次需要将两个任务联合在一起。如果只看“核心识别”，那就是传统的关键词抽取任务了，不同的是，传统的纯粹基于统计的思路（如TF-IDF抽取）是行不通的，因为单句中的核心实体可能就只出现一次，这时候统计估计是不可靠的，最好能够从语义的角度来理解。我一开始就是从“核心识别”入手，使用的方法类似QA系统：

1、将句子分词，然后用Word2Vec训练词向量；
2、用卷积神经网络（在这种抽取式问题上，CNN效果往往比RNN要好）卷积一下，得到一个与词向量维度一样的输出；
3、损失函数就是输出向量跟训练样本的核心词向量的cos值。

点击阅读全文...

分类：信息时代标签：python, 自然语言处理, 识别, NER 阅读全文 46 评论

29 Nov

轻便的深度学习分词系统：NNCWS v0.1

By 苏剑林 | 2016-11-29 | 21432位读者 | 引用

好吧，我也做了一回标题党...其实本文的分词系统是一个三层的神经网络模型，因此只是“浅度学习”，写深度学习是显得更有吸引力。NNCWS的意思是Neutral Network based Chinese Segment System，基于神经网络的中文分词系统，Python写的，目前完全公开，读者可以试用。

闲话多说

这个程序有什么特色？几乎没有！本文就是用神经网络结合字向量实现了一个ngrams形式（程序中使用了7-grams）的分词系统，没有像《【中文分词系列】 4. 基于双向LSTM的seq2seq字标注》那样使用了高端的模型，也没有像《【中文分词系列】 5. 基于语言模型的无监督分词》那样可以无监督训练，这里纯粹是一个有监督的简单模型，训练语料是2014年人民日报标注语料。

点击阅读全文...

分类：信息时代标签：分词, 自然语言处理阅读全文抢沙发

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

复分析学习1：揭示微分与积分的联系

开始学习数学软件Scilab

学习场论（电磁场、重力场）

闲聊：神经网络与深度学习

机器分类

文本情感分类（二）：深度学习模型

从Boosting学习到神经网络：看山是山？

AdaBoost算法

基于双向LSTM和迁移学习的seq2seq核心实体识别

轻便的深度学习分词系统：NNCWS v0.1

闲话多说

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接