包含关键字长序列的文章 - 科学空间|Scientific Spaces

1 Dec

基于双向GRU和语言模型的视角情感分析

By 苏剑林 | 2016-12-01 | 85058位读者 | 引用

前段时间参加了一个傻逼的网络比赛——基于视角的领域情感分析，主页在这里。比赛的任务是找出一段话的实体然后判断情感，比如“我喜欢本田，我不喜欢丰田”这句话中，要标出“本田”和“丰田”，并且站在本田的角度，情感是积极的，站在丰田的角度，情感就是消极的。也就是说，等价于将实体识别和情感分析结合起来了。

吐槽

看起来很高端，哪里傻逼了？比赛任务本身还不错，值得研究，然而官方却很傻逼，主要体现为：1、比赛分初赛、复赛、决赛三个阶段，初赛一个多月时间，然后筛选部分进入复赛，复赛就简单换了一点数据，题目、数据的领域都没有变化，复赛也是一个月的时间，这傻逼复赛究竟有什么意义？2、大家可以看看选手们在群里讨论什么：

点击阅读全文...

分类：信息时代标签：模型, python, 深度学习, 自然语言处理阅读全文 17 评论

6 Jun

通用爬虫探索（二）：落实到论坛爬取上

By 苏剑林 | 2017-06-06 | 25276位读者 | 引用

前述的方案，如果爬取的页面仅仅有单一的有效区域，如博客页、新闻页等，那么基本上来说已经足够了。但是，诸如像论坛这样的具有比较明显的层次划分的网站，我们需要进一步细分。因为经过上述步骤，我们虽然能够把有效文本提取出来，但结果是把所有文本放在一块了。

深度优先

而为了给内容进一步“分块”，我们还需要利用DOM树的位置信息。如上一篇的DOM树图，我们需要给每个节点和叶子都编号，即我们需要一个遍历DOM树的方式。这里我们采用“深度优先”的方案。

深度优先搜索算法（英语：Depth-First-Search，简称DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

点击阅读全文...

分类：信息时代标签：网站, 爬虫阅读全文抢沙发

10 Sep

Saliency Maps for RNN

RNN是很多序列任务的不二法门，比如文本分类任务的常用方法就是“词向量+LSTM+全连接分类器”。如下图

RNN分类器

假如这样的一个模型可以良好地工作，那么现在考虑一个任务是：如何衡量输入$w_1,\dots,w_n$对最终的分类结果的影响的重要程度（Saliency）呢？例如假设这是一个情感分类任务，那么怎么找出是哪些词对最终的分类有较为重要的影响呢？本文给出了一个较为直接的思路。

思路的原理很简单，因为我们是将RNN最后一步的状态向量（也就是绿色阴影所代表的向量）传递给后面的分类器进行分类的，因此最后一步的状态向量$\boldsymbol{h}_n$就是一个目标向量。而RNN是一个递推的过程，

点击阅读全文...

分类：信息时代标签：深度学习阅读全文 2 评论

25 Nov

果壳中的条件随机场(CRF In A Nutshell)

By 苏剑林 | 2017-11-25 | 112435位读者 | 引用

本文希望用尽可能简短的语言把CRF（条件随机场，Conditional Random Field）的原理讲清楚，这里In A Nutshell在英文中其实有“导论”、“科普”等意思（霍金写过一本《果壳中的宇宙》，这里东施效颦一下）。

网上介绍CRF的文章，不管中文英文的，基本上都是先说一些概率图的概念，然后引入特征的指数公式，然后就说这是CRF。所谓“概率图”，只是一个形象理解的说法，然而如果原理上说不到点上，你说太多形象的比喻，反而让人糊里糊涂，以为你只是在装逼。（说到这里我又想怼一下了，求解神经网络，明明就是求一下梯度，然后迭代一下，这多好理解，偏偏还弄个装逼的名字叫“反向传播”，如果不说清楚它的本质是求导和迭代求解，一下子就说反向传播，有多少读者会懂？）

好了，废话说完了，来进入正题。

逐标签Softmax

CRF常见于序列标注相关的任务中。假如我们的模型输入为$Q$，输出目标是一个序列$a_1,a_2,\dots,a_n$，那么按照我们通常的建模逻辑，我们当然是希望目标序列的概率最大
$$P(a_1,a_2,\dots,a_n|Q)$$
不管用传统方法还是用深度学习方法，直接对完整的序列建模是比较艰难的，因此我们通常会使用一些假设来简化它，比如直接使用朴素假设，就得到
$$P(a_1,a_2,\dots,a_n|Q)=P(a_1|Q)P(a_2|Q)\dots P(a_n|Q)$$

点击阅读全文...

分类：信息时代标签：模型, 概率图, crf 阅读全文 24 评论

3 Jan

用bert4keras做三元组抽取

By 苏剑林 | 2020-01-03 | 250659位读者 | 引用

在开发bert4keras的时候就承诺过，会逐渐将之前用keras-bert实现的例子逐渐迁移到bert4keras来，而那里其中一个例子便是三元组抽取的任务。现在bert4keras的例子已经颇为丰富了，但还没有序列标注和信息抽取相关的任务，而三元组抽取正好是这样的一个任务，因此就补充上去了。

基于Bert的三元组抽取模型结构示意图

点击阅读全文...

分类：信息时代标签：语言模型, 信息抽取阅读全文 117 评论

29 Jun

基于Bert的NL2SQL模型：一个简明的Baseline

By 苏剑林 | 2019-06-29 | 138685位读者 | 引用

在之前的文章《当Bert遇上Keras：这可能是Bert最简单的打开姿势》中，我们介绍了基于微调Bert的三个NLP例子，算是体验了一把Bert的强大和Keras的便捷。而在这篇文章中，我们再添一个例子：基于Bert的NL2SQL模型。

NL2SQL的NL也就是Natural Language，所以NL2SQL的意思就是“自然语言转SQL语句”，近年来也颇多研究，它算是人工智能领域中比较实用的一个任务。而笔者做这个模型的契机，则是今年我司举办的首届“中文NL2SQL挑战赛”：

首届中文NL2SQL挑战赛，使用金融以及通用领域的表格数据作为数据源，提供在此基础上标注的自然语言与SQL语句的匹配对，希望选手可以利用数据训练出可以准确转换自然语言到SQL的模型。

这个NL2SQL比赛算是今年比较大型的NLP赛事了，赛前投入了颇多人力物力进行宣传推广，比赛的奖金也颇丰富，唯一的问题是NL2SQL本身算是偏冷门的研究领域，所以注定不会太火爆，为此主办方也放出了一个Baseline，基于Pytorch写的，希望能降低大家的入门难度。

抱着“Baseline怎么能少得了Keras版”的心态，我抽时间自己用Keras做了做这个比赛，为了简化模型并且提升效果也加载了预训练的Bert模型，最终形成此文。

点击阅读全文...

分类：信息时代标签：语言模型, 比赛, sql, attention 阅读全文 45 评论

31 Oct

从去噪自编码器到生成模型

By 苏剑林 | 2019-10-31 | 107635位读者 | 引用

在我看来，几大顶会之中，ICLR的论文通常是最有意思的，因为它们的选题和风格基本上都比较轻松活泼、天马行空，让人有脑洞大开之感。所以，ICLR 2020的投稿论文列表出来之后，我也抽时间粗略过了一下这些论文，确实发现了不少有意思的工作。

其中，我发现了两篇利用去噪自编码器的思想做生成模型的论文，分别是《Learning Generative Models using Denoising Density Estimators》和《Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces》。由于常规做生成模型的思路我基本都有所了解，所以这种“别具一格”的思路就引起了我的兴趣。细读之下，发现两者的出发点是一致的，但是具体做法又有所不同，最终的落脚点又是一样的，颇有“一题多解”的美妙，遂将这两篇论文放在一起，对比分析一翻。

fashion mnist、CelebA、cifar10上的生成效果

点击阅读全文...

分类：信息时代标签：生成模型, 编码, 梯度, 去噪阅读全文 35 评论

25 Apr

将“Softmax+交叉熵”推广到多标签分类问题

By 苏剑林 | 2020-04-25 | 333328位读者 | 引用

（注：本文的相关内容已整理成论文《ZLPR: A Novel Loss for Multi-label Classification》，如需引用可以直接引用英文论文，谢谢。）

一般来说，在处理常规的多分类问题时，我们会在模型的最后用一个全连接层输出每个类的分数，然后用softmax激活并用交叉熵作为损失函数。在这篇文章里，我们尝试将“Softmax+交叉熵”方案推广到多标签分类场景，希望能得到用于多标签分类任务的、不需要特别调整类权重和阈值的loss。

类别不平衡

单标签到多标签

一般来说，多分类问题指的就是单标签分类问题，即从$n$个候选类别中选$1$个目标类别。假设各个类的得分分别为$s_1,s_2,
\dots,s_n$，目标类为$t\in\{1,2,\dots,n\}$，那么所用的loss为
\begin{equation}-\log \frac{e^{s_t}}{\sum\limits_{i=1}^n e^{s_i}}= - s_t + \log \sum\limits_{i=1}^n e^{s_i}\label{eq:log-softmax}\end{equation}
这个loss的优化方向是让目标类的得分$s_t$变为$s_1,s_2,\dots,s_t$中的最大值。关于softmax的相关内容，还可以参考《寻求一个光滑的最大值函数》、《函数光滑化杂谈：不可导函数的可导逼近》等文章。

点击阅读全文...

分类：数学研究,信息时代标签：优化, 损失函数, 光滑阅读全文 201 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

基于双向GRU和语言模型的视角情感分析

吐槽

通用爬虫探索（二）：落实到论坛爬取上

深度优先

RNN模型中输入的重要性的评估

Saliency Maps for RNN

果壳中的条件随机场(CRF In A Nutshell)

逐标签Softmax

用bert4keras做三元组抽取

基于Bert的NL2SQL模型：一个简明的Baseline

从去噪自编码器到生成模型

将“Softmax+交叉熵”推广到多标签分类问题

单标签到多标签

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接