包含关键字离群点检测的文章 - 科学空间|Scientific Spaces

23 Jan

揭开迷雾，来一顿美味的Capsule盛宴

By 苏剑林 | 2018-01-23 | 442543位读者 | 引用

Geoffrey Hinton在谷歌多伦多办公室

由深度学习先驱Hinton开源的Capsule论文《Dynamic Routing Between Capsules》，无疑是去年深度学习界最热点的消息之一。得益于各种媒体的各种吹捧，Capsule被冠以了各种神秘的色彩，诸如“抛弃了梯度下降”、“推倒深度学习重来”等字眼层出不穷，但也有人觉得Capsule不外乎是一个新的炒作概念。

本文试图揭开让人迷惘的云雾，领悟Capsule背后的原理和魅力，品尝这一顿Capsule盛宴。同时，笔者补做了一个自己设计的实验，这个实验能比原论文的实验更有力说明Capsule的确产生效果了。

菜谱一览：

1、Capsule是什么？
2、Capsule为什么要这样做？
3、Capsule真的好吗？
4、我觉得Capsule怎样？
5、若干小菜。

点击阅读全文...

分类：信息时代标签：深度学习, 聚类, Capsule 阅读全文 135 评论

3 Jun

基于DGCNN和概率图的轻量级信息抽取模型

By 苏剑林 | 2019-06-03 | 410670位读者 | 引用

背景：前几个月，百度举办了“2019语言与智能技术竞赛”，其中有三个赛道，而我对其中的“信息抽取”赛道颇感兴趣，于是报名参加。经过两个多月的煎熬，比赛终于结束，并且最终结果已经公布。笔者从最初的对信息抽取的一无所知，经过这次比赛的学习和研究，最终探索出在监督学习下做信息抽取的一些经验，遂在此与大家分享。

信息抽取赛道：“科学空间队”在最终的测试结果上排名第七

笔者在最终的测试集上排名第七，指标F1为0.8807（Precision是0.8939，Recall是0.8679），跟第一名相差0.01左右。从比赛角度这个成绩不算突出，但自认为模型有若干创新之处，比如自行设计的抽取结构、CNN+Attention（所以足够快速）、没有用Bert等预训练模型，私以为这对于信息抽取的学术研究和工程应用都有一定的参考价值。

基本分析

信息抽取(Information Extraction, IE)是从自然语言文本中抽取实体、属性、关系及事件等事实类信息的文本处理技术，是信息检索、智能问答、智能对话等人工智能应用的重要基础，一直受到业界的广泛关注。... 本次竞赛将提供业界规模最大的基于schema的中文信息抽取数据集(Schema based Knowledge Extraction, SKE)，旨在为研究者提供学术交流平台，进一步提升中文信息抽取技术的研究水平，推动相关人工智能应用的发展。
------ 比赛官方网站介绍

点击阅读全文...

分类：信息时代标签：模型, 比赛, 概率图, 信息抽取阅读全文 181 评论

28 Jun

本文介绍一种神经网络的可视化方法：积分梯度（Integrated Gradients），它首先在论文《Gradients of Counterfactuals》中提出，后来《Axiomatic Attribution for Deep Networks》再次介绍了它，两篇论文作者都是一样的，内容也大体上相同，后一篇相对来说更易懂一些，如果要读原论文的话，建议大家优先读后一篇。当然，它已经是2016～2017年间的工作了，“新颖”说的是它思路上的创新有趣，而不是指最近发表。

笔者在中文情感分类上对积分梯度的实验效果（越红的token越重要）

所谓可视化，简单来说就是对于给定的输入$x$以及模型$F(x)$，我们想办法指出$x$的哪些分量对模型的决策有重要影响，或者说对$x$各个分量的重要性做个排序，用专业的话术来说那就是“归因”。一个朴素的思路是直接使用梯度$\nabla_x F(x)$来作为$x$各个分量的重要性指标，而积分梯度是对它的改进。然而，笔者认为，很多介绍积分梯度方法的文章（包括原论文），都过于“生硬”（形式化），没有很好地突出积分梯度能比朴素梯度更有效的本质原因。本文试图用自己的思路介绍一下积分梯度方法。

点击阅读全文...

分类：信息时代标签：积分, 梯度, 可视化阅读全文 28 评论

21 Feb

GPLinker：基于GlobalPointer的事件联合抽取

By 苏剑林 | 2022-02-21 | 77258位读者 | 引用

大约两年前，笔者在百度的“2020语言与智能技术竞赛”中首次接触到了事件抽取任务，并在文章《bert4keras在手，baseline我有：百度LIC2020》中分享了一个转化为BERT+CRF做NER的简单baseline。不过，当时的baseline更像是一个用来凑数的半成品，算不上一个完整的事件抽取模型。而这两年来，关系抽取的模型层见迭出，SOTA一个接一个，但事件抽取似乎没有多亮眼的设计。

最近笔者重新尝试了事件抽取任务，在之前的关系抽取模型GPLinker的基础上，结合完全子图搜索，设计一个比较简单但相对完备的事件联合抽取模型，依然称之为GPLinker，在此请大家点评一番。

任务简介

事件抽取是一个比较综合的任务。一个标准的事件抽取样本如下：

标准的事件抽取样本（图片来自百度DuEE的GitHub）

点击阅读全文...

分类：信息时代标签：NLP, 信息抽取, NER 阅读全文 32 评论

2 Feb

更便捷的Cool Papers打开方式：Chrome重定向扩展

By 苏剑林 | 2024-02-02 | 46280位读者 | 引用

一些铺垫

自Cool Papers上线以来，很多用户就建议笔者加入搜索功能，后面也确实在前端用JS简单做了个页面内搜索，解决了部分用户的需求，但仍有读者希望引入更完整的全局搜索。诚然，笔者理解这个需求确实是存在，但Cool Papers的数据是逐天累积的，目前才上线一个月，论文数并不多，建立一个大而全的搜索引擎意义不大，其次做搜索也不是笔者的强项，以及并没有很好的利用LLM优化搜索的思路，等等。总而言之，暂时没有条件实现一个全面而又有特色的搜索，所以不如不做（也欢迎大家在评论区集思广益）。

后来，经过和同事讨论，想出了一个“借花献佛”的思路——写一个Chrome的重定向扩展，可以从任意页面重定向到Cool Papers。这样我们可以用任意方式（如Google搜索或者直接Arxiv官方搜索）找到Arxiv上的论文，然后右击一下就转到Cool Papers了。前两周这个扩展已经在Chrome应用商店上线，上周服务器配合做了一些调整，如今大家可以尝试使用了。

扩展地址：Cool Papers Redirector

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 20 评论

26 Sep

利用“熄火保护 + 通断器”实现燃气灶智能关火

By 苏剑林 | 2024-09-26 | 14937位读者 | 引用

燃气灶智能化主要有两个方向：一是检测开关火状态，实现跟抽油烟机等其他设备的联动；二是实现智能关火，这包括定时关火以及接入米家（或者其他智能家居）实现语音关火、远程关火等。目前带有这两点功能的燃气灶选择并不多，并且相比普通燃气灶贵不少，单纯为了这两点功能而换一个新燃气灶并不划算，所以就出现了一些将普通燃气灶智能化的的魔改方案。

接入方案示意图

本文主要分享基于燃气灶自带的熄火保护装置，利用通断器将燃气灶接入米家，实现智能关火功能。

点击阅读全文...

分类：生活/情感标签：生活, 智能家居, 米家阅读全文 3 评论

16 Oct

Cool Papers浏览器扩展升级至v0.2.0

By 苏剑林 | 2024-10-16 | 19342位读者 | 引用

年初，我们在《更便捷的Cool Papers打开方式：Chrome重定向扩展》中发布了一个Chrome浏览器插件（Cool Papers Redirector v0.1.0），可以通过右击菜单从任意页面中重定向到Cool Papers中，让大家更方便地获取Kimi对论文的理解。前几天我们把该插件升级到了v0.2.0，并顺利上架到了Chrome应用商店中，遂在此向大家推送一下。

更新汇总

相比旧版v0.1.0，当前版v0.2.0的主要更新内容如下：

1、右键菜单跳转改为在新标签页打开；
2、右键菜单支持同时访问多个论文ID；
3、右键菜单支持PDF页面；
4、右键菜单新增更多论文源（arXiv、OpenReview、ACL、IJCAI、PMLR）；
5、右键菜单在搜索不到论文ID时，转入站内搜索（即划词搜索）；
6、在某些网站的适当位置插入快捷跳转链接（arXiv、OpenReview，ACL）。

点击阅读全文...

分类：信息时代标签：网站, 论文, 酷论文阅读全文 8 评论

25 Jan

Efficient GlobalPointer：少点参数，多点效果

By 苏剑林 | 2022-01-25 | 120925位读者 | 引用

在《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》中，我们提出了名为“GlobalPointer”的token-pair识别模块，当它用于NER时，能统一处理嵌套和非嵌套任务，并在非嵌套场景有着比CRF更快的速度和不逊色于CRF的效果。换言之，就目前的实验结果来看，至少在NER场景，我们可以放心地将CRF替换为GlobalPointer，而不用担心效果和速度上的损失。

在这篇文章中，我们提出GlobalPointer的一个改进版——Efficient GlobalPointer，它主要针对原GlobalPointer参数利用率不高的问题进行改进，明显降低了GlobalPointer的参数量。更有趣的是，多个任务的实验结果显示，参数量更少的Efficient GlobalPointer反而还取得更好的效果。

大量的参数

这里简单回顾一下GlobalPointer，详细介绍则请读者阅读《GlobalPointer：用统一的方式处理嵌套和非嵌套NER》。简单来说，GlobalPointer是基于内积的token-pair识别模块，它可以用于NER场景，因为对于NER来说我们只需要把每一类实体的“(首, 尾)”这样的token-pair识别出来就行了。

点击阅读全文...

分类：信息时代标签：模型, NLP, NER 阅读全文 63 评论

关于站长

苏剑林|BoJone，科学空间博主，【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者（但不专业）......目前31岁，还在单调递增。希望能一直在此分享科学之美～

你也许会关心：

科学空间|Scientific Spaces 介绍

科学空间QQ交流群：67729435

科学空间微信交流群：spaces_ac_cn

常见问题集：《科学空间FAQ》

智能搜索

支持整句搜索！网站自动使用结巴分词进行分词，并结合ngrams排序算法给出合理的搜索结果。

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

揭开迷雾，来一顿美味的Capsule盛宴

基于DGCNN和概率图的轻量级信息抽取模型

基本分析

积分梯度：一种新颖的神经网络可视化方法

GPLinker：基于GlobalPointer的事件联合抽取

任务简介

更便捷的Cool Papers打开方式：Chrome重定向扩展

一些铺垫

利用“熄火保护 + 通断器”实现燃气灶智能关火

Cool Papers浏览器扩展升级至v0.2.0

更新汇总

Efficient GlobalPointer：少点参数，多点效果

大量的参数

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接