包含关键字 NLP流程的文章 - 科学空间|Scientific Spaces

17 Dec

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

By 苏剑林 | 2021-12-17 | 66195位读者 | 引用

两年前，在《万能的seq2seq：基于seq2seq的阅读理解问答》和《“非自回归”也不差：基于MLM的阅读理解问答》中，我们在尝试过分别利用“Seq2Seq+前缀树”和“MLM+前缀树”的方式做抽取式阅读理解任务，并获得了不错的结果。而在去年的ICLR2021上，Facebook的论文《Autoregressive Entity Retrieval》同样利用“Seq2Seq+前缀树”的组合，在实体链接和文档检索上做到了效果与效率的“双赢”。

事实上，“Seq2Seq+前缀树”的组合理论上可以用到任意检索型任务中，堪称是检索任务的“新范式”。本文将再次回顾“Seq2Seq+前缀树”的思路，并用它来实现最近推出的KgCLUE知识图谱问答榜单的一个baseline。

本文baseline模型示意图

点击阅读全文...

分类：信息时代标签：代码, 语义, keras, 相似度阅读全文 17 评论

13 Jun

生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼

By 苏剑林 | 2022-06-13 | 408860位读者 | 引用

说到生成模型，VAE、GAN可谓是“如雷贯耳”，本站也有过多次分享。此外，还有一些比较小众的选择，如flow模型、VQ-VAE等，也颇有人气，尤其是VQ-VAE及其变体VQ-GAN，近期已经逐渐发展到“图像的Tokenizer”的地位，用来直接调用NLP的各种预训练方法。除了这些之外，还有一个本来更小众的选择——扩散模型（Diffusion Models）——正在生成模型领域“异军突起”，当前最先进的两个文本生成图像——OpenAI的DALL·E 2和Google的Imagen，都是基于扩散模型来完成的。

Imagen“文本-图片”的部分例子

从本文开始，我们开一个新坑，逐渐介绍一下近两年关于生成扩散模型的一些进展。据说生成扩散模型以数学复杂闻名，似乎比VAE、GAN要难理解得多，是否真的如此？扩散模型真的做不到一个“大白话”的理解？让我们拭目以待。

点击阅读全文...

分类：信息时代标签：概率, 生成模型, DDPM, 扩散阅读全文 341 评论

1 Mar

科学空间|Scientific Spaces 介绍

By 苏剑林 | 2009-03-01 | 403417位读者 | 引用

中山大学基础数学研究生，本科为华南师范大学。93年从奥尔特星云移民地球，因忘记回家路线，遂仰望星空，希望找到时空之路。同时兼爱各种科学，热衷钻牛角尖，因此经常碰壁，但偶然把牛角钻穿，也乐在其中。偏爱物理、天文、计算机，喜欢思考，虽擅长理性分析，但也容易感情用事，崇拜Feynman。爱好阅读，没事偷懒玩玩象棋，闲时爱好进入厨房做几道小菜，偶尔也开开数据“挖掘机”。明明要学基础数学，偏偏不务正业，沉溺神经网络，妄想人工智能，曾未在ACL、AAAI、COLING等会议上发表一篇文章。近期还挣扎在NLP大坑，在科学空间（https://kexue.fm）期待大家的拯救。

历史内容

华南师范大学数学系学生。93年从奥尔特星云移民地球，因忘记回家路线，遂仰望星空，希望找到时空之路。同时兼爱各种科学，热衷钻牛角尖，因此经常碰壁，但偶然把牛角钻穿，也乐在其中。偏爱物理、天文，喜欢思考，虽擅长理性分析，但也容易感情用事，崇拜费曼。长期阅读《天文爱好者》和《环球科学》，没事偷懒玩玩象棋，闲时爱好进入厨房做几道小菜，偶尔也当当电工。近期主要学习理论物理，在科学空间期待大家的指教。

名称：科学空间|Scientific Spaces
网址：http://kexue.fm

站长：苏剑林
信念：探索我们的世界，聆听我们的自然

网站历史

2009.03.01 网站初步建立，刚开始的时候使用的是BoBlog以及宇宙驿站的空间，内容定位：科学转载。

2009.03.28 开始进行大规模推广，访问量开始提高

2009.03-05 期间进行过多次改变，特别是Blog程序的转换，内容上的改革等

点击阅读全文...

分类：生活/情感标签：网站阅读全文 114 评论

22 Jun

文本情感分类（一）：传统模型

By 苏剑林 | 2015-06-22 | 228467位读者 | 引用

前言：四五月份的时候，我参加了两个数据挖掘相关的竞赛，分别是物电学院举办的“亮剑杯”，以及第三届 “泰迪杯”全国大学生数据挖掘竞赛。很碰巧的是，两个比赛中，都有一题主要涉及到中文情感分类工作。在做“亮剑杯”的时候，由于我还是初涉，水平有限，仅仅是基于传统的思路实现了一个简单的文本情感分类模型。而在后续的“泰迪杯”中，由于学习的深入，我已经基本了解深度学习的思想，并且用深度学习的算法实现了文本情感分类模型。因此，我打算将两个不同的模型都放到博客中，供读者参考。刚入门的读者，可以从中比较两者的不同，并且了解相关思路。高手请一笑置之。

基于情感词典

人的最简单的判断思维

点击阅读全文...

分类：信息时代标签：python, 机器学习, 数据挖掘, 文本挖掘阅读全文 59 评论

25 Dec

从loss的硬截断、软化到focal loss

By 苏剑林 | 2017-12-25 | 198392位读者 | 引用

前言

今天在QQ群里的讨论中看到了focal loss，经搜索它是Kaiming大神团队在他们的论文《Focal Loss for Dense Object Detection》提出来的损失函数，利用它改善了图像物体检测的效果。不过我很少做图像任务，不怎么关心图像方面的应用。本质上讲，focal loss就是一个解决分类问题中类别不平衡、分类难度差异的一个loss，总之这个工作一片好评就是了。大家还可以看知乎的讨论：
《如何评价kaiming的Focal Loss for Dense Object Detection？》

看到这个loss，开始感觉很神奇，感觉大有用途。因为在NLP中，也存在大量的类别不平衡的任务。最经典的就是序列标注任务中类别是严重不平衡的，比如在命名实体识别中，显然一句话里边实体是比非实体要少得多，这就是一个类别严重不平衡的情况。我尝试把它用在我的基于序列标注的问答模型中，也有微小提升。嗯，这的确是一个好loss。

接着我再仔细对比了一下，我发现这个loss跟我昨晚构思的一个loss具有异曲同工之理！这就促使我写这篇博文了。我将从我自己的思考角度出发，来分析这个问题，最后得到focal loss，也给出我昨晚得到的类似的loss。

点击阅读全文...

分类：信息时代标签：模型, 深度学习, 损失函数阅读全文 64 评论

7 Feb

年三十折腾极路由之SSH反向代理

By 苏剑林 | 2016-02-07 | 61740位读者 | 引用

猴年快乐！

今天是年三十了，这里简单祝大家除夕快乐，新年快乐！愿大家在新的一年里都晋升为学神。^_^

这两天主要在折腾家里的路由器。平时家里只有爸妈两人，所以为了节省，家里只是通过中继隔壁家的网络来上网。本来家里用小米路由器mini，可是小米mini中继模式下功能限制非常多，我又不想刷第三方固件（因为这样会失去app控制功能，不是很方便），所以干脆换了个极路由3。极路由在中继模式下仍然保留了大部分功能（我觉得这样才是正常的，我不理解小米mini在中继之后就没了那么多功能究竟是什么逻辑）。

作为折腾派，一个新路由到手，总有很多东西要配置，极路由本身是基于openwrt的，因此可玩性也很强。首先要完成中继，然后上网，这个很简单就不多说了。其次是获得ssh权限，在极路由那里叫做“申请开发者模式”，或者叫root（感觉极路由想做路由界的苹果，但是在如今这个时代，苹果当初那种发展模式估计很难发展起来了），这个步骤也不难，不过申请之后就会失去极路由的保修资格（不理解这是什么逻辑）。

本文主要介绍了怎么在openwrt（极路由）上安装python，以及建立SSH反向代理（实现内网穿透）。

点击阅读全文...

分类：信息时代标签：节日, 网络, openwrt, 路由器阅读全文 7 评论

17 Aug

【中文分词系列】 1. 基于AC自动机的快速分词

By 苏剑林 | 2016-08-17 | 99739位读者 | 引用

前言：这个暑假花了不少时间在中文分词和语言模型上面，碰了无数次壁，也得到了零星收获。打算写一个专题，分享一下心得体会。虽说是专题，但仅仅是一些笔记式的集合，并非系统的教程，请读者见谅。

中文分词

关于中文分词的介绍和重要性，我就不多说了，matrix67这里有一篇关于分词和分词算法很清晰的介绍，值得一读。在文本挖掘中，虽然已经有不少文章探索了不分词的处理方法，如本博客的《文本情感分类（三）：分词 OR 不分词》，但在一般场合都会将分词作为文本挖掘的第一步，因此，一个有效的分词算法是很重要的。当然，中文分词作为第一步，已经被探索很久了，目前做的很多工作，都是总结性质的，最多是微弱的改进，并不会有很大的变化了。

目前中文分词主要有两种思路：查词典和字标注。首先，查词典的方法有：机械的最大匹配法、最少词数法，以及基于有向无环图的最大概率组合，还有基于语言模型的最大概率组合，等等。查词典的方法简单高效（得益于动态规划的思想），尤其是结合了语言模型的最大概率法，能够很好地解决歧义问题，但对于中文分词一大难度——未登录词（中文分词有两大难度：歧义和未登录词），则无法解决；为此，人们也提出了基于字标注的思路，所谓字标注，就是通过几个标记（比如4标注的是：single，单字成词；begin，多字词的开头；middle，三字以上词语的中间部分；end，多字词的结尾），把句子的正确分词法表示出来。这是一个序列（输入句子）到序列（标记序列）的过程，能够较好地解决未登录词的问题，但速度较慢，而且对于已经有了完备词典的场景下，字标注的分词效果可能也不如查词典方法。总之，各有优缺点（似乎是废话～），实际使用可能会结合两者，像结巴分词，用的是有向无环图的最大概率组合，而对于连续的单字，则使用字标注的HMM模型来识别。

点击阅读全文...

分类：信息时代标签：动态规划, AC自动机, 分词, 自然语言处理, 词库阅读全文 26 评论

18 Aug

【中文分词系列】 2. 基于切分的新词发现

By 苏剑林 | 2016-08-18 | 124909位读者 | 引用

上一篇文章讲的是基于词典和AC自动机的快速分词。基于词典的分词有一个明显的优点，就是便于维护，容易适应领域。如果迁移到新的领域，那么只需要添加对应的领域新词，就可以实现较好地分词。当然，好的、适应领域的词典是否容易获得，这还得具体情况具体分析。本文要讨论的就是新词发现这一部分的内容。

这部分内容在去年的文章《新词发现的信息熵方法与实现》已经讨论过了，算法是来源于matrix67的文章《互联网时代的社会语言学：基于SNS的文本数据挖掘》。在那篇文章中，主要利用了三个指标——频数、凝固度（取对数之后就是我们所说的互信息熵）、自由度（边界熵）——来判断一个片段是否成词。如果真的动手去实现过这个算法的话，那么会发现有一系列的难度。首先，为了得到$n$字词，就需要找出$1\sim n$字的切片，然后分别做计算，这对于$n$比较大时，是件痛苦的时间；其次，最最痛苦的事情是边界熵的计算，边界熵要对每一个片段就行分组统计，然后再计算，这个工作量的很大的。本文提供了一种方案，可以使得新词发现的计算量大大降低。

点击阅读全文...

分类：信息时代标签：分词, 无监督, NLP, 新词发现阅读全文 23 评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

科学空间|Scientific Spaces

Seq2Seq+前缀树：检索任务新范式（以KgCLUE为例）

生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼

科学空间|Scientific Spaces 介绍

历史内容

网站历史

文本情感分类（一）：传统模型

基于情感词典

从loss的硬截断、软化到focal loss

前言

年三十折腾极路由之SSH反向代理

【中文分词系列】 1. 基于AC自动机的快速分词

中文分词

【中文分词系列】 2. 基于切分的新词发现

关于站长

智能搜索

热门标签

随机文章

最近评论

友情链接