31 May

基于最小熵原理的NLP库：nlp zero

By 苏剑林 | 2018-05-31 | 131910位读者 |

陆陆续续写了几篇最小熵原理的博客，致力于无监督做NLP的一些基础工作。为了方便大家实验，把文章中涉及到的一些算法封装为一个库，供有需要的读者测试使用。

由于面向的是无监督NLP场景，而且基本都是NLP任务的基础工作，因此命名为nlp zero。

地址 #

Github: https://github.com/bojone/nlp-zero
Pypi: https://pypi.org/project/nlp-zero/

可以直接通过

pip install nlp-zero==0.1.6

进行安装。整个库纯Python实现，没有第三方调用，支持Python2.x和3.x。

使用 #

默认分词 #

库内带了一个词典，可以作为一个简单的分词工具用

from nlp_zero import *

t = Tokenizer()
t.tokenize(u'扫描二维码，关注公众号')

自带的词典加入了一些通过新词发现挖掘出来的新词，并且经过笔者的人工优化，质量相对来说还是比较高的。

词库构建 #

通过大量的原始语料来构建词库。

首先我们需要写一个迭代容器，这样就不用一次性把所有语料加载到内存中了。迭代器的写法很灵活，比如我的数据存在MongoDB中，那就是：

import pymongo
db = pymongo.MongoClient().weixin.text_articles

class D:
    def __iter__(self):
        for i in db.find().limit(10000):
            yield i['text']

如果数据存在文本文件中，大概就是

class D:
    def __iter__(self):
        with open('text.txt') as f:
            for l in f:
                yield l.strip() # python2.x还需要转编码

然后就可以执行了

from nlp_zero import *
import logging
logging.basicConfig(level = logging.INFO, format = '%(asctime)s - %(name)s - %(message)s')

f = Word_Finder(min_proba=1e-8)
f.train(D()) # 统计互信息
f.find(D()) # 构建词库

通过Pandas查看结果：

import pandas as pd

words = pd.Series(f.words).sort_values(ascending=False)

直接用统计出来的词库建立一个分词工具：

t = f.export_tokenizer()

t.tokenize(u'今天天气不错')

句模版构建 #

跟前面一样，同样要写一个迭代器，这里不再重复。

因为构建句模版是基于词来统计的，因此还需要一个分词函数，可以用自带的分词器，也可以用外部的，比如结巴分词。

from nlp_zero import *
import logging
logging.basicConfig(level = logging.INFO, format = '%(asctime)s - %(name)s - %(message)s')

tokenize = Tokenizer().tokenize # 使用自带的分词工具
# 通过 tokenize = jieba.lcut 可以使用结巴分词

f = Template_Finder(tokenize, window=3)
f.train(D())
f.find(D())

通过Pandas查看结果：

import pandas as pd

templates = pd.Series(f.templates).sort_values(ascending=False)
idx = [i for i in templates.index if not i.is_trivial()]
templates = templates[idx] # 筛选出非平凡的模版

每个模版已经被封装为一个类了。

层次分解 #

基于句模版来进行句子结构解析。

from nlp_zero import *

# 建立一个前缀树，并加入模版
# 模版可以通过tuple来加入，
# 也可以直接通过“tire[模版类]=10”这样来加入
trie = XTrie()
trie[(None, u'呢')] = 10
trie[(None, u'可以', None, u'吗')] = 9
trie[(u'我', None)] = 8
trie[(None, u'的', None, u'是', None)] = 7
trie[(None, u'的', None, u'是', None, u'呢')] = 7
trie[(None, u'的', None)] = 12
trie[(None, u'和', None)] = 12

tokenize = Tokenizer().tokenize # 使用自带的分词工具
p = Parser(trie, tokenize) # 建立一个解析器

p.parse(u'鸡蛋可以吃吗') # 对句子进行解析
"""输出：
>>> p.parse(u'鸡蛋可以吃吗')
+---> (鸡蛋)可以(吃)吗
|     +---> 鸡蛋
|     |     +---> 鸡蛋
|     +---> 可以
|     +---> 吃
|     |     +---> 吃
|     +---> 吗
"""

为了方便对结果进行调用以及可视化，输出结果已经被封装为一个SentTree类。这个类有三个属性：template（当前主模版）、content（当前主模版覆盖的字符串）、modules（语义块的list，每个语义块也是用SentTree来描述）。总的来说，就是按照《最小熵原理（三）：“飞象过河”之句模版和语言结构》一文中我们对语言结构的假设来设计的。

待续 #

如果有必要，请阅读源码寻求答案～后续有更新会继续在这里演示。

转载到请包括本文地址：https://spaces.ac.cn/archives/5597

更详细的转载事宜请参考：《科学空间FAQ》

如果您还有什么疑惑或建议，欢迎在下方评论区继续讨论。

如果您觉得本文还不错，欢迎分享/打赏本文。打赏并非要从中获得收益，而是希望知道科学空间获得了多少读者的真心关注。当然，如果你无视它，也不会影响你的阅读。再次表示欢迎和感谢！

如果您需要引用本文，请参考：

苏剑林. (May. 31, 2018). 《基于最小熵原理的NLP库：nlp zero 》[Blog post]. Retrieved from https://spaces.ac.cn/archives/5597

@online{kexuefm-5597,
        title={基于最小熵原理的NLP库：nlp zero},
        author={苏剑林},
        year={2018},
        month={May},
        url={\url{https://spaces.ac.cn/archives/5597}},
}

分类：信息时代标签：python, 无监督, 最小熵 20 评论

< 最小熵原理（三）：“飞象过河”之句模版和语言结构 | python简单实现gillespie模拟 >

你也许还对下面的内容感兴趣

发表你的看法

尐

June 1st, 2018

苏大神你这个库自带的词典也是这个库里的函数构建的吗

回复评论

苏剑林发表于 June 1st, 2018

自带词典来源比较复杂。其中比较新的那部分词语是通过新词发现算法来召回的。

回复评论

June 8th, 2018

为什么句模板的构建如此的慢，我300多句5个小时都没好

回复评论

wenwen

June 8th, 2018

句子不能太长，因为他用的是动太规划，你把句子长度限制一下就好了

回复评论

苏剑林发表于 June 8th, 2018

@33|comment-9301

没错，句子太长的原因。

主要是因为需要抽取图上所有的路径，这个路径数量是指数级别的。

回复评论

howard

July 26th, 2018

用的你的nlp_zero，速度很快，但有一点不方便，新词发现之后很多单字，能够设置输出单词的字数就好了。

回复评论

苏剑林发表于 July 26th, 2018

自己对输出结果筛选不更好？

回复评论

zoe

August 1st, 2018

您好，之前有在github上请教您transformer相关的内容。我想将transformer用在ocr上，就是不太理解解码时target那一步怎么操作:(

回复评论

苏剑林发表于 August 1st, 2018

transformer是啥呀？

回复评论

zoe 发表于 August 2nd, 2018

就是google那篇attention is all you need里的结构呀。

回复评论

苏剑林发表于 August 3rd, 2018

还是没理解，怎么用在ocr上？你说说你的想法？

回复评论

zoe 发表于 August 4th, 2018

就是先用卷积提取图片特征，将transformer的输入换成图片的输入，label就是图片里面的文字。有一篇论文已经这样做了,"NRTR: A No-Recurrence Sequence-to-Sequence Model For Scene Text Recognition".我尝试实现了一下，但是效果不好，不知道是不是哪个结构没有用对。

回复评论

苏剑林发表于 August 5th, 2018

那我就不清楚了，没折腾过～

回复评论

Canon 发表于 January 23rd, 2019

我也尝试实现了一下，但是发现训练不出来，拟合不了训练集

回复评论

shirny

June 3rd, 2019

请问一下，有没有办法在没有生成句模板的前提下，自动识别句子的套路呢？

回复评论

苏剑林发表于 June 3rd, 2019

本文不是已经包含了“层次分解”？

回复评论

shirny 发表于 June 4th, 2019

谢谢苏神回复，我参照了一下层次分解的内容，事先引入了一个前缀树并导入模板，假设在没有模板的前提下，我该如何识别呢？

回复评论

苏剑林发表于 June 4th, 2019

模版理论上可以无监督生成啊。

回复评论

shirny 发表于 June 4th, 2019

这里想请教苏神一个问题，假设有一堆短文本样本，有什么好的办法识别出其中的模板文本呢？苏神方便留个QQ交流一下吗？

回复评论

苏剑林发表于 June 4th, 2019

我不知道该怎么回复你。我写了好几篇文章讲新词发现、模版构建的，还开源了程序，然后你还来问我怎么识别出模版......如果你实在不愿意看我的文章、用我的程序，那我觉得我们也没有什么必要交流下去了。

回复评论

SEARCH

MENU

CATEGORIES

NEWPOSTS

COMMENTS

USERLOGIN

基于最小熵原理的NLP库：nlp zero

地址 #

使用 #

默认分词 #

词库构建 #

句模版构建 #

层次分解 #

待续 #

你也许还对下面的内容感兴趣

内容速览

智能搜索

热门标签

随机文章

最近评论

友情链接