[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

申请号：	201810058993.6	申请日：	2018-01-22
公开（公告）号：	CN108319584A	公开（公告）日：	2018-07-24
发明（设计）人：	刘磊;贾亚璐;孙孟涛;陈浩;李静	申请（专利权）人：	北京工业大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词性算法过滤频繁项集新词发现短文本互信息微博预处理改进交集词性标注迭代计算模型获取一次过滤组合规则滑动分词构词语料文本验证重复优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法，包括：获取文本语料，利用jieba进行分词、词性标注等预处理；通过优化的FP‑Growth算法获得频繁项集词集，并对每个频繁项有序化；利用N‑grams模型获取重复串，并与频繁项集取交集；通过词性过滤，过滤掉一些在构词结构上不常用的词性；利用改进的互信息，滑动迭代计算互信息来过滤新词；利用词性组合规则库再进行一次过滤；验证该方法获取新词的有效性。

技术领域

本发明属于文本信息处理领域，具体是涉及一种基于改进FP-Growth算法的微博类短文本的新词发现方法。

背景技术

微博是目前全球范围内使用最广泛的社交平台之一，每天用户在微博上会发布大量的文本信息，这成为网络新词的主要来源之一。

微博和一般文本的区别在于，微博是短文本，每个用户发布的信息不会超过140个字符，内容比较随意，形式具有多样性。所以研究微博这类短文本相对比较困难。但是海量微博文本中蕴含的知识对于舆情监测，新词发现等领域的研究具有重要的意义。

目前新词发现的研究主要是基于传统文本的人名、地名、机构名等命名实体的识别，而基于微博短文本的新词发现研究相对较少，并且和传统的文本相比较，由于微博具有文本短、不规则等特点，传统的新词发现方法在微博类短文本中的效果不尽人意。

FP-Growth算法通过两次扫描数据库得到数据中的频繁项集，是一种高效的获取频繁项集的算法，可以用于新词的获取，但是在微博类短文本中的应用存在缺陷。传统的FP-Growth算法在新词的发现中忽略了词性对成词的影响，为此提出一种改进的FP-Growth算法，并结合N-grams模型、改进的互信息和规则来发现新词。

发明内容

针对FP-Growth算法在微博类短文本的新词发现的缺陷，提出一种改进的FP-Growth算法，把词性考虑进去，不仅可以通过频繁项有效的表示成词词语之间的关联性，还可以削减词性不平衡带来的识别困难，通过结合N-grams模型的集成学习方法来提高得到的新词的准确率，同时通过词性、改进的互信息和词性组合规则库进行过滤。

为实现上述目的，本发明采用如下的技术方案

一种基于改进的FP-Growth算法的微博类短文本的新词发现方法，包括以下步骤：

步骤(1)微博语料获取和预处理

利用微博的API接口或采集爬虫获取微博语料，储存为HTML格式的文件。对文件进行正则匹配获取其中的文本，删除其中的URL，然后按标点符号进行断句。对得到的纯文本进行分词、词性标注，使用的是python的第三方模块jieba，得到预处理后的语料，记为G；

步骤(2)利用优化的FP-Growth算法处理G，获取频繁项集C_fp

步骤(2.1)处理微博语料G，构建改进FP-Growth模型，综合词频和词性两个因素，词性相对概率值的计算公式如下：

其中，f(w|pos(w)＝a)表示词w在词性为a时的词性相对概率值，n_a表示语料G中词性为a的词频数，N表示语料G中总的词频数，n_{(w|pos(w)＝a)}表示词w在词性为a时的词频数。

在构建频繁项集时，选取满足条件f(w|pos(w)＝a)＞α₁的重复串作为候选频繁项集R_fp，α₁为设定的最小支持度。

步骤(2.2)对得到的频繁项集R_fp进行顺序纠正。FP-Growth算法得到的频繁项中的词是无序的，因此通过和原来的语料进行顺序对比，得到有顺序的频繁项集C_fp。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810058993.6/2.html，转载请声明来源钻瓜专利网。

上一篇：从中文语料库提取知识的方法与系统
下一篇：数据处理方法及装置、电子设备、计算机可读介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

专利文献下载