[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

专利信息
申请号: 201810058993.6 申请日: 2018-01-22
公开(公告)号: CN108319584A 公开(公告)日: 2018-07-24
发明(设计)人: 刘磊;贾亚璐;孙孟涛;陈浩;李静 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词性 算法 过滤 频繁项集 新词发现 短文本 互信息 微博 预处理 改进 交集 词性标注 迭代计算 模型获取 一次过滤 组合规则 滑动 分词 构词 语料 文本 验证 重复 优化
【说明书】:

发明公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法,包括:获取文本语料,利用jieba进行分词、词性标注等预处理;通过优化的FP‑Growth算法获得频繁项集词集,并对每个频繁项有序化;利用N‑grams模型获取重复串,并与频繁项集取交集;通过词性过滤,过滤掉一些在构词结构上不常用的词性;利用改进的互信息,滑动迭代计算互信息来过滤新词;利用词性组合规则库再进行一次过滤;验证该方法获取新词的有效性。

技术领域

本发明属于文本信息处理领域,具体是涉及一种基于改进FP-Growth算法的微博类短文本的新词发现方法。

背景技术

微博是目前全球范围内使用最广泛的社交平台之一,每天用户在微博上会发布大量的文本信息,这成为网络新词的主要来源之一。

微博和一般文本的区别在于,微博是短文本,每个用户发布的信息不会超过140个字符,内容比较随意,形式具有多样性。所以研究微博这类短文本相对比较困难。但是海量微博文本中蕴含的知识对于舆情监测,新词发现等领域的研究具有重要的意义。

目前新词发现的研究主要是基于传统文本的人名、地名、机构名等命名实体的识别,而基于微博短文本的新词发现研究相对较少,并且和传统的文本相比较,由于微博具有文本短、不规则等特点,传统的新词发现方法在微博类短文本中的效果不尽人意。

FP-Growth算法通过两次扫描数据库得到数据中的频繁项集,是一种高效的获取频繁项集的算法,可以用于新词的获取,但是在微博类短文本中的应用存在缺陷。传统的FP-Growth算法在新词的发现中忽略了词性对成词的影响,为此提出一种改进的FP-Growth算法,并结合N-grams模型、改进的互信息和规则来发现新词。

发明内容

针对FP-Growth算法在微博类短文本的新词发现的缺陷,提出一种改进的FP-Growth算法,把词性考虑进去,不仅可以通过频繁项有效的表示成词词语之间的关联性,还可以削减词性不平衡带来的识别困难,通过结合N-grams模型的集成学习方法来提高得到的新词的准确率,同时通过词性、改进的互信息和词性组合规则库进行过滤。

为实现上述目的,本发明采用如下的技术方案

一种基于改进的FP-Growth算法的微博类短文本的新词发现方法,包括以下步骤:

步骤(1)微博语料获取和预处理

利用微博的API接口或采集爬虫获取微博语料,储存为HTML格式的文件。对文件进行正则匹配获取其中的文本,删除其中的URL,然后按标点符号进行断句。对得到的纯文本进行分词、词性标注,使用的是python的第三方模块jieba,得到预处理后的语料,记为G;

步骤(2)利用优化的FP-Growth算法处理G,获取频繁项集Cfp

步骤(2.1)处理微博语料G,构建改进FP-Growth模型,综合词频和词性两个因素,词性相对概率值的计算公式如下:

其中,f(w|pos(w)=a)表示词w在词性为a时的词性相对概率值,na表示语料G中词性为a的词频数,N表示语料G中总的词频数,n(w|pos(w)=a)表示词w在词性为a时的词频数。

在构建频繁项集时,选取满足条件f(w|pos(w)=a)>α1的重复串作为候选频繁项集Rfp,α1为设定的最小支持度。

步骤(2.2)对得到的频繁项集Rfp进行顺序纠正。FP-Growth算法得到的频繁项中的词是无序的,因此通过和原来的语料进行顺序对比,得到有顺序的频繁项集Cfp

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810058993.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top