[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审
申请号: | 201810058993.6 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108319584A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 刘磊;贾亚璐;孙孟涛;陈浩;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词性 算法 过滤 频繁项集 新词发现 短文本 互信息 微博 预处理 改进 交集 词性标注 迭代计算 模型获取 一次过滤 组合规则 滑动 分词 构词 语料 文本 验证 重复 优化 | ||
本发明公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法,包括:获取文本语料,利用jieba进行分词、词性标注等预处理;通过优化的FP‑Growth算法获得频繁项集词集,并对每个频繁项有序化;利用N‑grams模型获取重复串,并与频繁项集取交集;通过词性过滤,过滤掉一些在构词结构上不常用的词性;利用改进的互信息,滑动迭代计算互信息来过滤新词;利用词性组合规则库再进行一次过滤;验证该方法获取新词的有效性。
技术领域
本发明属于文本信息处理领域,具体是涉及一种基于改进FP-Growth算法的微博类短文本的新词发现方法。
背景技术
微博是目前全球范围内使用最广泛的社交平台之一,每天用户在微博上会发布大量的文本信息,这成为网络新词的主要来源之一。
微博和一般文本的区别在于,微博是短文本,每个用户发布的信息不会超过140个字符,内容比较随意,形式具有多样性。所以研究微博这类短文本相对比较困难。但是海量微博文本中蕴含的知识对于舆情监测,新词发现等领域的研究具有重要的意义。
目前新词发现的研究主要是基于传统文本的人名、地名、机构名等命名实体的识别,而基于微博短文本的新词发现研究相对较少,并且和传统的文本相比较,由于微博具有文本短、不规则等特点,传统的新词发现方法在微博类短文本中的效果不尽人意。
FP-Growth算法通过两次扫描数据库得到数据中的频繁项集,是一种高效的获取频繁项集的算法,可以用于新词的获取,但是在微博类短文本中的应用存在缺陷。传统的FP-Growth算法在新词的发现中忽略了词性对成词的影响,为此提出一种改进的FP-Growth算法,并结合N-grams模型、改进的互信息和规则来发现新词。
发明内容
针对FP-Growth算法在微博类短文本的新词发现的缺陷,提出一种改进的FP-Growth算法,把词性考虑进去,不仅可以通过频繁项有效的表示成词词语之间的关联性,还可以削减词性不平衡带来的识别困难,通过结合N-grams模型的集成学习方法来提高得到的新词的准确率,同时通过词性、改进的互信息和词性组合规则库进行过滤。
为实现上述目的,本发明采用如下的技术方案
一种基于改进的FP-Growth算法的微博类短文本的新词发现方法,包括以下步骤:
步骤(1)微博语料获取和预处理
利用微博的API接口或采集爬虫获取微博语料,储存为HTML格式的文件。对文件进行正则匹配获取其中的文本,删除其中的URL,然后按标点符号进行断句。对得到的纯文本进行分词、词性标注,使用的是python的第三方模块jieba,得到预处理后的语料,记为G;
步骤(2)利用优化的FP-Growth算法处理G,获取频繁项集Cfp
步骤(2.1)处理微博语料G,构建改进FP-Growth模型,综合词频和词性两个因素,词性相对概率值的计算公式如下:
其中,f(w|pos(w)=a)表示词w在词性为a时的词性相对概率值,na表示语料G中词性为a的词频数,N表示语料G中总的词频数,n(w|pos(w)=a)表示词w在词性为a时的词频数。
在构建频繁项集时,选取满足条件f(w|pos(w)=a)>α1的重复串作为候选频繁项集Rfp,α1为设定的最小支持度。
步骤(2.2)对得到的频繁项集Rfp进行顺序纠正。FP-Growth算法得到的频繁项中的词是无序的,因此通过和原来的语料进行顺序对比,得到有顺序的频繁项集Cfp。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810058993.6/2.html,转载请声明来源钻瓜专利网。