[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审
申请号: | 201810058993.6 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108319584A | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 刘磊;贾亚璐;孙孟涛;陈浩;李静 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法,包括:获取文本语料,利用jieba进行分词、词性标注等预处理;通过优化的FP‑Growth算法获得频繁项集词集,并对每个频繁项有序化;利用N‑grams模型获取重复串,并与频繁项集取交集;通过词性过滤,过滤掉一些在构词结构上不常用的词性;利用改进的互信息,滑动迭代计算互信息来过滤新词;利用词性组合规则库再进行一次过滤;验证该方法获取新词的有效性。 | ||
搜索关键词: | 词性 算法 过滤 频繁项集 新词发现 短文本 互信息 微博 预处理 改进 交集 词性标注 迭代计算 模型获取 一次过滤 组合规则 滑动 分词 构词 语料 文本 验证 重复 优化 | ||
【主权项】:
1.一种基于改进FP‑Growth算法的微博类短文本的新词发现方法,其特征在于,包括以下步骤:步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料,对文件进行正则匹配获取其中的微博正文内容,删除其中的URL,然后按标点符号进行断句,对得到的纯文本进行分词、词性标注,得到预处理后的语料,记为G;步骤(2)、利用改进的FP‑Growth算法处理语料G,获取频繁项集Cfp步骤(3)、利用N‑grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数,由N‑grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2<P(w1,w2,w3,......wn)<β2的N元重复串作为新词候选集Cgrams,α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集,得到新词候选项集C1={c1,c2,…,cm},ci=(w1,w2,..wn),ci表示候选新词,wj表示构成新词的原词。步骤(5)、在新词候选项集C1中,利用词性标记对其中含有过滤词性的词进行筛选,得到新词候选集C2步骤(6)、利用改进的互信息对新词候选集C2进行过滤,得到新词候选集合C3,若ci=(w1,w2,..wn),ci∈C2,对每个ci利用改进的互信息公式,对相邻的wj进行计算,改进的互信息计算公式如下:![]()
其中,p(wi,wi+1)表示词wi和词wi+1共同出现的频数,p(wi)表示词wi的频数,wi,i+1表示词wi和邻近的词wi+1组合成词的权重,npos(wi,wi+1)表示词wi,wi+1共现的词性组合的频数,
表示词wi的词性出现的频数;在所有频繁项集中,选取满足条件I(wi,wi+1)>β3的词作为新词集合C={c1,c2,c3,......cm},每个新词都是c1=(w1,w2,w3,......wn)构成,其中β3为设定的阈值;步骤(7)、通过词性组合过滤规则库R过滤候选新词集合C3,然后得到最终的新词集合C4,若ci=(w1,w2,..wn),ci∈C3,对于每一个ci,对于任意的(wi,wi+1),其词性组合(pos(wi),pos(wi+1)),如果满足词性组合过滤规则库R中任意规则,则去除新词ci,最终得到新词集合C4;词性组合过滤规则库R由如下规则构成:过滤规则一:/ns /v(ns处可以是nr、nz);过滤规则二:/ns /ns(ns处可以是nr、nz);过滤规则三:/n /v或者/vn /v;过滤规则四:/t /t;过滤规则五:/t /nr;过滤规则六:/t /f(t处可以是vn、n、l、f);过滤规则七:/v /t;过滤规则八:/t /v;过滤规则九:/ns /j。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810058993.6/,转载请声明来源钻瓜专利网。