[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

专利信息
申请号: 201810058993.6 申请日: 2018-01-22
公开(公告)号: CN108319584A 公开(公告)日: 2018-07-24
发明(设计)人: 刘磊;贾亚璐;孙孟涛;陈浩;李静 申请(专利权)人: 北京工业大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 张慧
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 词性 算法 过滤 频繁项集 新词发现 短文本 互信息 微博 预处理 改进 交集 词性标注 迭代计算 模型获取 一次过滤 组合规则 滑动 分词 构词 语料 文本 验证 重复 优化
【权利要求书】:

1.一种基于改进FP-Growth算法的微博类短文本的新词发现方法,其特征在于,包括以下步骤:

步骤(1)、微博语料获取和预处理

利用微博的API接口或采集爬虫获取微博语料,对文件进行正则匹配获取其中的微博正文内容,删除其中的URL,然后按标点符号进行断句,对得到的纯文本进行分词、词性标注,得到预处理后的语料,记为G;

步骤(2)、利用改进的FP-Growth算法处理语料G,获取频繁项集Cfp

步骤(3)、利用N-grams模型获取新词候选集Cgrams

从语料中统计N个词同时出现的次数,由N-grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2<P(w1,w2,w3,......wn)<β2的N元重复串作为新词候选集Cgrams,α22是共现频率阈值。

步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集,得到新词候选项集C1={c1,c2,…,cm},ci=(w1,w2,..wn),ci表示候选新词,wj表示构成新词的原词。

步骤(5)、在新词候选项集C1中,利用词性标记对其中含有过滤词性的词进行筛选,得到新词候选集C2

步骤(6)、利用改进的互信息对新词候选集C2进行过滤,得到新词候选集合C3,若ci=(w1,w2,..wn),ci∈C2,对每个ci利用改进的互信息公式,对相邻的wj进行计算,改进的互信息计算公式如下:

其中,p(wi,wi+1)表示词wi和词wi+1共同出现的频数,p(wi)表示词wi的频数,wi,i+1表示词wi和邻近的词wi+1组合成词的权重,npos(wi,wi+1)表示词wi,wi+1共现的词性组合的频数,表示词wi的词性出现的频数;在所有频繁项集中,选取满足条件I(wi,wi+1)>β3的词作为新词集合C={c1,c2,c3,......cm},每个新词都是c1=(w1,w2,w3,......wn)构成,其中β3为设定的阈值;

步骤(7)、通过词性组合过滤规则库R过滤候选新词集合C3,然后得到最终的新词集合C4,

若ci=(w1,w2,..wn),ci∈C3,对于每一个ci,对于任意的(wi,wi+1),其词性组合(pos(wi),pos(wi+1)),如果满足词性组合过滤规则库R中任意规则,则去除新词ci,最终得到新词集合C4;

词性组合过滤规则库R由如下规则构成:

过滤规则一:/ns /v(ns处可以是nr、nz);

过滤规则二:/ns /ns(ns处可以是nr、nz);

过滤规则三:/n /v或者/vn /v;

过滤规则四:/t /t;

过滤规则五:/t /nr;

过滤规则六:/t /f(t处可以是vn、n、l、f);

过滤规则七:/v /t;

过滤规则八:/t /v;

过滤规则九:/ns /j。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810058993.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top