[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

申请号：	201810058993.6	申请日：	2018-01-22
公开（公告）号：	CN108319584A	公开（公告）日：	2018-07-24
发明（设计）人：	刘磊;贾亚璐;孙孟涛;陈浩;李静	申请（专利权）人：	北京工业大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于改进的FP‑Growth算法的微博类短文本的新词发现方法，包括：获取文本语料，利用jieba进行分词、词性标注等预处理；通过优化的FP‑Growth算法获得频繁项集词集，并对每个频繁项有序化；利用N‑grams模型获取重复串，并与频繁项集取交集；通过词性过滤，过滤掉一些在构词结构上不常用的词性；利用改进的互信息，滑动迭代计算互信息来过滤新词；利用词性组合规则库再进行一次过滤；验证该方法获取新词的有效性。
搜索关键词：	词性算法过滤频繁项集新词发现短文本互信息微博预处理改进交集词性标注迭代计算模型获取一次过滤组合规则滑动分词构词语料文本验证重复优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于改进FP‑Growth算法的微博类短文本的新词发现方法，其特征在于，包括以下步骤：步骤(1)、微博语料获取和预处理利用微博的API接口或采集爬虫获取微博语料，对文件进行正则匹配获取其中的微博正文内容，删除其中的URL，然后按标点符号进行断句，对得到的纯文本进行分词、词性标注，得到预处理后的语料，记为G；步骤(2)、利用改进的FP‑Growth算法处理语料G，获取频繁项集Cfp步骤(3)、利用N‑grams模型获取新词候选集Cgrams从语料中统计N个词同时出现的次数，由N‑grams模型得到词同时出现的频率P(w1,w2,w3,......wn)。选取满足条件α2＜P(w1,w2,w3,......wn)＜β2的N元重复串作为新词候选集Cgrams，α2,β2是共现频率阈值。步骤(4)、取频繁项集Cfp和新词候选集Cgrams的交集，得到新词候选项集C1＝{c1,c2,…,cm},ci＝(w1,w2,..wn),ci表示候选新词，wj表示构成新词的原词。步骤(5)、在新词候选项集C1中，利用词性标记对其中含有过滤词性的词进行筛选，得到新词候选集C2步骤(6)、利用改进的互信息对新词候选集C2进行过滤，得到新词候选集合C3，若ci＝(w1,w2,..wn)，ci∈C2，对每个ci利用改进的互信息公式，对相邻的wj进行计算，改进的互信息计算公式如下：其中，p(w_i,w_i+1)表示词w_i和词w_i+1共同出现的频数，p(w_i)表示词w_i的频数，w_i,i+1表示词w_i和邻近的词w_i+1组合成词的权重，n_pos(wi,wi+1)表示词w_i，w_i+1共现的词性组合的频数，表示词w_i的词性出现的频数；在所有频繁项集中，选取满足条件I(w_i,w_i+1)＞β₃的词作为新词集合C＝{c₁,c₂,c₃,......c_m}，每个新词都是c1＝(w₁,w₂,w₃,......w_n)构成，其中β₃为设定的阈值；步骤(7)、通过词性组合过滤规则库R过滤候选新词集合C3，然后得到最终的新词集合C4，若ci＝(w1,w2,..wn)，ci∈C3，对于每一个ci，对于任意的(wi，wi+1)，其词性组合(pos(wi),pos(wi+1))，如果满足词性组合过滤规则库R中任意规则，则去除新词ci，最终得到新词集合C4；词性组合过滤规则库R由如下规则构成：过滤规则一：/ns /v(ns处可以是nr、nz)；过滤规则二：/ns /ns(ns处可以是nr、nz)；过滤规则三：/n /v或者/vn /v；过滤规则四：/t /t；过滤规则五：/t /nr；过滤规则六：/t /f(t处可以是vn、n、l、f)；过滤规则七：/v /t；过滤规则八：/t /v；过滤规则九：/ns /j。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810058993.6/，转载请声明来源钻瓜专利网。

上一篇：从中文语料库提取知识的方法与系统
下一篇：数据处理方法及装置、电子设备、计算机可读介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于改进FP-Growth算法的微博类短文本的新词发现方法在审

专利文献下载