[发明专利]基于海量微博文本和用户信息的网络新词自动提取的方法有效

专利信息
申请号: 201610324541.9 申请日: 2016-05-17
公开(公告)号: CN105956158B 公开(公告)日: 2019-08-09
发明(设计)人: 黄永峰;吴方照;刘佳伟;袁志刚;吴思行 申请(专利权)人: 清华大学
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/953;G06F16/36
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张大威
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。
搜索关键词: 基于 海量 文本 用户信息 网络 新词 自动 提取 方法
【主权项】:
1.一种基于海量微博文本和用户信息的网络新词自动提取的方法,其特征在于,包括以下步骤:S1:获取微博数据,其中,所述微博数据包括微博文本及微博对应的作者标识符;S2:建立新词列表,其中,所述新词列表初始化为空集;S3:将所述新词列表加入预设的汉语分析工具中,并根据所述汉语分析工具对所述微博文本进行分词操作,以将所述微博文本映射成分割词段的集合,并分别统计各个分割词段基于文本和用户两个维度的词频信息;S4:根据得到的词频信息更新所述新词列表中对应词语的词频信息,并将词语频次小于第一频次阈值的词语从所述新词列表中删除;S5:将分词操作中n个连续出现的分割词段定义为n元组,统计微博数据中所有的二元组和三元组,并将所述二元组和三元组作为候选新词;S6:根据所述候选新词在文本和用户两个维度的分布,统计所述候选新词基于文本和用户两个维度的词频信息,并计算所述候选新词的关联性得分;S7:将所述候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至所述新词列表;以及S8:迭代执行所述S3至S7,直至所述微博数据中没有新的候选新词产生且所述新词列表中没有候选新词被删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610324541.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top