[发明专利]基于海量微博文本和用户信息的网络新词自动提取的方法有效
申请号: | 201610324541.9 | 申请日: | 2016-05-17 |
公开(公告)号: | CN105956158B | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 黄永峰;吴方照;刘佳伟;袁志刚;吴思行 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/953;G06F16/36 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于海量微博文本和用户信息的网络新词自动提取的方法,包括:获取微博文本及微博对应的作者标识符;建立新词列表;根据汉语分析工具对微博文本进行分词操作,得到分割词段,分别统计各个分割词段基于文本和用户两个维度的词频信息;将新词列表中词语频次小于第一频次阈值的词语从新词列表中删除;统计微博数据中所有的二元组和三元组,并将其作为候选新词;计算候选新词的关联性的得分;将候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至新词列表:迭代执行以上过程,直至没有新的候选新词产生且新词列表中没有候选新词被删除。本发明能够自动提取网络新词,具有较高的准确性和较低的时间和空间复杂度。 | ||
搜索关键词: | 基于 海量 文本 用户信息 网络 新词 自动 提取 方法 | ||
【主权项】:
1.一种基于海量微博文本和用户信息的网络新词自动提取的方法,其特征在于,包括以下步骤:S1:获取微博数据,其中,所述微博数据包括微博文本及微博对应的作者标识符;S2:建立新词列表,其中,所述新词列表初始化为空集;S3:将所述新词列表加入预设的汉语分析工具中,并根据所述汉语分析工具对所述微博文本进行分词操作,以将所述微博文本映射成分割词段的集合,并分别统计各个分割词段基于文本和用户两个维度的词频信息;S4:根据得到的词频信息更新所述新词列表中对应词语的词频信息,并将词语频次小于第一频次阈值的词语从所述新词列表中删除;S5:将分词操作中n个连续出现的分割词段定义为n元组,统计微博数据中所有的二元组和三元组,并将所述二元组和三元组作为候选新词;S6:根据所述候选新词在文本和用户两个维度的分布,统计所述候选新词基于文本和用户两个维度的词频信息,并计算所述候选新词的关联性得分;S7:将所述候选新词中词语频次大于第二频次阈值且关联性得分大于得分阈值的词语添加至所述新词列表;以及S8:迭代执行所述S3至S7,直至所述微博数据中没有新的候选新词产生且所述新词列表中没有候选新词被删除。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610324541.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种可及时校对身份信息的电子身份系统
- 下一篇:误诊疾病数据库