[发明专利]一种微博话题特征提取方法及装置有效
申请号: | 201510236598.9 | 申请日: | 2015-05-11 |
公开(公告)号: | CN106294332B | 公开(公告)日: | 2020-02-14 |
发明(设计)人: | 贺敏;周勇林;王丽宏;云晓春;程学旗;包秀国;马宏远;丁丽;杜攀;刘悦;张丹;刘克松 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06F40/30;G06Q50/00 |
代理公司: | 11010 工业和信息化部电子专利中心 | 代理人: | 梁军 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种微博话题特征提取方法及装置,用以解决目前采用静态词典中的词语特征来表示微博文本,会遗漏大量的关键特征,不能准确反映实时微博信息的问题。该方法包括:提取微博中的有意义字符串,有意义字符串为包含具有语义、能够独立使用的语言单元;提取有意义字符串的异质属性信息;根据异质属性信息对有意义字符串进行分类,得到微博话题相关的特征项,采用该方案能提高微博信息中的特征项提取的准确性。 | ||
搜索关键词: | 一种 话题 特征 提取 方法 装置 | ||
【主权项】:
1.一种微博话题特征项提取方法,其特征在于,包括:/n提取微博中的有意义字符串,所述有意义字符串为具有明确语义的语言单元;/n提取所述有意义字符串的异质属性信息;/n根据所述异质属性信息对所述有意义串进行分类,得到微博话题相关的特征项;/n所述有意义字符串的异质属性信息包括以下几种:/n结构属性、内容属性以及自身属性;/n其中,所述结构属性至少包括:作者影响力、文档影响力、在出现文档中的平均影响力以及有在出现作者中平均影响力;/n所述内容属性至少包括:出现的频次、出现的文档频次、出现的作者频次、反映有意义串普遍重要性的词频*逆文档频次、词频*逆作者频次;/n所述自身属性包括:有意义字符串的长度;/n所述作者影响力和所述在出现作者中平均影响力的计算依据是每个作者的自身影响力;/n所述作者影响力,包括所述有意义字符串出现的所有微博中作者影响力之和;/n所述在出现作者中平均影响力,包括所述有意义字符串出现的所有微博中的平均作者影响力;/n所述文档影响力和所述在出现文档中的平均影响力的计算依据是所述微博的文档影响力,所述微博的文档影响力与所述微博的评论数和转发数相关;/n所述文档影响力包括所述有意义字符串出现的所有微博的影响力之和;/n所述在出现文档中的平均影响力,包括所述有意义字符串出现的所有微博中的平均作者影响力。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510236598.9/,转载请声明来源钻瓜专利网。
- 上一篇:音频信息检索方法及装置
- 下一篇:一种微博突发话题检测方法及装置