[发明专利]结合用户情感表达方式的中文情感新词识别方法和系统有效
申请号: | 201610089962.8 | 申请日: | 2016-02-18 |
公开(公告)号: | CN105786991B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 林俊杰;毛文吉;刘春阳;王磊;苗琳 | 申请(专利权)人: | 中国科学院自动化研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 北京瀚仁知识产权代理事务所(普通合伙) 11482 | 代理人: | 宋宝库 |
地址: | 100080 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词。通过本发明实施例解决了如何提高情感新词识别的精度和灵活度的技术问题。 | ||
搜索关键词: | 结合 用户 情感 表达方式 中文 新词 识别 方法 系统 | ||
【主权项】:
1.一种结合用户情感表达方式的中文情感新词识别方法,其特征在于,所述方法至少包括:获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从过滤的候选新词集合中筛选新词,构建新词集合;其中,所述统计指标为构词能力、点互信息、灵活度和邻接熵;基于情感倾向点互信息,从所述新词集合中识别情感新词,构建初始情感新词集合;基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,并将其作为所识别的中文情感新词;其中,所述情感表达方式包括情感表达显著性和情感表达强度;所述基于所述输入文本中涉及的用户的情感表达方式,从所述初始情感新词集合中筛选高置信度情感新词,具体包括:基于所述情感表达显著性,将所述输入文本中涉及的用户划分为情感表达外显组、情感表达内敛组和其他组;基于所述情感表达强度,将所述输入文本中涉及的用户划分为高强度情感组和中低强度情感组;统计所述输入文本中涉及的用户使用所述候选新词的次数;基于所述情感表达外显组、所述情感表达内敛组、所述其他组、所述高强度情感组和所述中低强度情感组以及所述用户使用所述候选新词的次数,计算所述初始情感新词集合中各词的情感表达显著性得分和情感表达强度得分;根据所述情感表达显著性得分和所述情感表达强度得分,从所述初始情感新词集合中筛选所述高置信度情感新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所;国家计算机网络与信息安全管理中心,未经中国科学院自动化研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610089962.8/,转载请声明来源钻瓜专利网。