[发明专利]一种确定文档情感倾向性的方法及装置有效
申请号: | 201510671710.1 | 申请日: | 2015-10-16 |
公开(公告)号: | CN106598935B | 公开(公告)日: | 2019-04-23 |
发明(设计)人: | 史立华;崔维福;何鑫 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 文档 情感 倾向性 方法 装置 | ||
本发明公开了一种确定文档情感倾向性的方法及装置,涉及计算机技术领域,解决了由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。本发明主要的技术方案为:分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典;将待测文档以字为单位分别与情感词典及修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算待测文档的情感标定值;根据该待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定该待测文档的情感趋向。本发明主要用于判断文档的情感倾向性。
技术领域
本发明涉及计算机技术领域,尤其涉及一种确定文档情感倾向性的方法及装置。
背景技术
随着互联网各种媒介交流平台比如微博、twitter等的产生,越来越多的用户开始在网络上通过这些平台表达自己的情感。情感计算的应用越来越普及,很多大的互联网公司都已经推出了自己的舆情产品。舆情产品是一个典型网络大数据的应用,利用收集到的数据进行情感倾向性分析,统计出大家对某一个产品的正面、负面评价或者对某一事件的支持、反对程度,因而舆情产品的应用非常广泛,在一些产品的改进、服务的提升、风险的规避方面有非常重要的指导意义。
情感计算可以通过很多方法来实现,一般分为两大类型,一是基于机器学习的方法,二是纯粹基于词典的方法。机器学习的方法,一般是通过标记语料训练一个通用分类器,然后利用这个分类器来进行情感判断。基于词典的方法需要准备一个较大的情感词典,通过词典中情感词匹配的程度来进行情感判断。
机器学习的情感计算方法首先需要一批均衡的标记语料,可能来自于不同的数据来源或者各种各样的数据格式。因此,收集带标记的语料过程是比较耗费时间的,不同的数据来源具有不同的数据特点,可能需要使用不同的训练方式,工作量较大,训练时间较长。并且,不同领域的数据分布不相同,很难找到一个通用的模型适应所有的领域。而基于词典的情感计算过程需要一个情感词典,情感词内部包含一系列带有情感倾向的词汇,在实际计算过程中,利用情感词的情感程度累积来表示整个文档的情感值。一般需要先对文档进行分词。通常来说,词典要想取得好的更好的效果,只能通过不断增大情感词典,算法的复杂度将达到M*N,其中M是词典中词条的个数,N是文档中出现词语的个数。因此,在将文档进行分词后再带入情感词典进行计算会需要较长时间,影响文档的情感划分效率。
发明内容
有鉴于此,本发明提供一种确定文档情感倾向性的方法及装置,主要目的在于解决由于情感词的增加造成的情感词典增大以及文档分词复杂所共同导致的判断文档情感倾向性效率降低的问题。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供了一种确定文档情感倾向性的方法,该方法包括:
分别获取一个具有字典树结构的情感词典和一个具有字典树结构的修饰词典,其中,所述情感词典中包含带有情感标定值的情感词,所述修饰词典中包含带有修饰程度标定值的修饰词;
将待测文档以字为单位分别与所述情感词典及所述修饰词典中字典树的各节点进行匹配,获取相匹配的情感词或修饰词;
根据情感词与修饰词之间的修饰关系、情感词的情感标定值以及修饰词的修饰程度标定值计算所述待测文档的情感标定值;
根据所述待测文档的情感标定值在预置的情感趋向映射区间中的位置,确定所述待测文档的情感趋向。
另一方面,本发明还提供了一种确定文档情感倾向性的装置,该装置包括:
第一获取单元,用于获取一个具有字典树结构的情感词典所述情感词典中包含带有情感标定值的情感词;
第二获取单元,用于获取一个具有字典树结构的修饰词典,所述修饰词典中包含带有修饰程度标定值的修饰词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510671710.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子书数据的显示方法、装置及终端设备
- 下一篇:字母词的提取方法及装置