[发明专利]中文网络话题评论文本语义倾向分析的方法及装置有效
申请号: | 201510296299.4 | 申请日: | 2015-06-02 |
公开(公告)号: | CN104881402B | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 刘姗 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 孟金喆,胡彬 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 网络 话题 评论 文本 语义 倾向 分析 方法 装置 | ||
技术领域
本发明实施例涉及自然语言处理技术,尤其涉及一种中文网络话题评论文本语义倾向分析的方法及装置。
背景技术
随着网络的飞速发展,网上的各种各样的文章和言论信息量越来越大,使文本倾向性分析逐渐成为了近几年热门的研究课题。目前,在这个领域中主要有几个主要的研究方向,其中观点提取和词汇倾向性分类为倾向分析核心技术,文本倾向性分类和主客观分类也是倾向分析研究方向重要分支。而关于情感倾向分析中的研究思路主要为采用机器学习的方法、基于语义的方法和结合语义和机器学习的方法。
文本的情感倾向分析方法中,基于机器学习的方法需要大量的人工标注语料、建立训练样本集和训练分类模型的工作,工作繁重而复杂,而取得的分类效果在部分领域与语义分析的效果差距不大,对于网络文本的准确率和召回率各为86%和85.2%。基于语义的分析方法比较单一,大都基于比较固定的语法模式。其中语义的分析方法中处理最基本的单位是情感词,随着网络文本的多样化,情感词提取并不能达到很高的准确率,对于网络文本的准确率和召回率各为84.2%和84.1%。
因此,现有技术中,文本语义倾向分析的方法或多或少都存在准确率和召回率低的问题。
发明内容
有鉴于此,本发明实施例提供一种中文网络话题评论文本语义倾向分析的方法及装置,以提高网络话题评论文本的语义倾向分析的准确率和召回率。
第一方面,本发明实施例提供了一种中文网络话题评论文本语义倾向分析的方法,所述方法包括:
对中文网络话题评论文本进行分词和分句,获得结果序列;
对所述结果序列进行句法分析和语法分析,获得评价对象;
对所述结果序列进行句式分析,确定所述评论文本中的单句和复句,并判断组成复句的各个单句之间的关系,根据所述评论文本中的单句和组成复句的各个单句之间的关系确定句式分析的第一情感倾向值;
针对所述结果序列中的每个句子,根据所述评价对象和预设的短语搭配模式提取每个句子中的情感短语,并根据所述短语搭配模式的权重计算所述情感短语的第二情感倾向值;
根据所述第一情感倾向值及第二情感倾向值,计算所述评论文本中的每个句子相对于评价对象的第三情感倾向值;
根据第三情感倾向值确定所述评论文本的文本情感倾向值。
进一步地,还包括:
基于预设篇数的网络话题,进行短语搭配模式的出现次数统计,以获取所述短语搭配模式及其权重。
进一步地,对所述结果序列进行句法分析和语法分析,获得评价对象,包括:
利用LTP对所述评论文本中的句子进行句法分析,得到依存句法分析树,其中,所述依存句法分析树包括SBV、VOB和/或ATT;
查找句子中的SBV关系对,在所述SBV关系对中,当谓语为形容词时,主语为评价对象;当谓语为动词时,查找句子中含有所述动词的VOB关系对,在所述VOB关系对中,当宾语为名词或者名词短语时,宾语为评价对象;
当句子中没有SBV关系对时,查找VOB关系对,在所述VOB关系对中,当谓语情感倾向值不为0且宾语为名词时,宾语为评价对象;
当句子中没有SBV关系对和VOB关系对时,查找ATT关系对,当所述ATT关系对修饰的词语为名词,且定语的情感倾向值不为0时,所述定语修饰的词语为评价对象;
当句子中没有SBV关系对、VOB关系对和ATT关系对时,利用语法分析提取出名词或者名词短语,在该名词或者名词短语所在的句子中如果存在具有情感倾向的词语,则该名词或者名词短语为评价对象。
进一步地,根据所述第一情感倾向值及第二情感倾向值,计算所述评论文本中的每个句子相对于评价对象的第三情感倾向值,具体包括:
在一个句子中,该句子中所有情感短语的第二情感倾向值相加后的结果与第一情感倾向值相乘,所得结果为该句子相对于评价对象的第三情感倾向值。
进一步地,根据第三情感倾向值确定所述评论文本的文本情感倾向值,具体包括:
所述评论文本中的所有句子相对于评价对象的第三情感倾向值累加得到所述评论文本的文本情感倾向值。
第二方面,本发明实施例还提供了一种中文网络话题评论文本语义倾向分析的装置,所述装置包括:
分词分句模块,用于对中文网络话题评论文本进行分词和分句,获得结果序列;
评价对象提取模块,用于对所述结果序列进行句法分析和语法分析,获得评价对象;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510296299.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:分词方法和装置
- 下一篇:中国作者所发英文文献的作者机构信息抽取方法