[发明专利]一种基于句法分析的特征观点词对的提取方法无效
申请号: | 201410092700.8 | 申请日: | 2014-03-13 |
公开(公告)号: | CN103885936A | 公开(公告)日: | 2014-06-25 |
发明(设计)人: | 秦志光;周尔强;罗熹 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 611731 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的提出了一种基于句法分析的特征观点词对的提取方法。本发明属于自然语言处理领域。本发明的最终目的是为评论信息分析提供正确的特征观点词对,克服现有特征观点词提取方法过于单一,召回率低等缺点。最终的特征观点词对,由两个部分构成,一部分为特征词,一部分为此特征词的观点。举例,佳能相机(特征词),喜欢(观点词)。本发明通过句法分析的方式找出特征观点词对。 | ||
搜索关键词: | 一种 基于 句法 分析 特征 观点 提取 方法 | ||
【主权项】:
一种基于句法分析的特征观点词对提取方法主要由以下特征构成:—分词以及词性标注模块。本模块用来处理评论文本,在经过本模块后,文本将从一系列汉字串变为独立的单词,同时对应各个单词的词性也会标记出来。单词的词性,即形容词,动词,名词等等。举例,整体/n来说/u菜/n的/uj质量/n和/c口感/n相当/d不错/a。在本例中“/“后面的词性标签符合中科院ICTCLAS标准。—句法分析器模块。本模块用来处理分词词性标注后的序列。如上述例子本模块处理的序列为n u n uj n c n d a。在句法分析器模块中,会剔除无关成分仅保留n,ny,vn,v,a,l,z,i。合并保留成分n,n;ny,ny;ny,vn;ny,n;n,vn。同时对单个汉字且前面没有副词出现的动词进行剔除。经过上述处理过程后得到一个词性成分序列如n,v。—成分序列映射模块。本模块用来映射词性成分序列和应提取的成分。本模块在获得词性成分序列后会将其与已经存储在列表中的成分序列到提取成分映射作对比。如果存在这样的映射则输出应该提取的词性成分以及在句子中的位置。—成分提取模块。本模块根据成分序列映射模块输出的应该提取的词性成分以及在句子中的位置提取相应的成分。并与特征词形成特征观点词对。—固定搭配模块。本模块在句法分析无法正确进行时的补充。通过引进评论知识库中的特征词与观点词的固定搭配。当在一个短句子中同时出现特征词与观点词时我们认为,特征词与观点词是一个特征观点词对。并将其输出。—特征观点词对存储模块。本模块存储由各模块生成的特征观点词对。便于后来工作者的调用。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410092700.8/,转载请声明来源钻瓜专利网。
- 上一篇:电子式电流互感器保护用空心线圈
- 下一篇:一种变压器波纹油箱的结构