[发明专利]一种基于观点的文本分类方法在审

专利信息
申请号: 201410434035.6 申请日: 2014-08-29
公开(公告)号: CN104331394A 公开(公告)日: 2015-02-04
发明(设计)人: 程实;何海棠;沈学华;程显毅;施佺 申请(专利权)人: 南通大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京瑞思知识产权代理事务所(普通合伙) 11341 代理人: 袁红红
地址: 226019 *** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 观点 文本 分类 方法
【说明书】:

技术领域

发明涉及文本挖掘和情感计算技术领域,尤其是涉及一种基于观点的文本分类方法。 

背景技术

随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见,商业机构可以通过网络调查客户对产品的评论来了解客户意见并进行市场调查与分析,对产品进行在线跟踪,不断赶紧产品性能和售后服务,培育潜在的消费群体,同时消费者也可以通过浏览某产品的用户评价信息来选择是否购买该产品,政府部门可以网络论坛来了解人们对某个政策法规或者时事的看法及时的了解民众对社会管理者的社会政治态度并作出科学合理的决策,因此,如何快速,有效处理和分析这些主观性的评论文本,了解其他人的想法和对事物的观点和态度是网络文本信息处理领域待解决的重要问题之一。 

所谓观点,是指一个人对某事物的想法和理解,观点并非是事实,因为观点既没有得到验证,也没有得到证明和确认,如果一个观点后来能够得到证明和确认,那它就不再是一个观点,而变成一个事实,根据Kim和Hovy对观点的定义:观点由四个要素组成:即主题、持有者、陈述、情感,这四个元素之间存在着内在的联系,即观点的持有者针对某主题发表了具有情感的意见陈述。 

作为一个新兴的研究领域,观点挖掘研究引起NLP研究界的广泛关注,近年来,NLP相关的一些国际会议都设有专题来讨论观点挖掘问题,众多的研究成果可以分为两大类:文档级(粗粒度)观点挖掘和句子级(中粒度)观点挖掘。 

粗粒度观点挖掘将评价文本划分为支持、反对和中立三大类,粗粒度观点挖掘虽然可以看做文本分类,但与传统的面向主题的文本分类有很大的不同,在传统面向主题的文本分类中,与主题相关的词非常重要;而在粗粒度观点挖掘中,表明褒义或贬义观点的情感词最有用。 

粗粒度观点挖掘不能发现用户喜欢与不喜欢的具体细节,例如用户可能对一款数码相机的外形设计满意,但是对其电池的使用寿命却不太满意,在很多时候仅仅是这种总体上的判断还不够,因为人们对于某一话题进行观点和态度表达的时候除了对总体上的评价外,往往还包括了对其中某个部分或者特性的评价。 

中粒度观点挖掘主要是应用于对事物特性发表观点的抽取,该方法进入到语句层次,以便能够提取观点的具体细节,当然这里的事物可以是一个产品、一种服务、一个人、一个组织、一个事件等,例如“这台照相机的电池寿命太短”这句话,用户评价的产品特征是该款相机的“电池寿命”,并且该用户给出的结论(观点)是消极的。 

无论是粗粒度观点挖掘还是中粒度观点挖掘,像“美国先打伊拉克”和“伊拉克先打美国”两种不同的观点都会归类为相同的一类,因为它们是以词为基本特征,并没有用到语义特征(观点),细粒度观点挖掘是按观点将文本或句子分类,类别的数量是动态的,因为不同的人对同一事物有不同的看法,不仅仅是赞成、反对和中立,由于细粒度观点挖掘无法得到一个通用的语料库,所以基于观点的文本分类是观点聚类。 

提出基于观点的文本分类的另一个动机是在过去的几十年中,语义计算、情感计算有了长足的发展,动态文本分类、基于语义的文本分类、多技术综合的文本分类、低维高效的文本分类有着迫切的应用需求。 

发明内容

本发明主要解决的技术问题是提供一种基于观点的文本分类方法,该方法可以实现动态的、语义的、低维高效的文本分类,使网络文本信息处理更符合人的认知过程,更能满足实际应用的需求。 

为解决上述技术问题,本发明采用的一个技术方案是:一种基于观点的文本分类方法,具体步骤包括: 

(100)主题段的划分:首先输入文本,通过 (1£i,j£n)计算文本中每两个段落之间的语义相似度,然后逐个找出主题发生转换的段落候选点 Pk1,Pk2,……,Pkr, 若Pkr满足,,,则确定为主题段落的划分候选点,继续处理下一个候选点,如果全部主题段落划分候选点都处理完毕则结束,若不满足,判断是否满足,若满足,则认为为主题段落划分候选点,并继续处理下一个主题段落划分候选点,若不满足,则判断主题段落划分候选点的下一个段落是否满足,认为不是划分段,直至全部主题段落划分候选点处理完毕则结束,确定文本中的主题段落划分点,将文本中的所有自然段落合并为若干个主题段,即文本可以表示为D=S1èS2è……èSn,Sn表示主题段;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南通大学,未经南通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410434035.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top