[发明专利]基于分层匹配注意力机制的问答文本属性类别分类方法在审
申请号: | 202011286951.1 | 申请日: | 2020-11-17 |
公开(公告)号: | CN112434128A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 刘木沐;吴含前;姚莉;李露 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/332;G06F16/35;G06F40/30;G06N3/04 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 薛雨妍 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分层 匹配 注意力 机制 问答 文本 属性 类别 分类 方法 | ||
本发明公开了基于分层匹配注意力机制的问答文本属性类别分类方法,在构建模型的过程中根据开发集的文本特点设置了循环神经网络的超参数,包括神经网络层数、学习速率、句子个数等首先使用句子切分算法对问答式评论文本中的问题文本和答案文本进行句子切分,并为每条问答式评论文本构建多个(句子,句子)单元。其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子。最后,利用高阶自匹配注意力层来捕捉不同的(句子,句子)单元对于识别属性类别的重要程度。本发训练速度快且预测精度高,具有综合最优结果。
技术领域
本技术涉及面向问答式评论文本的属性类别分类方法,具体涉及一种基于分层匹配注意力机制的问答文本属性类别分类方法。
背景技术
近两年,在亚马逊、淘宝、京东等电商平台上出现了一种新型的产品在线评论文本——“问答式评论文本”,通常由问题文本和答案文本两部分组成。例如,在某一条问答式评论文本中,问题文本为“这款手机的待机时间多长?”,答案文本为“电量不耐用,但是外观很好看!”。在这种新的评论形式中,想要购买某种产品的消费者提出相关的问题,购买过该产品的人则可以作出相应的回答。随着问答式评论文本在各大电商平台的涌现,它所具有的一些文本特性激发了研究人员的研究兴趣。一方面,消费者逐渐偏爱于参与并发表问答式评论文本,而非传统的产品评论文本。另一方面,与传统的产品在线评论相比,这种问答式评论文本蕴含的产品信息更加真实、丰富,这样可以在很大程度上避免因刷单而产生的虚假产品信息,从而使得产品评论更为可靠。因此,针对问答式评论文本进行属性级情感分析显得意义重大,它能够更好地帮助商家和消费者作出监管和购买决策。
属性类别分类在面向问答式评论文本的属性级情感分析研究中起到十分重要的作用。在现有的针对传统评论文本进行的属性级情感分析研究中,通常将属性类别分类与属性级情感分类看作是两个独立的任务,而且属性级情感分类任务往往是面向特定属性的,即将标注的属性类别作为已知的信息,对其进行情感极性判断。但是实际上,对于一条新的评论文本而言,属性类别是未知的,应该首先进行属性类别的识别,进而判断相应的情感极性,所以属性类别分类是属性级情感分析研究中必不可少的一部分。而且,属性类别分类的性能直接影响相应的情感极性的判断,一旦属性类别分类错误率较高,将导致属性级情感分类出现根本性的错误。
问答式评论文本的属性类别识别明显比传统的评论文本更有难度,不仅仅是识别出文本所提及的属性类别,更是要识别出问题文本和答案文本同时提及的属性类别,该属性类别才是消费者和商家关注的“有效”属性类别。以数码领域的一条问答式评论文本为例,在问题文本“这款手机运行流畅吗?屏幕分辨率高吗?”中,“运行流畅”与“系统性能”这一属性类别有关,“屏幕分辨率”与“IO”属性类别有关,而在答案文本“运行流畅,而且外观好看!”中,“运行流畅”与“系统性能”属性类别有关,“外观”与“外观”属性类别有关,若进行属性类别分类任务,仅应该识别出问答文本均涉及的“系统性能”这一属性类别,而非将“IO”和“外观”也识别出来。
虽然国内外关于英文产品评论文本的属性类别分类研究起步较早并且已经取得了一些成果,但由于中英文语言的差异性、中文的语言结构和句式特点比英文更加复杂等原因,针对英文产品评论文本的一些方法不能很好地适用于面向中文产品在线评论的属性类别分类研究。而且,现有的面向传统评论文本的属性类别分类方法不能直接用来处理问答文本的属性类别分类。
发明内容
为解决上述问题,本发明针对现有技术的缺乏,本发明提出了一种基于分层匹配注意力机制的问答文本属性类别分类方法,能够较为准确地识别出问答式评论文本中的“有效”属性类别。
技术方案:一种基于分层匹配注意力机制的问答文本属性类别分类方法包括语料标注阶段和属性类别分类模型搭建阶段;其中在属性类别分类模型搭建阶段,首先基于句子切分算法将问题文本和答案文本进行句子切分,其次并为每条问答式评论文本构建多个(句子,句子)单元;
其次,利用问答匹配注意力层对每个(句子,句子)单元进行编码来匹配问题文本和答案文本的各个句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011286951.1/2.html,转载请声明来源钻瓜专利网。