[发明专利]一种基于知识增强的深度对话语义角色标注方法及系统有效
申请号: | 202110045655.0 | 申请日: | 2021-01-14 |
公开(公告)号: | CN112765991B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 李聪端;贺柏宇;赖东成;朱甜甜;何晶亮 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289;G06F40/126;G06F40/146;G06F40/216 |
代理公司: | 深圳市创富知识产权代理有限公司 44367 | 代理人: | 高冰 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 增强 深度 对话 语义 角色 标注 方法 系统 | ||
本发明公开了一种基于知识增强的深度对话语义角色标注方法及系统,该方法包括:获取数据集并对数据集进行预处理,得到预处理后的文本;获取三元组并对三元组进行筛选,得到过滤后的三元组;将过滤后的三元组与预处理后的文本结合,得到句子树结构;将句子树结构转换为序列并输入到BERT编码器,输出词向量;对预处理文本进行处理,得到索引向量;将词向量和索引向量输入到预构建的语义角色标注模型,输出预测标注结果。该系统包括:预处理模块、三元组模块、树结构模块、词向量模块、索引向量模块和结果模块。通过使用本发明,提升标注的准确度。本发明作为一种基于知识增强的深度对话语义角色标注方法及系统,可广泛应用于自然语言处理技术领域。
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于知识增强的深度对话语义角色标注方法及系统。
背景技术
语义角色标注是实现浅层语义分析的一种方法。语义角色标注的目标是以句子中的某个谓词为中心,分析句子中各成分与谓词之间的关系,并且用语义角色来描述他们之间的关系。跟谓词相关联的词被称为论元。语义角色是指论元在动词所指事件中担任的角色。如:施事者、受事者、客体、时间和地点等。
但是传统的深度语义角色标注方法仅适用于每个句子,在对话领域表现不佳。这是因为人类在对话中,经常会使用基于上下文理解的省略和复指(下文的词返指或代替上文的词),这会导致仅专注于句子的传统深度语义角色标注算法表现不佳。
发明内容
为了解决上述技术问题,本发明的目的是提供一种基于知识增强的深度对话语义角色标注方法及系统,在中文日常对话数据集上,对比传统深度语义角色标注算法,准确度有较大的提升,解决了传统算法在对话领域效果不佳的问题。
本发明所采用的第一技术方案是:一种基于知识增强的深度对话语义角色标注方法,包括以下步骤:
获取数据集并对数据集进行预处理,得到预处理后的文本;
根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选,得到过滤后的三元组;
将过滤后的三元组与预处理后的文本结合并转换,得到句子树结构;
将句子树结构转换为序列并输入到BERT编码器,输出词向量;
基于索引编码器对预处理文本进行处理,得到索引向量;
将词向量和索引向量输入到预构建的语义角色标注模型,输出预测标注结果。
进一步,所述根据预处理后的文本获取三元组并按照预设规则对三元组进行筛选,得到过滤后的三元组这一步骤,其具体包括:
对预处理后的文本中的词与向知识图谱库请求常识三元组;
过滤包含英文信息、包含数字信息、长度大于预设值和含有预设关键字的三元组;
得到过滤后的三元组。
进一步,所述BERT编码器包括嵌入层、可视化层和编码层,所述预构建的语义角色标注模型包括自注意力机制层和输出层。
进一步,所述将句子树结构转换为序列并输入到BERT编码器,输出词向量这一步骤,其具体包括:
将句子树结构拉平转换成序列;
基于嵌入层对序列进行处理,得到词的软位置;
基于可视化层对序列进行处理,得到可视矩阵;
编码层根据词的软位置和可视矩阵,输出词向量。
进一步,所述基于索引编码器对预处理文本进行处理,得到索引向量这一步骤,其具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045655.0/2.html,转载请声明来源钻瓜专利网。