[发明专利]基于层次化多头交互注意力的对话状态生成方法有效
申请号: | 202011341577.0 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112131861B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 周玉;李梅;向露;宗成庆 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/242;G06N3/04;G06N3/08;G06F16/332 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 层次 多头 交互 注意力 对话 状态 生成 方法 | ||
本发明属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法,旨在解决现有技术精度和准确度低以及成本高、效率低的问题。本发明包括:基于文本词典进行对话文本预处理;通过编码器进行各句子的独立编码,获得对话文本的上下文表示;对解码器输入应用自我注意力机制,获得当前时刻的解码器输入向量;应用多头交互式注意力机制,融合字级别和句子级别的上下文表示,获得对话文本当前时刻的上下文向量表示;结合当前时刻的解码器输入向量,通过非线性映射获得实体和状态作为对话文本的对话状态。本发明可以在无字级别标注信息的情况下取得非常好的效果,不仅节约了数据标注的成本,也提高了模型的精确性与精度。
技术领域
本发明属于任务型对话技术领域,具体涉及了一种基于层次化多头交互注意力的对话状态生成方法。
背景技术
任务型对话系统是在某一特定领域,通过自然语言交互的形式,辅助用户完成某种特定任务的人机交互系统。目前任务型对话系统在各个垂直领域中都有很大的需求,尤其医疗领域。在医疗对话系统中,对用户对话文本的分析和理解是构建医疗对话系统的第一步。首先需要识别出用户文本以及对话历史中出现的症状、检查、药物等疾病相关的实体,然后推断出这些实体的状态信息。
在医疗对话文本中,语法结构不规范,口语化严重的现象普遍存在。同一种症状或检查会有各种不同的口语化的表述形式或习惯性的缩写形式。甚至,有些实体知识是隐含在一段对话中的,需要对一部分对话进行推断才能判断实体类型。因此在医疗领域的对话理解模块中不可或缺的一步是进行实体归一化操作,将口语化不规范的文本转化为医疗领域专业的实体文本。传统实体识别的方法是基于序列标注的方法,需要先识别出文本中的实体,然后再进行归一化处理。这种两阶段式的方法会有错误的累积,并且序列标注的方法需要字级别的标注信息,耗时耗力,另外在对话中,还存在大量冗余的与疾病无关的信息。此外,这种标注方式不能处理隐式的实体类型。
为了避免两阶段带来的累积错误的问题,现有技术也提出了端到端生成的医疗对话文本的实体归一化方法,可以直接根据对话历史文本生成归一化后的实体和状态,避免了中间的错误累积和过程。然而这些现有技术将上下文看作一段文本,而忽略了对话文本信息具有多轮交互性的最大的特点,因而医疗对话文本的实体归一化结果的精度和准确度还达不到预期,并且很多实体归一化方法也需要提供字级别标注信息,成本高、效率低。
发明内容
为了解决现有技术中的上述问题,即现有端到端方法忽略了对话文本信息具有多轮交互性的特点,对话状态生成的精度和准确度低以及对文字级别标注信息依赖较大,从而成本高、效率低的问题,本发明提供了一种基于层次化多头交互注意力的对话状态生成方法,该方法包括:
步骤S10,基于文本词典对获取的待处理对话文本进行预处理,获得待处理对话文本对应的词向量;所述文本词典为统计文本语料中非重复字/词获得的字/词与id的对应关系;
步骤S20,基于所述待处理对话文本对应的词向量,通过编码器进行各个句子的独立编码,获得待处理对话文本的上下文表示;
以解码器上一时刻输出作为当前时刻输入,并通过自注意力机制编码当前时刻输入的历史向量化表示,将解码器当前时刻输入与所述历史向量化表示相加作为当前时刻的解码器输入向量;所述解码器,其第0时刻的输入为设定字符;
步骤S30,基于待处理对话文本的上下文表示和当前时刻的解码器输入向量,通过多头注意力机制计算待处理对话文本针对当前时刻解码器输入的上下文表示,获取待处理对话文本当前时刻的上下文向量表示;
步骤S40,基于所述待处理对话文本当前时刻的上下文向量表示以及当前时刻的解码器输入向量,进行非线性映射获得实体和状态作为待处理对话文本的对话状态;
其中,所述编码器、解码器分别为一个多层的基于Transformer构建的神经网络。
在一些优选的实施例中,所述待处理对话文本的上下文表示,其计算方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011341577.0/2.html,转载请声明来源钻瓜专利网。