[发明专利]一种基于骨架指导的对话组装方法及装置在审
申请号: | 202210002194.3 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114398906A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 辛春蕾;林鸿宇;吴杉;韩先培;孙乐;郑佳 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06F40/35 | 分类号: | G06F40/35;G06F16/35;G06F40/216;G06K9/62 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 骨架 指导 对话 组装 方法 装置 | ||
本发明提出一种基于骨架指导的对话组装方法及装置,属于自然语言技术领域,通过从原对话中抽取覆盖关键信息的骨架词,组合成对话骨架;将原对话中的成分和骨架词进行不同组合,获得多个候选组装句子;根据原对话骨架计算生成每个候选组装句子的概率,作为流畅性特征;统计每个候选组装句子包含的不属于骨架词的词数量作为不相关词数量,得到语义一致特征;将每个候选组装句子与原对话进行拼接,输入到分类器中预测概率,得到信息覆盖度特征;通过组合上述三个特征,对每个候选组装句子进行评价,得到最佳组装句子。本发明只需使用少量的标注数据就能生成流畅、高信息覆盖度和与原对话语义一致的组装句子,从而缓解标注数据稀缺的问题。
技术领域
本发明涉及一种基于骨架指导的对话组装方法及装置,属于自然语言处理技术领域。
背景技术
人们在对话时倾向于使用简短、零碎的话语,而不是较长的完整句子。因此,真实场景中的对话往往由多轮的、依赖上下文的、非正式的语句组成,省略、指代和冗余是其中非常常见的现象。此外,由于将对话转录为文本时可能存在部分语音识别错误,真实场景下的对话语料往往是有噪音的。因此,对话中的许多语句需要结合对话上下文中才能被理解。例如,给定对话“周泰雅是谁唱的?”“我说的是种太阳。”“它是谁作曲的?”,它包含将“种太阳”识别为“周泰雅”的错误,并且其中的“它是谁作曲的?”需要结合对话上下文才能被正确理解为“种太阳是谁作曲的?”。
然而,大多数自然语言处理系统是为格式良好、与上下文无关的文本输入设计的,这使得它们不适合处理非正式、依赖于上下文的对话。目前的研究大多集中在开发对话专用系统,设计复杂的机制将特定的下游任务从单句输入扩展到多轮对话输入,使系统可以考虑到更丰富的上下文信息。对话专用系统主要可分为两类:一类通过设计复杂的上下文感知编码器,将历史对话和之前的模型输出结果与当前对话语句编码在一起,给解码器提供上下文信息;另一类通过设计复杂的上下文感知解码器,融合或修改之前的模型预测用于生成对应当前对话语句的输出。但是对话专用系统通常很难设计,为大量的下游任务构建对话专用系统的耗时和成本花费也令人难以接受。因此,如何更有效地处理对话中依赖上下文的非正式语句是一个关键挑战。
另外一种思路是将多轮对话中含有噪声且相互依赖的非正式语句组装为正式的、与上下文无关且语义完整的句子。但对话组装是一项具有挑战性的任务:第一,为了整合相互依赖的、含有噪声的对话中的相关信息,对话组装模型需要解决对话中的省略、指代、语音识别错误和冗余等问题;第二,为了满足不同下游自然语言处理系统的输入要求,组装后的句子必须涵盖对话中的所有关键信息,保持语义与原始对话一致,并且是一个流畅的自然语言句子;第三,需要以数据高效的方式训练对话组装模型,因为构建大规模的人工标注数据是非常昂贵和耗时的。
发明内容
为了解决多轮对话和当前自然语言处理系统的文本输入之间的不一致问题,本发明提供了一种基于骨架指导的对话组装方法及装置,该方法通过将对话中的关键骨架信息与大规模预训练文本生成模型结合起来,只需使用少量的标注数据就能生成流畅、高信息覆盖度和与原对话语义一致的组装句子,从而缓解标注数据稀缺的问题。
本发明采用的技术方案如下:
一种基于骨架指导的对话组装方法,包括以下步骤:
从原对话中抽取覆盖关键信息的骨架词,将抽取的骨架词组合成对话骨架;
将原对话中的成分和对话骨架中的骨架词进行不同组合,通过多步采样获得多个候选组装句子;
根据原对话骨架计算生成每个候选组装句子的概率,作为流畅性特征;
统计每个候选组装句子包含的不属于骨架词的词数量作为不相关词数量,以不相关词数量的负值作为候选组装句子与原对话之间的语义一致特征;
将每个候选组装句子与原对话进行拼接,将拼接后的句子输入到分类器中,分类器根据原对话骨架包含的关键信息来预测概率,将该预测概率作为信息覆盖度特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210002194.3/2.html,转载请声明来源钻瓜专利网。