[发明专利]语义解析方法及语义解析器有效
申请号: | 202010135354.2 | 申请日: | 2020-03-02 |
公开(公告)号: | CN111382253B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 俞凯;曹瑞升 | 申请(专利权)人: | 思必驰科技股份有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/30 |
代理公司: | 北京商专永信知识产权代理事务所(普通合伙) 11400 | 代理人: | 黄谦;车江华 |
地址: | 215123 江苏省苏州市苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 解析 方法 | ||
本发明公开一种语义解析方法及语义解析器,所述方法包括:接收待解析自然语句;确定对应于所述待解析自然语句的规范语句;将所述规范语句输入至预先训练的朴素语义解析器,以得到对应于所述规范语句的逻辑表达式。本发明实施例中在对自然语句进行解析之前将其转换成了具有相同含义的规范语句,在使用朴素语义解析器(预先由规范语句‑逻辑形式样本集训练而成)进行解析,从而将对自然语句的解析转换成了对具有相同含义的规范语句的解析,解决了直接采用朴素语义解析器对自然语句进行解析所存在的泛化性能差的问题。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语义解析方法及语义解析器。
背景技术
语义解析,指的是将自然语言问句转化为逻辑形式的任务。逻辑形式,是一种结构化的语义表达式,通常是一种可执行语句,比如Lambda表达式、SQL查询语言,能够被程序直接执行,从数据库中检索并返回答案。由于和知识库的紧耦合特性,语义解析常常应用于基于知识图谱或数据库的自动问答领域。
为了构建某一全新领域的语义解析器,研究人员需要首先获取大量的训练数据,通常从编写(规范问句,逻辑形式)元组的模板规则开始。
模板规则:研究人员手动编写的将问句直接映射成逻辑形式的语法规则。例如,问句“${#person}的毕业学校是(哪儿|哪里|哪个|什么)”,对应的逻辑形式(以SQL为例)框架为“select university from person where name=${#person}”。问句部分可以是正则表达式,逻辑形式是一个确定的语义表示(某些语义槽待填充)。由于通过规则编写的问句形式僵硬且不够口语化,通常称之为规范语句(canonical utterance),而用户正常的提问称之为自然语句(natural language utterance)。
一种现有技术中将所有规则编写的(规范问句,逻辑形式)元组作为训练样本,不使用任何额外的数据源或标注,直接训练一个语义解析器。
但是,由于只使用模板规则生成的语料,由于规范语句和自然语句存在数据分布上的明显差异,训练出的朴素语义解析器在真实问句(自然语言问句)上效果较差,泛化性能不好。
发明内容
本发明实施例提供一种语义解析方法及语义解析器,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种语义解析方法,包括:
接收待解析自然语句;
确定对应于待解析自然语句的规范语句;
将规范语句输入至预先训练的朴素语义解析器,以得到对应于规范语句的逻辑表达式。
在一些实施例中,确定对应于待解析自然语句的规范语句包括:将待解析自然语句输入至预先训练的语句转换模型,以得到对应于待解析自然语句的规范语句。
在一些实施例中,预先训练语句转换模型的步骤包括:基于自然语句样本集采用无监督训练方法预先训练得到语句转换模型。
在一些实施例中,基于自然语句样本集采用无监督训练方法预先训练得到语句转换模型包括:
对语句转换模型进行初始化;
对初始化之后的语句转换模型执行反向翻译任务和对偶强化学习任务以得到预先训练的语句转换模型。
在一些实施例中,语句转换模型包括共享编码器、第一解码器和第二解码器,其中,共享编码器与第一解码器构成自然语句重构模型,编码器与第二解码器构成规范语句重构模型;
对语句转换模型进行初始化包括:
以损失函数为训练目标,以加噪样本自然语句为输入训练自然语句重构模型;
以损失函数为训练目标,以加噪样本规范语句为输入训练规范语句重构模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于思必驰科技股份有限公司,未经思必驰科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010135354.2/2.html,转载请声明来源钻瓜专利网。