[发明专利]语义解析方法及语义解析器有效

申请号：	202010135354.2	申请日：	2020-03-02
公开（公告）号：	CN111382253B	公开（公告）日：	2022-07-15
发明（设计）人：	俞凯;曹瑞升	申请（专利权）人：	思必驰科技股份有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/30
代理公司：	北京商专永信知识产权代理事务所(普通合伙) 11400	代理人：	黄谦;车江华
地址：	215123 江苏省苏州市苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语义解析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种语义解析方法及语义解析器，所述方法包括：接收待解析自然语句；确定对应于所述待解析自然语句的规范语句；将所述规范语句输入至预先训练的朴素语义解析器，以得到对应于所述规范语句的逻辑表达式。本发明实施例中在对自然语句进行解析之前将其转换成了具有相同含义的规范语句，在使用朴素语义解析器(预先由规范语句‑逻辑形式样本集训练而成)进行解析，从而将对自然语句的解析转换成了对具有相同含义的规范语句的解析，解决了直接采用朴素语义解析器对自然语句进行解析所存在的泛化性能差的问题。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语义解析方法及语义解析器。

背景技术

语义解析，指的是将自然语言问句转化为逻辑形式的任务。逻辑形式，是一种结构化的语义表达式，通常是一种可执行语句，比如Lambda表达式、SQL查询语言，能够被程序直接执行，从数据库中检索并返回答案。由于和知识库的紧耦合特性，语义解析常常应用于基于知识图谱或数据库的自动问答领域。

为了构建某一全新领域的语义解析器，研究人员需要首先获取大量的训练数据，通常从编写(规范问句，逻辑形式)元组的模板规则开始。

模板规则：研究人员手动编写的将问句直接映射成逻辑形式的语法规则。例如，问句“${#person}的毕业学校是(哪儿|哪里|哪个|什么)”，对应的逻辑形式(以SQL为例)框架为“select university from person where name＝${#person}”。问句部分可以是正则表达式，逻辑形式是一个确定的语义表示(某些语义槽待填充)。由于通过规则编写的问句形式僵硬且不够口语化，通常称之为规范语句(canonical utterance)，而用户正常的提问称之为自然语句(natural language utterance)。

一种现有技术中将所有规则编写的(规范问句，逻辑形式)元组作为训练样本，不使用任何额外的数据源或标注，直接训练一个语义解析器。

但是，由于只使用模板规则生成的语料，由于规范语句和自然语句存在数据分布上的明显差异，训练出的朴素语义解析器在真实问句(自然语言问句)上效果较差，泛化性能不好。

发明内容

本发明实施例提供一种语义解析方法及语义解析器，用于至少解决上述技术问题之一。

第一方面，本发明实施例提供一种语义解析方法，包括：

接收待解析自然语句；

确定对应于待解析自然语句的规范语句；

将规范语句输入至预先训练的朴素语义解析器，以得到对应于规范语句的逻辑表达式。

在一些实施例中，确定对应于待解析自然语句的规范语句包括：将待解析自然语句输入至预先训练的语句转换模型，以得到对应于待解析自然语句的规范语句。

在一些实施例中，预先训练语句转换模型的步骤包括：基于自然语句样本集采用无监督训练方法预先训练得到语句转换模型。

在一些实施例中，基于自然语句样本集采用无监督训练方法预先训练得到语句转换模型包括：

对语句转换模型进行初始化；