[发明专利]融合事实文本的问句分解式语义解析方法在审
申请号: | 202210288047.7 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114841170A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 高盛祥;杨玉倩;余正涛;宋燃 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/2452 |
代理公司: | 昆明隆合知识产权代理事务所(普通合伙) 53220 | 代理人: | 何娇 |
地址: | 650500 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 事实 文本 问句 分解 语义 解析 方法 | ||
本发明涉及融合事实文本的问句分解式语义解析方法,属于自然语言处理技术领域。本发明包括步骤:分为分解‑抽取‑解析三个阶段,首先把复杂问题分解成简单子问题序列,然后抽取原始问题和子问题中的关键信息,最后通过整合以上信息生成结构化查询语句。同时,为了避免在分解过程中实体判断错误或主题实体缺失的情况,又将知识库中的三元组转化成用自然语言描述的事实文本信息,构造事实文本库,采用注意力机制获取更丰富的知识,旨在增强实体的表示信息,减少错误传播。本发明融合了事实文本信息,采用问句分解的方式对复杂问题进行语义解析,提升了问答模型对复杂问题的理解能力,从而解决了知识库问答技术对复杂问题的处理效果不佳的问题。
技术领域
本发明涉及融合事实文本的问句分解式语义解析方法,属于自然语言处理技术领域。
背景技术
知识库问答技术旨在从预先建立好的结构化知识库中查找问题的答案,因其广泛的应用场景和巨大的应用价值成为学术界和工业界的研究热点之一。随着知识库构建技术的不断发展,知识库的规模越来越大,如Freebase、DBpedia、Wikidata等大型知识库中存储了丰富的关联知识,这为知识库问答提供了数据基础。
然而,目前的问答系统大多只能回答事实型问题,不能很好的处理复杂问题,难以理解问题中的复杂语义。原因在于,回答一个复杂问题通常会涉及知识库中多个关联的三元组信息,三元组需要满足与问题相关的约束条件,再经过一系列多跳推理或数值计算才能得到正确答案。
语义解析作为知识库问答技术的主流方法之一,核心是将非结构化的自然语言问题转化成机器能够理解和执行的形式语言,如SPARQL等,并使用该形式语言作为结构化查询语句对知识库进行查询,从而获取答案。目前,此类方法在解析复杂问题时主要依赖于依存句法等自然语言句法分析方法,为句子中不同的词标记上不同的角色,帮助解析句子的语义。但是,单纯依靠基于句法的模型并不能很好的理解复杂问题中的语义,会导致语义角色标注错误,从而影响后续推理与计算。并且,随着问题复杂度的提高,语义解析的方法几乎失效。因此,如何更好的理解自然语言问句中的复杂语义依旧是一个难点问题。
事实上,当人类在面临复杂问题时,往往先将其简化成若干个简单问题,先逐个回答简单问题,再进行整合和推理获得最终答案。因此,将复杂问题分解为若干简单问题是解决复杂问题语义理解的有效途径。同样地,本发明借鉴这个分治的思想,先把复杂问题分解得到简单问题序列,这些简单问题往往可以直接从知识库中获取答案,再整合简单问题的信息生成查询语句,这也更符合形式语言的逻辑结构,从而更好的生成正确的查询语句。然而,在将复杂问题分解成简单问题序列的过程中,模型往往会错误地判断或丢失问句中的主题实体,如图1(a)所示。这将导致分解后的子问题与原始的复杂问题并不匹配,从而生成错误的查询语句。
针对上述问题,本发明提出了一种融合事实文本的问句分解式语义解析模型。将知识库中的三元组转化成用自然语言描述的事实文本信息,构建了一个事实文本库,采用注意力机制获取更丰富的知识表示作为辅助信息,使生成的子问句与原问题更加切合,提高了子问句的质量,有效减少了错误传播,进而指导模型生成更好的查询语句。本发明将复杂问题的语义解析过程分为三个阶段,如图1(b)所示,首先在问句分解阶段,将复杂问题分解成一系列简单的子问题序列;然后在信息抽取阶段,对原问题和子问题序列进行信息抽取和整合,获取关键信息;最后在语义解析阶段,生成相应的结构化查询语句。
发明内容
本发明要解决的技术问题是:本发明提供了融合事实文本的问句分解式语义解析方法,以用于解决在复杂问题分解成简单问题序列的过程中模型错误地判断或丢失问句中的主题实体的问题;解决了知识库问答技术在面对复杂问题时,模型无法准确解析问句中的复杂语义,导致问答系统性能不佳的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210288047.7/2.html,转载请声明来源钻瓜专利网。