[发明专利]一种基于问句框架的问答意图知识库构建系统及方法在审
申请号: | 202110040888.1 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112650846A | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 侯志强;柳晶晶;刘锋;谭培波 | 申请(专利权)人: | 北京智通云联科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/205;G06F40/242;G06F40/289;G06F40/30 |
代理公司: | 北京八月瓜知识产权代理有限公司 11543 | 代理人: | 李斌 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 问句 框架 问答 意图 知识库 构建 系统 方法 | ||
本发明提供了一种基于问句框架的问答意图知识库构建系统及方法。包括:数据层,包括问句语料库、框架要素字典和问答意图知识库;用于存储文件、读写文件和修改文件;处理层,包括框架要素处理模块和问答句改写模块,用于改写问句;应用层,包括问句分析模块,用于输出改写问句所形成的候选目标词串。该基于问句框架的问答意图知识库构建系统及方法改善了现有技术中识别框架要素困难且无法自动得到问句解析的答句形式的问题。
技术领域
本发明涉及构建问答意图知识库技术领域,尤其是涉及一种基于问句框架的问答意图知识库构建系统及方法。
背景技术
句子意图(句子框架)就是句子的在现实物质世界的所指即语义,语义有很多种,一般采用框架语义学(FrameNet)的方法,根据所处的场景决定框架的名称和框架要素,根据句子中的谓语或者动词定义框架的目标词。这种以谓语或者动词这个句子的一部分来定义整个句子的目标词并决定框架要素,在实际中出现以下问题:
(1)实体歧义无法消除,无法识别框架要素
比如“毛坝3井深是多少”,这里的“毛坝3“和“毛坝3井”都是2个真实存在的但完全不同类型的实体,那么问句中的实体到底是“毛坝3井深”还是“毛坝3井深”呢?这个歧义问题在词层面无法解决,只有在更高的句子层面通过知识库才能把提问者的真实意图和要素校正出来。
(2)无动词句子无法识别框架
英文是一种以动词为主的语言,因此以动词为主来识别框架和框架要素是成功的,但是很明确,但是在问句意图(框架)识别的时候就无法定义出目标词,这样就无法确定问句的框架和框架要素,导致无法对问句以及答句进行解析。
比如“毛坝3井深”,这个句子在问答场景下的语义是非常明确的,就是问“毛坝3”这个集气站所包含的各井的“井深”,但是问句中没有动词只有名词,NLP无法识别这种句子的框架和框架要素。
(3)无虚词序列也无法识别框架
借鉴槽位方法,在句子中把实体去掉,以留下的虚词序列作为目标词进行框架识别,这样的结果由于只应用了一半的信息,因此,也无法识别句子的框架和框架要素。
对于有虚词的句子如“毛坝3井深是多少”可以通过去掉实体词“毛坝3”、“井深”并保留槽位位置得到一个虚词序列目标词“,,是多少”,通过这个目标词可以识别句子的框架,但是对于没有虚词的句子比如“毛坝3井深”,这种虚词序列方法也无法识别句子的框架和框架要素。
(4)对问句的解析不能自动得到答句的形式
由于问句和答句是成对出现的,问句不同答句也不同,以保持问句和答句的用词、语气、语义的一致性。但是单独对问句进行而不考虑答句的话,就不能得到符合场景和语义的流畅的答句形式。
发明内容
本发明的目的在于提供一种基于问句框架的问答意图知识库构建方法,该基于问句框架的问答意图知识库构建方法能够解决现有技术中识别框架要素困难且无法自动得到问句解析的答句形式的问题。
为了实现上述目的,本发明提供如下技术方案:
一种基于问句框架的问答意图知识库构建系统,包括:数据层,包括问句语料库、框架要素字典和问答意图知识库;用于存储文件、读写文件和修改文件;
处理层,包括框架要素处理模块和问答句改写模块,用于改写句子;
应用层,包括问句分析模块,用于输出改写句子所形成的候选目标词串。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步地,所述问句语料库包括序号、问句来源和问句,用来记录所述问句的相关信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智通云联科技有限公司,未经北京智通云联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110040888.1/2.html,转载请声明来源钻瓜专利网。