[发明专利]一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置有效
申请号: | 202010434060.X | 申请日: | 2020-05-21 |
公开(公告)号: | CN111666376B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 彭敏;刘芳;胡刚;毛文月 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06N3/0442;G06N3/047;G06N3/048;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 段落 边界 扫描 预测 距离 匹配 答案 生成 方法 装置 | ||
一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置,其中的装置包含两个基础模块:答案检索模块和个性化描述模板选择模块。在答案检索模块采用基于问答边界预测的开放域答案抽取模型,基于TF‑IDF匹配的搜索组件,抽取与查询相关的文档集合,并结合RNN问答边界预测阅读理解模型,从文档集合中寻找答案实体。在个性化描述模板选择模块采用了基于词移距离聚类匹配的个性化描述生成模型,其主要核心采用词移距离的算法,计算查询与所有人工标注个性化描述模版的中心距离,判断查询文本属于个性化模版的类别,在结合抽取的答案实体和对应的个性化模版给出答案的最终个性化自然语言描述。本发明可以提高其答案生成准确率和多样性。
技术领域
本发明涉及自然语言处理的智能问答技术领域,具体涉及一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置。
背景技术
人工智能高速发达的时代,越来越多的功能需要被其掌握。在用户(人)与AI交互式的系统中,能够根据用户提出的问题给出相应的回答,已成为AI必须掌握的能力。
通过AI问答系统,用户能以自然语言的方式表达自己的信息需求,AI系统将直接返回精确、简洁的答案。由于问题的多样性和语料库的限制等原因,目前的AI在答案生成方面还有较多的弊端,大多数时候是将有限的答案存储在自身的数据库中,导致能够回答的问题不多且不够精确。同时部分AI回答答案时语气过于书面或者过于严肃,虽然答案无误,无法让用户感受到人性的关怀,用户的本身感受不畅。对于用户的问题,如果根据用户的提问方式采取相应的答案回复形式和回复风格,因为更接近人类自然语言的回复方式对于用户体验的提升很有帮助。
问答系统常用的模型主要分为基于检索的模型和基于答案生成的模型,基于检索的模型有匹配模型简单、答案在语料库中、可解释性强等优点,但由于语料库大小的限制,导致能回答的问题具有局限性,对问题的语义信息挖掘不足。基于答案生成的模型可以通过挖掘问题的深层语义生成答案,答案可以不受语料库的规模限制,但模型的可解释性不强,且倾向于生成通用的、单调的答案,无法保证答案的合理性和一致性。对于问答系统而言,由于语料库数据形式的不同,需要采用的技术也不相同。而在大多数情况下,语料库数据形式又以自由文本和问题答案对数据的获取最为常见。
由此可知,现有技术中的一些方法都存在各自的缺点,检索式模型存在语义缺失,答案生成的准确性不足,生成式模型存在领域限制,答案生成的个性化不足。
发明内容
本发明提出一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置,用于解决或者至少部分现有技术中的方法对于垂直领域进行查询问答时生成答案的自然语言描述缺乏个性化表现的问题。
为了解决上述技术问题,本发明第一方面提供了一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法,包括:
S1:收集原始数据,对原始数据进行解析并存储为背景文档数据库,其中,背景文档数据库中的每一个背景文档包括背景文档的具体描述,根据查询文本的类别人工标注不同类别的个性化描述模板,构建个性化描述模板数据库;
S2:根据给出的用户查询文本,搜索背景文档数据库并抽取与查询文本相关的背景文档集合,对抽取出的背景文档集合进行相关性排序;
S3:对排序后的背景文档进行段落边界预测以推断答案区间的位置,获得与查询文本对应的答案实体;
S4:利用词移距离模型计算查询文本与所有个性化模板的中心距离,确定模板归属的问题类别并随机选择个性化描述模板;
S5:将查询得到的答案实体填充到选择出的个性化描述模板中,生成与查询文本对应的个性化描述答案。
在一种实施方式中,S1中背景文档数据库中的每一个背景文档还包括文档id、标题和网址。
在一种实施方式中,S2具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010434060.X/2.html,转载请声明来源钻瓜专利网。