[发明专利]一种智能问答系统中答案抽取方法在审
申请号: | 202011271342.9 | 申请日: | 2020-11-13 |
公开(公告)号: | CN112328768A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 陈卓;李涵;杜军威;姜伟豪;魏锐;葛艳 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F40/211;G06F40/242;G06F40/289;G06N3/00 |
代理公司: | 杭州天昊专利代理事务所(特殊普通合伙) 33283 | 代理人: | 赵志鹏 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 问答 系统 答案 抽取 方法 | ||
本发明公开了一种智能问答系统中答案抽取方法,具体处理步骤如下:101)用户表示数据的建立步骤、102)数据处理步骤、103)答案抽取步骤;本发明对提取高质量专业的对应答案提供了可能,其数据获取更合理、精准,答案融合更科学、充分,并尽可能考虑各种可能的一种智能问答系统中答案抽取方法。
技术领域
本发明涉及文本提取技术领域,更具体的说,它涉及一种智能问答系统中答案抽取方法。
背景技术
智能问答系统允许用户利用自然语言的形式自由输入提问内容,系统能自动分析用户问题,并向用户返回一个精确、简洁的答案。相对于传统的答案获取方式,智能问答系统可为用户提供更加便捷的知识获取服务,将是未来智能化发展中人机交互的主要方式。无论是检索式还是生成式的智能问答系统,问答语料库都是系统中必不可少的一部分,为整个系统提供数据基础。实践证明问答语料库的质量将直接影响问答系统的性能。
某石化安全工程研究院因业务发展,亟需构建一个面向化工领域的智能问答系统。但是面向化工领域的问答语料库匮乏,人工构建需投入大量的人力物力,且建设周期长。因此利用化工领域问答社区中的问答信息,研究答案抽取技术,自动构建高质量的问答语料成为主要研究方向。
答案抽取技术是问答系统中非常重要的一环,问答社区中问答是由用户产生的,由于缺乏控制措施,再加上问答社区中的用户在知识水平上的局限性和自身的主观性,导致问答社区中的答案存在可靠性低、冗余度高等问题。在问答社区中,最佳答案一般通过用户给予或点赞来获得,但是对于问答社区中的单一答案通常只是涵盖了完整答案的一部分,并不能完全满足用户的提问需求,这使问答社区中的许多答案片面、不完备。故怎么从答案中抽取出相应的子句并合成高质量的,用户满意的答案,是重点要解决的问题。
发明内容
本发明为从问答社区中提取高质量专业的对应答案提供了可能,其数据获取更合理、精准,答案融合更科学、充分,并尽可能考虑各种可能的一种智能问答系统中答案抽取方法。
本发明的技术方案如下:
一种智能问答系统中答案抽取方法,具体处理步骤如下:
101)用户表示数据的建立步骤:设定一个异质信息网络G=(V,E),其包含对象集合V和连接集合E,一个根据该异质网络生成的元路径p:根据如下公式的分布生成元路径的游走路径P:
其中,nt是游走路径中的第t个节点,v的类型为At,是具有At+1类型的节点v的一阶邻域集;
元路径的序列中包括用户节点和问题节点,去除元路径序列中的问题节点;设定游走路径的长度阈值,游走路径将重复遵循元路径的模式直到达到预定义的长度阈值,完成用户表示数据的建立;
102)数据处理步骤:将问答数据进行文本特征提取,并对其中答案的质量进行预测;答案的质量预测采用因子分解机,通过两两特征组合,将特征与特征之间的关联联系起来,构建交叉项特征,以此来判断问答数据的匹配价值,提高数据处理模型的效果;
设定预测答案质量的训练模型数据D=(X,y),其中,X∈Rn×r表示当前数据集D有n个实例,每个实例由一个维度为r的稀疏向量组成,y∈Rn则表示n个实例对应的真实标签,(Xi,yi)表示第i个实例Xi对应标签为yi;
因子分解机能够对输入数据集D=(X,y)不同特征间的交互进行分解建模,其d阶交互模型表示为如下公式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011271342.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种应用于指纹识别的滤波方法
- 下一篇:发电机、发电系统及发电机控制方法