[发明专利]文本处理方法及相关设备在审
申请号: | 201911278271.2 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111125328A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 王文 | 申请(专利权)人: | 深圳数联天下智能科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 相关 设备 | ||
本申请实施例公开了一种文本处理方法及相关设备,该方法包括:基于第一词袋模型从待回答问句文本中,提取待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将待回答问句文本对应的问句向量转换为预设维度的向量,以得到待回答问句文本的特征数据;基于第二词袋模型分别从多个备选答案文本中,提取多个备选答案文本各自对应的答案向量,并基于第二词嵌入矩阵,分别将多个备选答案文本各自对应的答案向量转换为预设维度的向量,以得到多个备选答案文本各自对应的特征数据;根据待回答问句文本的特征数据与多个备选答案文本各自对应的特征数据的相似度,确定目标答案文本。采用本申请实施例,能够获得较为灵活的答案查找方式。
技术领域
本申请涉及自动问答技术领域,尤其涉及一种文本处理方法及相关设备。
背景技术
在当今信息爆炸的社会,利用问答系统精确地向用户推送需要的信息已经成为一种比较普遍的方式。为了能够向用户推送更加丰富、准确的信息,通常会利用知识图谱的查询和推理来实现。如果知识图谱构建的涵盖范围越广,知识量越大,就越能给出更加丰富、准确的信息。现有技术在问答系统中对知识图谱的应用基本是作为知识库查询然后给出答案,这就很依赖于查询时用到的语言实体或者关系的准确性,需要完全一致的语言实体名称或者关系名称才可以查询到答案。所以最终能否向用户推送想要的答案很依赖于语言实体与关系抽取的精度,这样的方式并不灵活。
发明内容
本申请实施例公开了一种文本处理方法及相关设备,能够获得较为灵活的答案查找方式。
第一方面,本申请实施例提供了一种文本处理方法,该方法包括:
基于第一词袋模型从待回答问句文本中,提取所述待回答问句文本对应的问句向量,并基于第一词嵌入矩阵,将所述待回答问句文本对应的问句向量转换为预设维度的向量,以得到所述待回答问句文本的特征数据;
基于第二词袋模型分别从多个备选答案文本中,提取所述多个备选答案文本各自对应的答案向量,并基于第二词嵌入矩阵,分别将所述多个备选答案文本各自对应的答案向量转换为所述预设维度的向量,以得到所述多个备选答案文本各自对应的特征数据;
根据所述待回答问句文本的特征数据与所述多个备选答案文本各自对应的特征数据的相似度,确定目标答案文本。
在上述方法中,通过相似度确定用户问句对应的正确答案,不需要提取用户问句中的语言实体或关系,故能够避免出现提取的语言实体或关系出错,而导致无法查询到正确答案的风险,这样使得答案的查找方式变得灵活。
结合第一方面,在一种可能的实施方式中,所述方法还包括:迭代执行答案推荐模型的训练流程,直至所述答案推荐模型的训练效果满足预设条件,训练效果满足所述预设条件时的所述答案推荐模型包括所述第一词袋模型、所述第二词袋模型、所述第一词嵌入矩阵和所述第二词嵌入矩阵;
其中,所述答案推荐模型的训练流程包括:
根据所述答案推荐模型对应的损失调整所述第一词嵌入矩阵和所述第二词嵌入矩阵;
通过所述第一词袋模型、所述第二词袋模型以及调整后的所述第一词嵌入矩阵和所述第二词嵌入矩阵从预先选取得到的多个训练文本对中,提取所述多个训练文本对各自对应的特征数据对,以得到多个特征数据对,其中,一个所述训练文本对包括一个问句文本和一个答案文本,所述答案文本为正确文本答案或错误文本答案,一个所述特征数据对包括从目标训练文本对中的问句文本提取的特征数据和所述目标训练文本对中的答案文本提取的特征数据,所述目标训练文本对为所述多个训练文本对中的任一训练文本对;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳数联天下智能科技有限公司,未经深圳数联天下智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911278271.2/2.html,转载请声明来源钻瓜专利网。