[发明专利]文本处理方法及装置在审
申请号: | 202110137335.8 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112784590A | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 侯依宁;汪洲;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F40/30 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 刘晓楠 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
本申请提供文本处理方法及装置,其中所述文本处理方法包括:获取问题文本,并识别所述问题文本中的问题实体;在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
技术领域
本申请涉及文本处理技术领域,特别涉及文本处理方法及装置。
背景技术
随着互联网技术的发展,越来越多的问答系统应运而生,通过底层复杂的知识库支持,实现可以对用户提出的问题进行回答;现有技术在根据知识库创建的问答系统中,基本上都是采用语义解析的方法和信息检索的方法;其中,基于语义解析的方法通常是使用字典、规则和机器学习,直接从问题中解析出实体、关系和逻辑组合;而基于语义解析的方法通常使用分类模型进行关系的预测,其面临未登录关系的问题,即训练集未出现的关系难以被预测出来。而基于信息检索的方法通常是根据问题得到若干个候选实体,根据预定义的逻辑形式,从知识库中抽取与候选实体相连的关系作为候选查询路径,再使用文本匹配模型,选择出与问题相似度最高的候选查询路径到知识库中检索答案;而基于信息检索的方法存在应用场景较小的问题,因此亟需一种有效的方案以解决上述问题。
发明内容
有鉴于此,本申请实施例提供了一种文本处理方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种文本处理方法,包括:
获取问题文本,并识别所述问题文本中的问题实体;
在预设的知识库中链接所述问题实体对应的多个候选实体,以及根据所述问题实体识别所述问题文本的问题类型;
基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径,并根据所述至少一条候选路径确定目标路径;
将所述目标路径转换为查询语句,并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。
可选地,所述识别所述问题文本中的问题实体,包括:
基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体;
其中,所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。
可选地,所述基于预设的识别策略对所述问题文本进行实体识别,获得所述问题实体,包括:
将所述问题文本输入至实体识别模型进行实体识别,获得所述问题文本对应的第一问题实体;
基于所述知识库对应的实体词典对所述问题文本进行实体识别,获得所述问题文本对应的第二问题实体;
通过正则匹配规则对所述问题文本进行实体识别,获得所述问题文本对应的第三问题实体;
根据所述第一问题实体、所述第二问题实体和所述第三问题实体确定所述问题实体。
可选地,所述在预设的知识库中链接所述问题实体对应的多个候选实体,包括:
基于所述问题实体查询所述知识库对应的实体映射表,并根据查询结果确定所述问题实体对应的多个初始候选实体;
根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体。
可选地,所述根据所述多个初始候选实体筛选出设定数据量的初始候选实体作为所述多个候选实体,包括:
根据所述知识库确定所述多个初始候选实体中各个初始候选实体分别对应的一度关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110137335.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:加密投票方法、计算机设备和存储介质
- 下一篇:一种造雪机及其控制方法