[发明专利]文本处理方法及装置在审

申请号：	202110137335.8	申请日：	2021-02-01
公开（公告）号：	CN112784590A	公开（公告）日：	2021-05-11
发明（设计）人：	侯依宁;汪洲;李长亮	申请（专利权）人：	北京金山数字娱乐科技有限公司
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/216;G06F40/30
代理公司：	北京智信禾专利代理有限公司 11637	代理人：	刘晓楠
地址：	100085 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供文本处理方法及装置，其中所述文本处理方法包括：获取问题文本，并识别所述问题文本中的问题实体；在预设的知识库中链接所述问题实体对应的多个候选实体，以及根据所述问题实体识别所述问题文本的问题类型；基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径，并根据所述至少一条候选路径确定目标路径；将所述目标路径转换为查询语句，并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。

技术领域

本申请涉及文本处理技术领域，特别涉及文本处理方法及装置。

背景技术

随着互联网技术的发展，越来越多的问答系统应运而生，通过底层复杂的知识库支持，实现可以对用户提出的问题进行回答；现有技术在根据知识库创建的问答系统中，基本上都是采用语义解析的方法和信息检索的方法；其中，基于语义解析的方法通常是使用字典、规则和机器学习，直接从问题中解析出实体、关系和逻辑组合；而基于语义解析的方法通常使用分类模型进行关系的预测，其面临未登录关系的问题，即训练集未出现的关系难以被预测出来。而基于信息检索的方法通常是根据问题得到若干个候选实体，根据预定义的逻辑形式，从知识库中抽取与候选实体相连的关系作为候选查询路径，再使用文本匹配模型，选择出与问题相似度最高的候选查询路径到知识库中检索答案；而基于信息检索的方法存在应用场景较小的问题，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本申请实施例提供了一种文本处理方法，以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种文本处理装置，一种计算设备，以及一种计算机可读存储介质。

根据本申请实施例的第一方面，提供了一种文本处理方法，包括：

获取问题文本，并识别所述问题文本中的问题实体；

在预设的知识库中链接所述问题实体对应的多个候选实体，以及根据所述问题实体识别所述问题文本的问题类型；

基于所述多个候选实体和所述问题类型生成所述问题文本对应的至少一条候选路径，并根据所述至少一条候选路径确定目标路径；

将所述目标路径转换为查询语句，并根据所述查询语句在所述知识库中查询所述问题文本对应的答案文本。

可选地，所述识别所述问题文本中的问题实体，包括：

基于预设的识别策略对所述问题文本进行实体识别，获得所述问题实体；

其中，所述预设的识别策略包括模型识别策略、字典识别策略和/或规则识别策略。

可选地，所述基于预设的识别策略对所述问题文本进行实体识别，获得所述问题实体，包括：

将所述问题文本输入至实体识别模型进行实体识别，获得所述问题文本对应的第一问题实体；