[发明专利]文本处理方法及装置在审
申请号: | 202111294843.3 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113887244A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 白静;李长亮;李小龙 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/33;G06F16/332;G06F40/258;G06K9/62 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 何定润 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,包括:
获取问题文本;
将所述问题文本输入至问答模块进行处理,获得所述问答模块输出的候选答案,所述问答模块为针对所述问题文本进行初步答复的问答系统,所述问答系统是根据实际应用场景选择的;
根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本。
2.根据权利要求1所述的方法,其特征在于,在所述根据所述候选答案在所述问答模块对应的文本库中提取包含所述候选答案的目标文本之后,还包括:
在所述目标文本中提取包含所述候选答案的候选语句;
根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,并基于所述候选答案特征确定所述问题文本对应的目标答案文本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标文本、所述候选语句以及所述问题文本构建候选答案特征,包括:
提取目标文本的文本特征;
将所述文本特征、候选语句以及问题文本进行拼接,获得候选答案对应的候选答案特征。
4.根据权利要求2或3所述的方法,其特征在于,所述基于所述候选答案特征确定所述问题文本对应的目标答案文本,包括:
将所述候选答案特征输入文本处理模块进行处理,通过所述文本处理模块基于所述候选答案特征从所述候选答案中筛选出与所述问题文本相关程度较高的候选答案,确定为所述问题文本对应的目标答案文本。
5.根据权利要求2或3所述的方法,其特征在于,所述在所述目标文本中提取包含所述候选答案的候选语句,包括:
确定所述候选答案在所述目标文本中的答案位置;
基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句。
6.根据权利要求5所述的方法,其特征在于,所述确定所述候选答案在所述目标文本中的答案位置,包括:
对所述候选答案进行解析获得所述候选答案对应的属性信息;
根据所述属性信息在所述目标文本中进行位置定位,根据定位结果确定所述候选答案在所述目标文本中的所述答案位置。
7.根据权利要求6所述的方法,其特征在于,所述属性信息为所述候选答案的基本信息,至少包括所述候选答案的字数、字单元以及字单元的排列顺序。
8.根据权利要求5所述的方法,其特征在于,若所述候选答案在所述目标文本中多次出现,所述确定所述候选答案在所述目标文本中的答案位置,包括:
确定所述候选答案在所述目标文本中的多个初始答案位置;
计算各个初始答案位置所属的语句与所述问题文本之间的匹配度,将匹配度最高的初始答案位置确定为所述候选答案的答案位置。
9.根据权利要求5所述的方法,其特征在于,所述基于所述答案位置在所述目标文本中提取包含所述候选答案的所述候选语句,包括:
基于所述答案位置在所述目标文本中识别第一段落符和第二段落符,并根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句;
或者,
在所述目标文本中提取所述候选答案前后设定字数的第一段落文本和第二段落文本,根据所述第一段落文本、所述候选答案以及所述第二段落文本生成所述候选语句。
10.根据权利要求9所述的方法,其特征在于,所述第一段落符为在所述目标文本中向前距离所述答案位置最近的段落符号,所述第二段落符为在所述目标文本中向后距离所述答案位置最近的段落符号,其中,所述段落符号是逗号、句号、叹号或问号中任意一个用于断句的符号。
11.根据权利要求9或10所述的方法,其特征在于,所述根据所述第一段落符和所述第二段落符提取包含所述候选答案的所述候选语句,包括:
将所述目标文本中所述第一段落符和所述第二段落符之间的内容确定为所述候选语句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111294843.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种盘轴连接结构、涡轮泵及液体火箭发动机
- 下一篇:一种具有自清洁装置的染缸