[发明专利]文本检索系统的生成方法、文本检索方法及设备在审
申请号: | 202211624153.4 | 申请日: | 2022-12-15 |
公开(公告)号: | CN115827826A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 王志涛;朱励 | 申请(专利权)人: | 上海爱培微科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06V30/14 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;黄健 |
地址: | 201306 上海市自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检索系统 生成 方法 检索 设备 | ||
本申请提供一种文本检索系统的生成方法、文本检索方法及设备,在生成时,通过获取输入的原始文本数据,并对原始文本数据进行识别处理,得到预设格式的文本数据,进而对预设格式的文本数据进行句对划分处理,得到句对,最终,根据句对中关键词的所属类别,将包含句对的文本数据划分到检索语料库中,检索语料库包括专业术语检索语料库及语块检索语料库。在检索时,获取用户输入的待检索文本及用户确定的检索语料库,对待检索文本进行识别处理,得到预设格式的待检索文本,进而对预设格式的待检索文本进行句对划分处理,得到句对,响应于用户确定的检索语料库,从检索语料库中匹配出与句对对应的文本数据。本申请提高了检索效率,检索结果更准确性。
技术领域
本申请涉及文本检索技术领域,尤其涉及一种文本检索系统的生成方法、文本检索方法及设备。
背景技术
随着互联网技术的飞速发展,文本数据在互联网上的数量越来越多,通过文本检索系统对目标文本进行检索,能够极大的提高检索效率。
现有技术中的文本检索系统只能针对某一格式的文本进行检索,当用户的待检索文本并非该格式时,需要借助第三方工具将其转换成该格式后,再将格式转换后的文本输入至检索系统中,检索系统通过全文匹配检索出与待检索文本相对应的文本数据。
但是现有技术检索效率低下,检索准确率较低,影响用户体验。
发明内容
本申请提供一种文本检索系统的生成方法、文本检索方法及设备,用以解决现有技术检索效率低下,检索准确率较低的问题。
第一方面,本申请提供一种文本检索系统的生成方法,包括:
获取输入的原始文本数据;
对所述原始文本数据进行识别处理,得到预设格式的文本数据;
对所述预设格式的文本数据进行句对划分处理,得到句对;
根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
可选的,所述对所述原始文本数据进行识别处理,得到预设格式的文本数据,包括:
对所述原始文本数据进行光学字符OCR识别,得到识别后的文本数据;
将所述识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
可选的,所述对所述预设格式的文本数据进行句对划分处理,得到句对,包括:
识别所述预设格式的文本数据中的章节关键词;
根据所述章节关键词,对所述文本数据进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
可选的,对章节划分后的所述预设格式的文本数据进行章节号标注,以及,对段落划分后的所述每章节对应的文本内容进行段落号标注。
可选的,所述根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,包括:
识别所述句对中的关键词;
若所述关键词为专业术语,将包含所述句对的所述文本数据划分到所述专业术语检索语料库中;
若所述关键词为固定搭配词语,将包含所述句对的所述文本数据划分到所述语块检索语料库中。
可选的,还包括:
获取输入的所述原始文本数据的属性信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱培微科技发展有限公司,未经上海爱培微科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211624153.4/2.html,转载请声明来源钻瓜专利网。