[发明专利]文本检索系统的生成方法、文本检索方法及设备在审
申请号: | 202211624153.4 | 申请日: | 2022-12-15 |
公开(公告)号: | CN115827826A | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 王志涛;朱励 | 申请(专利权)人: | 上海爱培微科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06V30/14 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;黄健 |
地址: | 201306 上海市自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检索系统 生成 方法 检索 设备 | ||
1.一种文本检索系统的生成方法,其特征在于,包括:
获取输入的原始文本数据;
对所述原始文本数据进行识别处理,得到预设格式的文本数据;
对所述预设格式的文本数据进行句对划分处理,得到句对;
根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,所述检索语料库包括专业术语检索语料库及语块检索语料库。
2.根据权利要求1所述的方法,其特征在于,所述对所述原始文本数据进行识别处理,得到预设格式的文本数据,包括:
对所述原始文本数据进行光学字符OCR识别,得到识别后的文本数据;
将所述识别后的文本数据进行格式转换处理,得到可编辑格式的文本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述预设格式的文本数据进行句对划分处理,得到句对,包括:
识别所述预设格式的文本数据中的章节关键词;
根据所述章节关键词,对所述文本数据进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
4.根据权利要求3所述的方法,其特征在于,对章节划分后的所述预设格式的文本数据进行章节号标注,以及,对段落划分后的所述每章节对应的文本内容进行段落号标注。
5.根据权利要求4所述的方法,其特征在于,所述根据所述句对中关键词的所属类别,将包含所述句对的所述文本数据划分到检索语料库中,包括:
识别所述句对中的关键词;
若所述关键词为专业术语,将包含所述句对的所述文本数据划分到所述专业术语检索语料库中;
若所述关键词为固定搭配词语,将包含所述句对的所述文本数据划分到所述语块检索语料库中。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
获取输入的所述原始文本数据的属性信息;
生成所述属性信息与所述句对的关联关系;
将所述关系联系存储到包含所述句对的所述检索语料库中。
7.一种文本检索方法,其特征在于,包括:
获取用户输入的待检索文本及用户确定的检索语料库;
对所述待检索文本进行识别处理,得到预设格式的待检索文本;
对所述预设格式的待检索文本进行句对划分处理,得到句对;
响应于用户确定的所述检索语料库,从所述检索语料库中匹配出与所述句对对应的文本数据,所述检索语料库包括专业术语检索语料库及语块检索语料库。
8.根据权利要求7所述的方法,其特征在于,所述对所述待检索文本进行识别处理,得到预设格式的待检索文本,包括:
对所述待检索文本进行光学字符OCR识别,得到识别后的待检索文本;
将所述识别后的待检索文本进行格式转换处理,得到可编辑格式的待检索文本。
9.根据权利要求8所述的方法,其特征在于,所述对所述预设格式的待检索文本进行句对划分处理,得到句对,包括:
识别所述预设格式的待检索文本中的章节关键词;
根据所述章节关键词,对所述待检索文本进行章节划分,得到每章节对应的文本内容;
对所述每章节对应的文本内容进行段落划分,得到每段落对应的文本内容;
对于任意的一个段落,将预设标识符号首次出现之前所包含的文本内容,划分为一个句对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海爱培微科技发展有限公司,未经上海爱培微科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211624153.4/1.html,转载请声明来源钻瓜专利网。