[发明专利]一种文献检索方法、设备和存储介质有效
申请号: | 201910816712.3 | 申请日: | 2019-08-30 |
公开(公告)号: | CN110516157B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 黄劲;岑忠满;康阳 | 申请(专利权)人: | 盈盛智创科技(广州)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/958 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 510000 广东省广州市黄埔区伴河路136号160*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文献 检索 方法 设备 存储 介质 | ||
本发明公开了一种文献检索方法、设备和存储介质。该方法通过接收自然语言构成的第一检索式;将第一检索式转换为指定格式的第二检索式;根据第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;在检索条件的约束下、根据关键词在文献资料库中进行检索,得到符合结果类型的文献。实现了用户使用自然语言定义搜索意图,由计算机直接给出自然语言的理想答案,以为用户节省大量的筛选时间的效果。
技术领域
本发明实施例涉及数据检索的技术,尤其涉及一种文献检索方法、设备和存储介质。
背景技术
目前图书馆、专利检索的提供的文献的检索功能,采用的主要是关键词匹配,统计分析等技术,在浩瀚的文献中查找用户想要的内容。
现有的自然语言处理技术将语句中的各个部分的语言学角色标注出来,这种语句和句群的标注对于知识的表示仍然保留着对于自然语言在形式上的依赖和自然语言形式的繁琐复杂,所以不利于建立一个高效,统一的知识处理的模型。
但是用户通常很难通过简单的关键词组合来准确定义自己的搜索意图,而且关键词匹配的搜索过程没有处理词意组合,语句内部的语义关系等语义因素。所以用户经常花大量时间对数目巨大的结果网页列表,通过人工辨识来寻找理想的答案。
发明内容
本发明提供一种文献检索方法、设备和存储介质,以解决用户在通过输入关键词进行检索时、需要常花大量时间对数目巨大的结果网页列表,通过人工辨识来寻找理想的答案的问题。
第一方面,本发明实施例提供了一种文献检索方法,包括:
接收自然语言构成的第一检索式;
将所述第一检索式转换为指定格式的第二检索式;
根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型;
在所述检索条件的约束下、根据所述关键词在文献资料库中进行检索,得到符合所述结果类型的文献。
在此基础上,所述将所述第一检索式转换为指定格式的第二检索式,包括:
在所述第一检索式中检测HTML字符、指定格式的数字和指定格式的时间段;
当在所述第一检索式中检测到所述HTML字符时,删除所述HTML字符;
当在第一检索式中检测到指定格式的数字时,将所述指定格式的数字转化为阿拉伯数字;
当在第一检索式中检测到指定格式的时间段时,根据所述指定格式的时间段生成用阿拉伯数字表示的时间区间。
在此基础上,所述根据所述第二检索式确定适于在文献资料库中检索的关键词、检索条件和结果类型,包括:
对所述第二检索式进行分词处理,以获得检索分词;
识别所述检索分词的词性;
根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词;
根据所述待作为检索的关键词的检索分词、待作为约束条件的检索分词,确定所述结果类型。
在此基础上,所述根据所述词性从所述检索分词中确定待屏蔽的检索分词、待作为检索的关键词的检索分词、待作为约束条件的检索分词,包括:
筛选所述词性为实体名词的检索分词,作为检索的关键词;
筛选所述词性为阿拉伯数字和字段名词的检索分词,作为约束条件;
筛选副词、助词和语气词的检索分词,作为待屏蔽的检索分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盈盛智创科技(广州)有限公司,未经盈盛智创科技(广州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910816712.3/2.html,转载请声明来源钻瓜专利网。