[发明专利]关键词确定方法、装置、设备及计算机可读存储介质有效
申请号: | 201811436459.0 | 申请日: | 2018-11-28 |
公开(公告)号: | CN110032622B | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 崔家亮 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/284;G06F40/289 |
代理公司: | 北京君慧知识产权代理事务所(普通合伙) 11716 | 代理人: | 吴绍群 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键词 确定 方法 装置 设备 计算机 可读 存储 介质 | ||
本公开实施例提供关键词确定方法、装置、设备及计算机可读存储介质。关键词确定方法包括:对与第一关键词相关的文本执行第一分词处理以将文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在文本中的权重进行调整;按照预设分词表对多个文字部分进行第二分词处理以将文本分割为多个短语,并对多个短语的关键程度进行打分;对多个短语中的各个词的关键程度进行打分;利用多个短语的关键程度得分以及多个短语中的各个词的关键程度得分确定多个短语中的各个词中是否存在目标关键词,可以同时处理大量网络检索结果或文本内容搜索结果,节省处理时间和资源,还可以有效解决因缺少专家知识而出现的纰漏。
技术领域
本公开实施例涉及计算机技术领域,尤其涉及关键词确定方法、装置、设备及计算机可读存储介质。
背景技术
在进行网络检索或文本内容检索和分析以寻找目标信息(或目标关键词)时,使用关键词进行检索常常难以找到或筛选与关键词内在相关但是外在关联度较低的目标信息。例如,在进行诸如公司之类的机构的风险评估时,往往需要通过新闻舆情对公司机构进行风险分类评估。在很多情况下,使用工商执照上的公司全名,难以获得相应的新闻舆情,这是因为公司的产品或服务的品牌名称往往不同于该公司的注册名称。因此,当需要布控舆情的机构数量很大时,以人工方式进行产品品牌的匹配已经不能满足需求。
可以通过人工方式在网络中或文本内容中搜索与关键词内在相关但是外在关联度较低的目标信息,但是其缺点是无法同时处理大量需求,耗时极长,造成资源浪费。另外,虽然可以通过分词后的简单统计频率对网络检索结果或文本内容搜索结果进行排序,但是该方式的缺点是无法有效过滤大量垃圾信息,仍需要人工介入检查。
发明内容
有鉴于此,本公开第一方面提供了一种关键词确定方法,包括:
对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;
按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;
对所述多个短语中的各个词的关键程度进行打分;
利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。
本公开第二方面提供了一种关键词确定装置,包括:
第一分词模块,被配置为对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;
第二分词模块,被配置为按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;
词打分模块,被配置为对所述多个短语中的各个词的关键程度进行打分;
关键词确定模块,被配置为利用所述多个短语的关键程度得分以及所述多个短语中的各个词的关键程度得分确定所述多个短语中的各个词中是否存在目标关键词。
本公开第三方面提供了一种电子设备,包括存储器和处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现以下步骤:
对与第一关键词相关的文本执行第一分词处理以将所述文本分割为多个文字部分,并对分割出的多个文字部分中与特定词共同出现的词在所述文本中的权重进行调整;
按照预设分词表对所述多个文字部分进行第二分词处理以将所述文本分割为多个短语,并对所述多个短语的关键程度进行打分;
对所述多个短语中的各个词的关键程度进行打分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811436459.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:中文比对方法
- 下一篇:用户问句与知识点标题的匹配方法和装置