[发明专利]一种关键词确定方法及装置有效
申请号: | 201711407143.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108153728B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 闵剑;温煦峰;郝景坡;张静静;翟素校 | 申请(专利权)人: | 新奥(中国)燃气投资有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F16/35 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100033 北京市西城区锦*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 关键词 确定 方法 装置 | ||
本发明提供了一种关键词确定方法及装置,该方法包括:获取待确定信息,从所述待确定信息中解析出至少一个特征词;针对每一个所述特征词,均执行:确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词,如果是,则确定所述特征词与所述目标样本关键词之间的匹配系数;确定所述匹配系数是否大于预设阈值,如果是,将所述特征词作为所述待确定信息对应的关键词。本方案能提高关键词的准确性。
技术领域
本发明涉及计算机技术领域,特别涉及一种关键词确定方法及装置。
背景技术
随着计算机技术的发展,信息量呈爆炸式增长。为了便于对大量信息进行有效管理,通常需要确定出信息对应的关键词,以根据关键词对信息进行分类管理。
目前,在确定信息对应的关键词时,首先确定信息对应的标题,然后将标题拆分成多个词语,并将拆分出的各个词语直接作为该信息对应的关键词。
由于从标题拆分出的词语中存在助词和代词等无实意的词语,因此采用上述方式确定出的关键词不能准确反映其对应的信息。
发明内容
本发明实施例提供了一种关键词确定方法及装置,能提高关键词的准确性。
第一方面,本发明实施例提供了一种关键词确定方法,包括:
获取待确定信息,从所述待确定信息中解析出至少一个特征词;
针对每一个所述特征词,均执行:
确定预存的至少一个样本关键词中是否存在与所述特征词相匹配的目标样本关键词,如果是,则确定所述特征词与所述目标样本关键词之间的匹配系数;
确定所述匹配系数是否大于预设阈值,如果是,将所述特征词作为所述待确定信息对应的关键词。
优选地,
所述确定所述特征词与所述目标样本关键词之间的匹配系数,包括:
根据预设的拆分规则,将所述特征词拆分为至少一个特征字符,并将所述目标样本关键词拆分为至少一个样本字符;
针对每一个所述特征字符,均执行:确定所述至少一个样本字符中是否存在与所述特征字符相同的样本字符,如果是,则将所述特征字符确定为匹配字符;
根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量,确定所述特征词与所述目标样本关键词之间的匹配系数。
优选地,
所述根据所述匹配字符的数量、所述特征字符的数量以及所述样本字符的数量,确定所述特征词与所述目标样本关键词之间的匹配系数,包括:
根据下述公式计算所述匹配系数:
其中,M表征所述匹配系数,a表征所述匹配字符的数量,b表征所述特征字符的数量,c表征所述样本字符的数量,α为校正系数,α>0。
优选地,
所述从所述待确定信息中解析出至少一个特征词,包括:
确定所述待确定信息的标题,并确定所述标题的数据类型;
设置与所述数据类型相对应的词法分析器;
利用所述词法分析器,从所述标题中拆分出至少一个特征词。
优选地,
在所述将所述特征词作为所述待确定信息对应的关键词之后,进一步包括:将每一个所述关键词作为当前关键词执行:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新奥(中国)燃气投资有限公司,未经新奥(中国)燃气投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711407143.4/2.html,转载请声明来源钻瓜专利网。