[发明专利]一种信息存储方法及装置在审
申请号: | 201711406090.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108133009A | 公开(公告)日: | 2018-06-08 |
发明(设计)人: | 闵剑;温煦峰;郝景坡;张静静;翟素校 | 申请(专利权)人: | 新奥(中国)燃气投资有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 100033 北京市西城区锦*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储信息 信息类别 目标信息 信息存储 预处理单元 存储单元 存储空间 分类单元 获取单元 大数据 存储 创建 分析 | ||
1.一种信息存储方法,其特征在于,创建至少两个信息类别,并分别为每一个所述信息类别定义相对应的至少一个第一关键词,还包括:
接收待存储信息;
获取所述待存储信息所对应的至少一个第二关键词;
根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别;
将所述待存储信息存储到与所述目标信息类别相对应的存储空间。
2.根据权利要求1所述的方法,其特征在于,
在所述创建至少两个信息类别之后,进一步包括:分别为每一个所述信息类别设置相对应的优先级,其中,不同所述信息类别对应不同优先级;
所述根据所述至少一个第二关键词和每一个所述信息类别对应的所述至少一个第一关键词,从所述至少两个信息类别中确定所述待存储信息所属的目标信息类别,包括:
按照对应优先级从高至低的顺序,依次将各个所述信息类别对应的所述至少一个第一关键词与各个所述第二关键词进行对比;
将所对应优先级较高,并且所对应各个所述第一关键词中存在与所述第二关键词相同的所述第一关键词的一个所述信息类别确定为所述目标信息类别。
3.根据权利要求1所述的方法,其特征在于,所述获取所述待存储信息所对应的至少一个第二关键词,包括:
获取所述待存储信息的标题;
对所述标题进行拆分,获得至少两个第一拆分词;
根据预先创建的停用词动态库,从所述至少两个第一拆分词中去除被记录在所述停用词动态库中的所述第一拆分词,将剩余的至少一个所述第一拆分词确定为所述第二关键词。
4.根据权利要求1所述的方法,其特征在于,所述获取所述待存储信息所对应的至少一个第二关键词,包括:
对所述待存储信息包括的文字进行拆分,获得至少两个第二拆分词;
根据预先创建的停用词动态库,从所述至少两个第二拆分词中去除被记录在所述停用词动态库中的所述第二拆分词,将剩余的各个所述第二拆分词作为第三拆分词;
针对每一个所述第三拆分词,根据所述第三拆分词对应的语义贡献值、在所述待存储信息中的位置、词长、词性及出现频率,通过如下公式计算所述第三拆分词的关键度:
其中,所述W表征所述第三拆分词的关键度;所述D表征所述第三拆分词的语义贡献值,所述语义贡献值根据各个所述第三拆分词之间的语义相似度计算获得;所述L1表征所述第三拆分词是否在所述待存储信息的段首出现,当所述第三拆分词在所述待存储信息的段首出现时所述L1等于1,否则所述L1等于0;所述L2表征所述第三拆分词是否在所述待存储信息的段中出现,当所述第三拆分词在所述待存储信息的段中出现时所述L2等于1,否则所述L2等于0;所述L3表征所述第三拆分词是否在所述待存储信息的段尾出现,当所述第三拆分词在所述待存储信息的段尾出现时所述L3等于1,否则所述L3等于0;所述C表征所述第三拆分词的词长;所述Xj表征所述的第三拆分词的词性参数,所述xj表征与所述第三拆分词的词性相对应的权重值;所述P表征所述第三拆分词在所述待存储信息中出现的频率,所述k1、k0、l1、l2、l3、k2和k4均为常数;
将对应所述关键度大于预设阈值的各个所述第三拆分词确定为所述第二关键词。
5.根据权利要求1至4中任一所述的方法,其特征在于,在所述接收待存储信息之后,进一步包括:
如果所述待存储信息不存在相对应的所述第二关键词,将所述待存储信息存储到预先创建的信息获取记录库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新奥(中国)燃气投资有限公司,未经新奥(中国)燃气投资有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711406090.4/1.html,转载请声明来源钻瓜专利网。