[发明专利]基于多种算法提升文件关键词准确度的识别系统在审
申请号: | 201811210994.4 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109299465A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 张永静;张彤;郝佳;高晓琼;李世成;郑春一;李景田;司敬;徐海;左晓辉 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06F16/35 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别系统。通过对比各个算法对关键词命中次数,各个算法配置的权重比可以自行配置也可以采用默认配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。算法包括采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、算法对文件及文件夹关键词准确识别提取的方法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法。通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。 | ||
搜索关键词: | 算法 关键词提取算法 文件关键词 准确度 关键词检索 识别系统 权重 中文 命中 贝叶斯模型 文件夹 语义 分离模型 聚类技术 默认配置 算法配置 中文文本 最终结果 比对 高维 配置 | ||
【主权项】:
1.一种基于多种算法提升文件关键词准确度的识别系统,其特征在于,所述识别系统包括:原文本输入模块,其用于输入待进行关键词识别的原文本;文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;算法权重比分配模块,其用于配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811210994.4/,转载请声明来源钻瓜专利网。