[发明专利]基于多种算法提升文件关键词准确度的识别系统在审
申请号: | 201811210994.4 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109299465A | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 张永静;张彤;郝佳;高晓琼;李世成;郑春一;李景田;司敬;徐海;左晓辉 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/22;G06F16/35 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 关键词提取算法 文件关键词 准确度 关键词检索 识别系统 权重 中文 命中 贝叶斯模型 文件夹 语义 分离模型 聚类技术 默认配置 算法配置 中文文本 最终结果 比对 高维 配置 | ||
本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别系统。通过对比各个算法对关键词命中次数,各个算法配置的权重比可以自行配置也可以采用默认配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。算法包括采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、算法对文件及文件夹关键词准确识别提取的方法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法。通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。
技术领域
本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别系统。
背景技术
在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。
关键词识别检索以统一策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。
目前大多数的方案主要采用分离模型算法,对关键单词提取和关键词串提取。现有技术方案由于采用算法单一,而各种算法有各自的优势和特点,采用单一算法计算关键词无法规避该算法本身的弊端。因此,目前市面上采用的关键词识别技术准确性有待提升。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决目前由于算法单一,无法结合多种扫描结果进行准确的综合分析的问题。
(二)技术方案
为解决上述技术问题,本发明提供一种基于多种算法提升文件关键词准确度的识别系统,所述识别系统包括:
原文本输入模块,其用于输入待进行关键词识别的原文本;
文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;
基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;
基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;
基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;
基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;
算法权重比分配模块,其用于具体应用场景配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;
关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811210994.4/2.html,转载请声明来源钻瓜专利网。