[发明专利]基于多种算法提升文件关键词准确度的识别方法在审
申请号: | 201811210049.4 | 申请日: | 2018-10-17 |
公开(公告)号: | CN109255014A | 公开(公告)日: | 2019-01-22 |
发明(设计)人: | 张永静;张彤;郝佳;高晓琼;李世成;郑春一;李景田;司敬;徐海;左晓辉 | 申请(专利权)人: | 北京京航计算通讯研究所 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35 |
代理公司: | 中国兵器工业集团公司专利中心 11011 | 代理人: | 周恒 |
地址: | 100074 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 关键词提取算法 文件关键词 准确度 关键词检索 权重 中文 命中 贝叶斯模型 文件夹 语义 分离模型 聚类技术 默认配置 算法配置 中文文本 最终结果 比对 高维 配置 | ||
1.一种基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,
所述识别方法包括如下步骤:
步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;
步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;
步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;
步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;
步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;
步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;
步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;
步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。
2.如权利要求1所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词。
3.如权利要求2所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。
4.如权利要求1所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。
5.如权利要求1所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。
6.如权利要求1所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。
7.如权利要求1所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。
8.如权利要求7所述的基于多种算法提升文件关键词准确度的识别方法,其特征在于,所述2:3:4:3的权重比为默认配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京航计算通讯研究所,未经北京京航计算通讯研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811210049.4/1.html,转载请声明来源钻瓜专利网。