[发明专利]一种基于文本挖掘的科技项目立项管理辅助决策方法及系统在审
申请号: | 202111587067.6 | 申请日: | 2021-12-23 |
公开(公告)号: | CN114265935A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 李重杭;何维;汪伟;艾致衡 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F40/216;G06F40/289;G06K9/62 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 潘中毅 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 科技 项目 立项 管理 辅助 决策 方法 系统 | ||
1.一种基于文本挖掘的科技项目立项管理辅助决策方法,其特征在于,包括:
步骤S1,使用信息抽取技术对待评审科技项目数据库、历史科技项目数据库分别进行特征数据抽取,构建科技项目信息数据库;
步骤S2,对所述特征数据进行分层文本相似度性挖掘,构建多层次多维度的科技项目相似度比对模型;
步骤S3,获得待评审项目与其他项目在所述特征数据的相似度分数,在历史样本训练集上采用网格搜索方法对所述特征数据的权重进行更新迭代,得到一组最优权重;
步骤S4,根据所述最优权重计算待评审项目与其他项目之间的相似度的综合得分。
2.根据权利要求1所述的方法,其特征在于,所述特征数据包括标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标。
3.根据权利要求2所述的方法,其特征在于,所述步骤S1具体包括:
从待评审科技项目数据库、历史科技项目数据库中分别抽取出标题、关键词、项目摘要、目的与意义、研究背景、主要研究内容、预期目标这7种特征数据;
对抽取出的特征数据进行清洗,去除无用字符,并进行统一格式处理;
采用jieba分词+电力行业词典+停用词过滤的组合进行分词操作;
抽取关键词,所述关键词包括研究对象关键词、标题关键词、主题关键词和综合关键词。
4.根据权利要求3所述的方法,其特征在于,所述抽取关键词进一步包括:
采用文本主题网络图聚类来提取关键词,选取前n个关键词,如果该关键词存在于历史的研究对象关键词中,则将其作为待评审项目的研究对象关键词,否则选择综合特征值最大的前两个词语作为待评审项目研究对象关键词;
采用textrank方法对待评审项目中的关键词进行提取,所述关键词的词性是普通名词、专业名词、机构团体、组织名、作品名的其中一个;
采用人工标注的方式对历史科技项目进行分类,并使用svm模型进行多标签分类训练,进而获得待评审项目主题关键词的分类;
将使用textrank和主题网络图聚类提取的关键词进行1:1的合并,获得综合关键词,用于后续的关键词相似度比对。
5.根据权利要求1所述的方法,其特征在于,所述步骤S2包括采用改进的基于编辑距离的相似度计算方法来计算项目名称的相似度,其具体包括:
步骤S21,假设有字符串s1和s2,设输入的字符串为s1i和s2j,利用算法求出输入的两个字符串最长公共子串,结果为ls;
步骤S22,假如ls的长度大于2,那么对s1i和s2j做如下处理:去掉ls,并且当ls在字符串首或者尾部时,把字符串分割成两部分独立的字符串,分别为s1i1、s1i2和s2j1、s2j2;否则的话把s1i按顺序并入到初始为空的结果字符串sa中,把s2j按顺序并入到结果字符串sb中;
步骤S23,遍历s1i和s2j分割后的字符串,继续递归进入步骤S21,直达完成所有子字符串的计算;此时所有的最长公共子串已从s1和s2中移除,结果存放在sa和sb中;
步骤S24,对sa和sb计算编辑距离,利用编辑距离相似度计算公式进行相似度计算:
其中,sim(s1,s2)表示s1和s2的相似度,ED表示编辑距离,len(s1)表示字符串s1的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111587067.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于产后恢复锻炼的调节架及使用方法
- 下一篇:一种节能型烤盘