[发明专利]一种科技项目相似分析方法、计算机设备、存储介质在审
申请号: | 202011258083.6 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112199938A | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 汪桢子;章彬;何维;汪伟 | 申请(专利权)人: | 深圳供电局有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/258;G06K9/62;G06Q10/10 |
代理公司: | 深圳汇智容达专利商标事务所(普通合伙) 44238 | 代理人: | 徐文城 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 科技 项目 相似 分析 方法 计算机 设备 存储 介质 | ||
1.一种科技项目相似分析方法,其特征在于,包括:
步骤S1、获取待评审项目申报材料电子文档,并对其进行文本提取得到待评审项目的待评审标题信息;
步骤S2、获取第i个历史评审项目申报材料电子文档,并对其进行文本提取得到第i个历史评审项目的历史标题信息;
步骤S3、根据所述待评审标题信息与所述第i个历史评审项目的历史标题信息进行短文本相似度分析,并根据分析结果初步判定两者是否相似;若是,则依次执行步骤S4~S5,若否,则执行步骤S6;其中i的初始值为1;
步骤S4、对所述待评审项目申报材料电子文档进行文本提取得到待评审项目的待评审长文本信息,并对所述第i个历史历史项目申报材料电子文档进行文本提取得到历史项目的历史长文本信息;
步骤S5、根据所述待评审长文本信息与所述第i个历史评审项目的历史长文本信息进行长文本相似度分析,并根据分析结果最终判定两者是否相似;
步骤S6、判断i是否小于N;若是,则令i=i+1,并返回所述步骤S2;若否,则输出所述待评审项目与所有历史评审项目之间的相似判断结果至显示单元进行显示,并结束分析流程;其中M为预先设置的数量;其中N为历史评审项目的总数。
2.根据权利要求1所述的科技项目相似分析方法,其特征在于,所述步骤S31,包括:
步骤S31、获取所述待评审标题信息与所述第i个历史评审项目的历史标题信息之间的最长连续公共子串,并将所述待评审标题信息与所述第i个历史评审项目的历史标题信息分别去除所述最长连续公共子串后得到第一字符串和第二字符串;
步骤S32、计算所述第一字符串和第二字符串之间的编辑距离;
步骤S33、根据所述编辑距离计算所述待评审标题信息与所述第i个历史评审项目的历史标题信息的相似度;
步骤S34、根据所述待评审标题信息与所述第i个历史评审项目的历史标题信息的相似度与第一相似度阈值的比较结果判定两者是否相似。
3.根据权利要求2所述的科技项目相似分析方法,其特征在于,所述步骤S31,包括:
步骤S311、设所述待评审标题信息为字符串s1,所述第i个历史评审项目的历史标题信息为字符串si;
步骤S312、求出字符串s1和si的最长连续公共子串sz;
步骤S313、如果最长连续公共子串sz的长度大于2,则分别将字符串s1和si中的sz去除后得到新的2个字符串s10和si0,并令s1=s10,si=si0后返回步骤S312;如果最长连续公共子串sz的长度小于等于2,则输出s10作为第一字符串,si0作为第二字符串。
4.根据权利要求2所述的科技项目相似分析方法,其特征在于,所述根据所述编辑距离计算所述待评审标题信息与所述第i个历史评审项目的历史标题信息的相似度,包括:
其中,s10表示第一字符串,si0表示第二字符串,sim(s10,si0)表示所述编辑距离计算所述待评审标题信息与所述第i个历史评审项目的历史标题信息的相似度,ED表示第一字符串和第二字符串之间的编辑距离,len(s10)表示第一字符串的长度,len(si0)表示第二字符串的长度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳供电局有限公司,未经深圳供电局有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011258083.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:直发器
- 下一篇:一种评审专家智能推荐方法和存储介质