[发明专利]一种面向科研立项查重的句向量生成方法及查重方法有效
申请号: | 202210382556.6 | 申请日: | 2022-04-12 |
公开(公告)号: | CN114943220B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 李翀;张金杰;张士波;何晓涛;刘学敏 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/284;G06F40/289;G06F40/30;G06F16/332 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 司立彬 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 科研 立项 向量 生成 方法 | ||
1.一种面向科研立项查重的句向量生成方法,其步骤包括:
1)对于一科研项目申报书的文本进行分词,计算所述文本中每一分词w的词频p(w)及词频权重tf(w);
2)根据汉语的语法规则以及六类实词词性在科研项目文本中的分布,设置每一分词w的词性权重tag(w);其中六类实词词性包括名词、动词、形容词、代词、量词和数词;
3)根据分词w所在句子在所述文本中的位置,确定该句子中分词w的位置权重pos(w);
4)根据各句子中的分词w的词频权重tf(w)、词性权重tag(w)和位置权重pos(w)计算对应句子中分词w的词权重wgh(w);
5)根据分词w的词权重wgh(w)生成所述文本的句向量矩阵A;所述句向量矩阵其中,所述文本中句子s的句向量vw为分词w的词向量,n为所述文本中句子总数;
6)去除所述句向量矩阵A的前m个主成分,对所述句向量矩阵A中的每一句向量进行更新;句向量cs更新后的向量其中,σi为句向量矩阵A的第i个奇异值,为句向量矩阵A中前m个奇异值中的第j个奇异值的平方,λi为ci的权重,ci为句向量矩阵A的第i个奇异向量,为句向量cs在奇异向量ci上的投影;
7)将科研项目申报书的文本输入Doc2Vec模型,生成所述文本的句向量并将其与步骤6)更新后的对应句向量加权平均,得到所述文本中每一句子对应的句向量。
2.根据权利要求1所述的方法,其特征在于,确定分词w的位置权重的方法为:如果分词w所在句子为所述文本的段落首句或末句,则分词w的位置权重较高,否则分词w的位置权重较低。
3.根据权利要求1或2所述的方法,其特征在于,词权重wgh(w)=tf(w)*(1+tag(w)+pos(w))。
4.根据权利要求1所述的方法,其特征在于,步骤7)中,句子s的句向量其中,φ为加权系数,为Doc2Vec训练生成的句子s的句向量。
5.根据权利要求1所述的方法,其特征在于,词频权重其中,|V|是词典大小,α为需调优的超参数。
6.一种科研立项查重方法,其步骤包括:
1)采用权利要求1所述方法生成待查重科研项目申报书中文本的句向量,并对所生成的句向量进行加和取平均得到该待查重科研项目申报书的语义表征向量;
2)计算该待查重科研项目申报书的语义表征向量与数据库中每一科研项目申报书对应的语义表征向量之间的相似度,如果相似度大于设定阈值,则判定该待查重科研项目申报书为重复申报项目。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210382556.6/1.html,转载请声明来源钻瓜专利网。