[发明专利]基于点互信息的文本语义相似性度量方法有效
申请号: | 201910081764.0 | 申请日: | 2019-01-28 |
公开(公告)号: | CN109840325B | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 牛奉高;赵霞 | 申请(专利权)人: | 山西大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/194;G06F16/33;G06F16/35 |
代理公司: | 太原申立德知识产权代理事务所(特殊普通合伙) 14115 | 代理人: | 程园园 |
地址: | 030006 山*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互信 文本 语义 相似性 度量 方法 | ||
1.基于点互信息的文本语义相似性度量方法,其特征在于:包括以下步骤:
步骤1:根据收集到的文献数据,提取文献所含关键词;
步骤2:统计关键词词频,并以关键词词频为主要关键字进行降序排列;
步骤3:由词频统计表生成文献-关键词矩阵A=(aij)n×m,即篇词矩阵,用来表现文献和关键词之间的关系;矩阵的行向量表示文献,共有n篇,列向量表示关键词,共有m个,矩阵中元素aij的取值表示关键词j是否在第i篇文献中出现,出现值为1,否则为0,即篇词矩阵中的元素非0即1,为布尔权重;
步骤4:由篇词矩阵生成关键词-关键词矩阵D=ATA,即共现矩阵,用来表现两两关键词共同出现的情况;其中,当i≠j时,dij为第i个关键词与第j个关键词的共现频次,当i=j时,dii为第i个关键词的总频次;
步骤5:由点互信息的定义式和共现矩阵中关键词间的共现频次数据来度量任意两个关键词间的点互信息PMI;设有关键词x和y,则两关键词间的点互息PMI(x,y)为:
式中P(x,y)表示关键词x和y共同出现的概率,p(x),p(y)分别表示关键词x和y单独出现的概率,n表示两关键词共同出现的频次,N表示所收集文献中关键词的总个数,X和Y分别表示关键词x和y单独出现的频次;
步骤6:在计算出关键词间点互信息PMI(x,y)之后,构建一个与这两个关键词共同共现的关键词共现向量C;
步骤7:利用关键词共现向量,计算两个关键词间的潜在语义相似度:
其中向量C为上述构建的关键词共现向量,w为关键词共现向量中的元素,即与关键词x和y共同共现的关键词;
步骤8:构建语义增强的共现潜在语义向量空间模型:
其中,新模型各维的权重值为:
式中,ait表示第i篇文献中第t个关键词的布尔权重,Reljt表示第j,t个关键词间的语义相似度;
至此完成了点互信息的文本语义相似度处理。
2.根据权利要求1所述的基于点互信息的文本语义相似性度量方法,其特征在于:所述步骤1中根据收集到的文献数据,提取文献所含关键词,具体为:将收集到的文献数据为经过预处理,去除文献中的非关键词,提取含关键词的文献。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西大学,未经山西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910081764.0/1.html,转载请声明来源钻瓜专利网。