[发明专利]一种基于动词的中文文本相似度计算方法在审
申请号: | 202010450674.7 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111814456A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 陈凯玲;顾闻;史松峰;韩东;徐雪莲 | 申请(专利权)人: | 国网上海市电力公司 |
主分类号: | G06F40/247 | 分类号: | G06F40/247;G06F40/253;G06F40/289;G06F40/30;G06Q50/18 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 杨宏泰 |
地址: | 200122 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动词 中文 文本 相似 计算方法 | ||
1.一种基于动词的中文文本相似度计算方法,其特征在于,包括以下步骤:
S1:获取需要进行相似度计算的第一文本和第二文本,并进行预处理;
S2:分别对预处理完成的第一文本和第二文本的提取动词序列;
S3:基于动词序列计算第一文本与第二文本的语法相似度f1;
S4:基于预处理完成的第一文本和第二文本,计算两文本的语义相似度f2;
S5:结合语法相似度和语义相似度计算第一文本和第二文本的文本间相似度f。
2.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的预处理具体包括:
对第一文本和第二文本进行分词,并去除停用词。
3.根据权利要求1所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S3具体包括:
S31:将第一文本和第二文本的动词序列分别作为第一文本特征字符串和第二文本特征字符串;
S32:获取第一文本特征字符串到第二文本特征字符串的公共子串个数,记为第一公共子串个数;
S33:获取第二文本特征字符串到第一文本特征字符串的公共子串个数,记为第二公共子串个数;
S34:选取第一公共子串个数和第二公共子串个数中最大公共子串个数,作为实际公共子串个数;
S35:利用实际公共子串个数,计算第一文本与第二文本的语法相似度f1。
4.根据权利要求3所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的语法相似度f1的计算公式为:
其中,c为实际公共子串个数,a为第一文本的动词序列中动词的个数,b为第二文本的动词序列中动词的个数。
5.根据权利要求4所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的步骤S4具体包括:
S41:基于语义向量空间模型,构建语义主题空间P中的特征项向量表;
S42:分别提取第一文本和第二文本中所有的特征项,得到第一文本特征项集合和第二文本特征项集合;
S43:分别统计第一文本特征项集合和第二文本特征项集合中各特征项的出现次数;
S44:利用特征项向量表,获取第一文本特征项集合和第二文本特征项集合中各特征项对应的特征项向量;
S45:根据特征项向量,计算第一文本对应的特征向量和第二文本对应的特征向量,并分别做标准化处理,得到第一文本特征向量和第二文本特征向量;
S46:根据第一文本特征向量和第二文本特征向量,计算第一文本和第二文本的语义相似度f2。
6.根据权利要求5所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的第一文本对应的特征向量的计算式为:
其中,fi,k为第一文本特征项集合中第k个特征项出现的次数,n为第一文本中所有特征项的个数,为第一文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量;
所述的第二文本对应的特征向量的计算式为:
其中,fj,k为第二文本特征项集合中第k个特征项出现的次数,m为第二文本中所有特征项的个数,第二文本特征项集合中第k个特征项在语义主题空间P中对应的特征项向量。
7.根据权利要求6所述的一种基于动词的中文文本相似度计算方法,其特征在于,所述的语义相似度f2的计算式为:
其中,为第一文本特征向量,为第二文本特征向量,wi,j为第一文本特征向量与第二文本特征向量之间的夹角。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网上海市电力公司,未经国网上海市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010450674.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电热圈外壳宽度可调式自动渐折卷圆一体设备
- 下一篇:保护器件及其制备方法