[发明专利]基于同义词和反义词的中文标签推荐修正方法有效
申请号: | 201711055214.9 | 申请日: | 2017-10-31 |
公开(公告)号: | CN107704632B | 公开(公告)日: | 2018-12-14 |
发明(设计)人: | 刘元珍;韩立新;杨忆;勾智楠 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 母秋松;董建林 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 同义词 反义词 中文 标签 推荐 修正 方法 | ||
1.一种基于同义词和反义词的中文标签推荐修正方法,其特征在于:包括如下步骤:
步骤1:获得用户、资源、标签的中文数据集,用张量分解的方法计算得到用户给资源打的标签,将这些标签按概率由大到小排序,得到有序推荐标签列表;
步骤2:对上述由张量分解方法获得的有序推荐标签列表,选取前N+K个概率最大的标签作为候选标签队列,其中,N为计划向用户推荐的标签的数量,K为候补推荐标签的调整个数,若推荐标签列表中标签个数小于N+K,则有序推荐标签列表中标签全部选取作为候选标签队列;
步骤3:将候选标签队列的N+K个标签两两配对,通过中文同义词和反义词判别方法得到语义冗余重复的同义词标签对和语义冲突的反义词标签对;
步骤4:得到同义词标签对和反义词标签对后,首先处理同义词标签对,若同义词标签对为空,则直接跳到步骤5;挑选出所有的同义词标签对,将每对标签对中的第二个标签移出候选标签队列,其它的标签顺次前移,保持移出的标签间相对前后顺序不变,将移出标签按序排列在整个候选标签队列的队尾;若同义词标签对的组成大于两个词即三个或三个以上的标签组成同义词词对,则将除第一个标签外的同义标签都移出队列,并将移出标签一起按序排列在队尾;
步骤5:处理反义词标签对,若反义词标签对为空,则直接跳转到步骤6;从推荐标签列表中移出所有的反义词标签对,将排在后面的标签顺次向前移动,移出的反义词标签对按先前的相对前后顺序排列在推荐标签列表的队尾;
步骤6:将最终获得的候选标签队列的前N个标签推荐给用户;
所述步骤1具体步骤如下:
步骤1.1:将用户、资源、标签的中文数据集的数据用三元组集合{u,i,t}的形式表示,其中,u表示用户user,i表示item即要标注的对象,称为资源,t表示标签tag,然后以张量为模型呈现三元组集合{u,i,t},即以三元组集合{u,i,t}构造初始张量A,对张量A进行n-模矩阵展开,生成3个新的矩阵A1、A2、A3,然后分别在矩阵A1、A2、A3上进行二维矩阵奇异值分解SVD计算,得到3个对应的左奇异矩阵,求解其降秩后的维度参数,再根据维度参数求解3个左奇异矩阵的近似矩阵;根据近似矩阵构造核心张量S的近似张量根据近似张量求得张量A的近似张量
步骤1.2:张量分解方法是在三维张量上应用HOSVD方法,既能降低张量的维度,又能实现三种类型实体之间潜在的语义分析;近似张量预测用户、资源、标签间的协同关联;近似张量中的元素由四元组{u,i,t,p}表示,其中p表示用户u给资源i打标签t的概率,也称关联权重;
步骤1.3:对所有未在最初的用户、资源、标签的中文数据集中出现的用户-资源{u,i}对,按概率p从大到小的顺序对近似张量中的元素{u,i,t,p}进行排序,得到标签t的有序列表即为有序推荐标签列表;若在初始数据中未出现用户-资源{u,i}对,说明用户u未对资源i标注过标签,则标签推荐系统可以针对资源i向用户u推荐标签t,推荐的概率为p,最终是否推荐标签t则由概率p的大小决定,p越大,被推荐的概率越大。
2.根据权利要求1所述的基于同义词和反义词的中文标签推荐修正方法,其特征在于:所述步骤3中同义词判别方法如下:
步骤3.1.1:首先基于中文语义词典《同义词词林》判断是否为同义词词对:查中文语义词典《同义词词林》,获得标签在词林中的编码,判断词林编码是否相同,相同则相似度为1;词林编码位的第8位即最后一位的标记有三种,分别是“=”、“#”、“@”;“=”代表“相等”、“同义”;“#”代表“不等”、“同类”,属于相关词语;“@”代表“自我封闭”、“独立”,表示词典中既没有同义词,也没有相关词;如果编码相同且编码位的第8位为“=”时,标记标签对为同义词标签对;
步骤3.1.2:在《同义词词林》查询不到标签对时,检索从网上搜集下载整理得到的同义词词表,判断是否是同义词词对;
步骤3.1.3:以上两种方法都查询不到标签对时,解析查询词对应的百科网页来判断,实体的不同叫法,如别称、昵称、简称都认为是与其等价的同义词;
步骤3.1.4:通过以上方法仍不能确定是同义词的则不按同义词标签对处理。
3.根据权利要求1所述的基于同义词和反义词的中文标签推荐修正方法,其特征在于:步骤3中反义词判别方法如下:
从网上搜集下载并整理得到反义词词表,基于反义词词表判断是否为反义词词对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711055214.9/1.html,转载请声明来源钻瓜专利网。