[发明专利]一种基于多信息源融合的文献关联语义生成方法无效
申请号: | 201110207918.X | 申请日: | 2011-07-25 |
公开(公告)号: | CN102254019A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 魏晓;武伟 | 申请(专利权)人: | 上海应用技术学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 吴宝根 |
地址: | 200235 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息源 融合 文献 关联 语义 生成 方法 | ||
1.一种基于多信息源融合的文献关联语义生成方法,其特征在于,分别从文献摘要内容、读者借阅记录、网上书店的购物及浏览记录三个数据源生成文献的关联语义,并把这三种来源的文献关联语义进行融合以生成文献的最终关联语义。
2.根据权利要求1所述基于多信息源融合的文献关联语义生成方法,其特征在于,所述方法具体包括如下步骤;
一、针对文献摘要内容进行关联语义的生成:
1)对文献摘要内容进行预处理:包括摘要文本的分词及关键词提取处理;
2)将各个文献转换为向量表示: ,其中为表示文献的n个关键词;为n个关键词所对应的权值;全部文献集合的向量表示构成文献向量集合D;
3)基于文献向量集合D挖掘关联规则,表示第i个关键词和第j个关键词之间存在着关联规则:,其强度为;所有关联规则构成关联规则集合R ;
4)基于关联规则集合R,统计两个文献之间的存在的关联规则,并把这些关联规则的强度累加在一起作为两个文献之间的关联强度;
5)采用第4)步的方法计算所有文献之间的关联强度,对得到的所有关联强度进行归一化操作;
6)将获得的全部文献的关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度;
二、针对读者借阅记录进行关联语义的生成:
a)对读者进行分类操作,将具有相同的知识背景的读者归为一个虚拟读者VR,主要用于解决大部分读者的借阅量太少导致挖掘不出有用的规则的实际问题;
b)将VR所对应的真实读者的借阅记录合并在一起,作为VR的借阅记录;
c)以VR的借阅记录集合作为事务,以借阅记录作为项集,挖掘文献之间的关联规则,并计算关联强度,并进行归一化处理;
d)所获得的全部文献的关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度;
三、针对网上书店的购物及浏览记录进行关联语义的生成:
A)采用网页内容分析的方法获取网上书店的图书关联信息,具体为网上书店提供的推荐信息,如“购买了该图书的读者中有x%还购买了以下图书,浏览了该图书的读者中的y%还浏览了以下图书”;某一对图书的关联语义强度为,公式中x和y的系数不同是考虑到同时购买要比同时浏览对关联语义强度的贡献更大;
B)对当前互联网上最大的几个网上书店分别采用第A)步的方法进行图书购买关联信息采集,从不同网站所得到的关于同一对图书的关联语义强度分别为;
C)对上一步得到关联语义进行合并,合并的原则为:不重复的关联信息直接并在一起,不重复指只在一个网站上挖掘到了某一对图书之间的关联语义;重复的关联语义取平均值作为最终的关联语义强度,,重复指在两个以上的网站都得到了某一对图书之间的关联语义;
D)所获得的全部文献关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度;
四、将前面三种信息来源的文献关联语义融合得到最终文献关联语义:
Ⅰ)对三种信息源的矩阵W1,W2,W3进行维数统一操作,使三个矩阵中元素wij代表的含义相同;
Ⅱ)采用矩阵融合加运算实现多源文献关联语义融合,即;
Ⅲ)矩阵融合加运算的定义为:
Ⅳ)融合后获得的全部文献关联语义用矩阵表示为:
,其中wij表示第i和第j个文献的关联语义强度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术学院,未经上海应用技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110207918.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种惯性测量单元外壳结构的优化设计方法
- 下一篇:一种数据统计方法及装置