[发明专利]一种基于多信息源融合的文献关联语义生成方法无效
申请号: | 201110207918.X | 申请日: | 2011-07-25 |
公开(公告)号: | CN102254019A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 魏晓;武伟 | 申请(专利权)人: | 上海应用技术学院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 吴宝根 |
地址: | 200235 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息源 融合 文献 关联 语义 生成 方法 | ||
技术领域
本发明涉及一种信息处理技术,特别涉及一种基于多信息源融合的文献关联语义生成方法。
背景技术
基于购物篮的文献关联语义生成方法,以读者的借阅记录为购物篮,挖掘出关联规则,进而计算出文献的关联度,即关联语义。这种方法优点是能够利用读者的知识发现文献的关联语义,而缺点是对于借阅量不大的文献,由于缺乏数据难以挖掘出有意义的规则。基于文献内容的关联语义生成方法,通过对文献提取关键词,并以向量方式表示文献,以文献向量作为项集挖掘关联规则,进而生成文献的关联语义。这种方法的优点是可以根据文献内容挖掘文献关联语义,缺点是分词及关键词提取的误差会导致关联语义的偏差,语义为静态的,不能反映出文献之间关系的动态变化。
发明内容
本发明针对文献关联语义生成方法的不足,提出了一种基于多信息源融合的文献关联语义生成方法,分别从文献摘要内容、读者借阅记录、网上书店的购物及浏览记录三个数据源生成文献的关联语义,并把这三种来源的文献关联语义进行融合以生成文献的最终关联语义,以获得较为准确的文献关联语义。
本发明的技术方案为:一种基于多信息源融合的文献关联语义生成方法,分别从文献摘要内容、读者借阅记录、网上书店的购物及浏览记录三个数据源生成文献的关联语义,并把这三种来源的文献关联语义进行融合以生成文献的最终关联语义。
所述方法具体包括如下步骤:
一、针对文献摘要内容进行关联语义的生成:
1)对文献摘要内容进行预处理:包括摘要文本的分词及关键词提取处理;
2)将各个文献转换为向量表示: ,其中为表示文献的n个关键词;为n个关键词所对应的权值;全部文献集合的向量表示构成文献向量集合D;
3)基于文献向量集合D挖掘关联规则,表示第i个关键词和第j个关键词之间存在着关联规则:,其强度为。所有关联规则构成关联规则集合R ;
4)基于关联规则集合R,统计两个文献之间的存在的关联规则,并把这些关联规则的强度累加在一起作为两个文献之间的关联强度;
5)采用第4)步的方法计算所有文献之间的关联强度,对得到的所有关联强度进行归一化操作;
6)将获得的全部文献的关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度;
二、针对读者借阅记录进行关联语义的生成:
a)对读者进行分类操作,将具有相同的知识背景的读者归为一个虚拟读者VR,主要用于解决大部分读者的借阅量太少导致挖掘不出有用的规则的实际问题;
b)将VR所对应的真实读者的借阅记录合并在一起,作为VR的借阅记录;
c)以VR的借阅记录集合作为事务,以借阅记录作为项集,挖掘文献之间的关联规则,并计算关联强度,并进行归一化处理;
d)所获得的全部文献的关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度。
三、针对网上书店的购物及浏览记录进行关联语义的生成:
A)采用网页内容分析的方法获取网上书店的图书关联信息,具体为网上书店提供的推荐信息,如“购买了该图书的读者中有x%还购买了以下图书,浏览了该图书的读者中的y%还浏览了以下图书”。某一对图书的关联语义强度为,公式中x和y的系数不同是考虑到同时购买要比同时浏览对关联语义强度的贡献更大;
B)对当前互联网上最大的几个网上书店分别采用第A)步的方法进行图书购买关联信息采集,从不同网站所得到的关于同一对图书的关联语义强度分别为;
C)对上一步得到关联语义进行合并,合并的原则为:不重复的关联信息直接并在一起,不重复指只在一个网站上挖掘到了某一对图书之间的关联语义;重复的关联语义取平均值作为最终的关联语义强度,,重复指在两个以上的网站都得到了某一对图书之间的关联语义;
D)所获得的全部文献关联语义用矩阵表示为:
,其中wij表示第i个文献和第j个文献的关联强度。
四、将前面三种信息来源的文献关联语义融合得到最终文献关联语义:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海应用技术学院,未经上海应用技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110207918.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种惯性测量单元外壳结构的优化设计方法
- 下一篇:一种数据统计方法及装置