[发明专利]索引用于文件检索的文件的方法及装置有效

专利信息
申请号: 201280024604.9 申请日: 2012-03-28
公开(公告)号: CN103548015B 公开(公告)日: 2017-05-17
发明(设计)人: 黄建霖;马斌;李海州 申请(专利权)人: 新加坡科技研究局
主分类号: G06F17/20 分类号: G06F17/20;G06F17/30;G10L15/26
代理公司: 北京英赛嘉华知识产权代理有限责任公司11204 代理人: 余朦,王艳春
地址: 新加坡*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 用于 文件 检索 方法 装置 计算机 可读 媒介
【权利要求书】:

1.索引用于文件检索的文件的方法,包括:

产生文件向量,所述文件向量指示多个术语中的每个是否存在于所述文件中;

使用所述文件向量和语义关系矩阵计算文件语义推断向量,所述文件语义推断向量用于所述文件中存在的所述多个术语中的一个或多个,所述语义关系矩阵辨别所述多个术语中不同术语之间的语义关系;以及

使用基于每个文件语义推断向量计算的文件语义背景推断向量,索引所述文件,

其中,所述语义关系矩阵通过以下步骤产生:

使用多个文件产生术语-文件矩阵,所述术语-文件矩阵辨别所述多个术语中的每个是否存在于所述多个文件的每个中;以及,

通过执行所述术语-文件矩阵的奇异值分解产生术语-术语矩阵,所述术语-术语矩阵为所述语义关系矩阵。

2.根据权利要求1所述的方法,其中,使用所述文件向量和语义关系矩阵计算文件语义推断向量,以用于所述文件中存在的所述多个术语中的每个。

3.根据权利要求2所述的方法,其中,通过将所述文件语义推断向量加起来,计算所述文件语义背景推断向量。

4.根据权利要求1所述的方法,其中,对所述术语-文件矩阵应用术语加权方案,以抑制噪音术语。

5.根据权利要求4所述的方法,其中,根据以下表达式应用所述术语加权方案:

<mrow><msubsup><mi>a</mi><mi>k</mi><mi>d</mi></msubsup><mo>=</mo><mfrac><mrow><mi>t</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>k</mi></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow><msub><mi>n</mi><mi>d</mi></msub></mfrac><mo>&times;</mo><mi>l</mi><mi>o</mi><mi>g</mi><mrow><mo>(</mo><mfrac><mi>D</mi><mrow><mi>d</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>k</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>1</mn></mrow></mfrac><mo>)</mo></mrow></mrow>

<mrow><msub><mi>n</mi><mi>d</mi></msub><mo>=</mo><munder><mo>&Sigma;</mo><mi>k</mi></munder><mi>t</mi><mi>f</mi><mrow><mo>(</mo><msub><mi>a</mi><mi>k</mi></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow>

其中为所述术语-文件矩阵W的被加权术语;D表示所述多个文件中文件的总数;K为所述多个术语中术语的数目;tf(ak,d)表示术语在文件d中出现的次数;df(ak)是所述术语至少出现一次的文件的数目。

6.根据权利要求1至5中任一项所述的方法,其中,根据以下表达式执行所述术语-术语矩阵:

<mrow><mover><mi>W</mi><mo>^</mo></mover><mo>=</mo><msup><mi>WW</mi><mi>T</mi></msup></mrow>

其中为所述术语-术语矩阵;W为所述术语-文件矩阵;以及T表示矩阵转置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡科技研究局,未经新加坡科技研究局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280024604.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top