[发明专利]关联词典构建方法和装置有效
申请号: | 201310565554.1 | 申请日: | 2013-11-13 |
公开(公告)号: | CN103605712A | 公开(公告)日: | 2014-02-26 |
发明(设计)人: | 田晋坤 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/28 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬 |
地址: | 100044 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关联 词典 构建 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其涉及关联词典构建方法和装置。
背景技术
关联词典是信息检索中常用的辅助工具。检索模型通过关联词典将文档的索引术语和用户的查询术语进行扩展,来实现对检索性能的提高。因此,建立高质量的关联词典对检索效果的提升有十分重要的意义。
现有的关联词典构建方法中,路径频率-反向链接频率(Path frequency-inversed backward link frequency,PF-IBF)算法能够快速的搜集关联术语,并计算出关联术语之间的关联度参数,被认为是构建关联词典的较优的算法。但是,因为路径频率-反向链接频率算法进行术语挖掘的数据源范围较小,并且不对原有的术语进行扩充,因此,采用路径频率-反向链接频率算法获得的关联词典的数据量十分有限。
发明内容
有鉴于此,本发明提出一种关联词典构建方法和装置,以增加关联词典中的数据量。
第一方面,本发明实施例提供了一种关联词典构建方法,所述方法包括:
从网络词典网页上获取源术语集合和目标术语集合;
根据源术语与目标术语在所述网络词典网页上共同出现的情况构建初始直接关联矩阵;
对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵;
对扩展后的关联矩阵进行幂运算,得到不同幂次的间接关联矩阵;
对不同幂次的间接关联矩阵进行加权平均,得到表示不同术语之间的关联度的关联矩阵。
第二方面,本发明实施例提供了一种关联词典构建装置,所述装置包括:
术语集合获取模块,用于从网络词典网页上获取源术语集合和目标术语集合;
初始直接关联矩阵构建模块,用于根据源术语与目标术语在所述网络词典网页上共同出现的情况构建初始直接关联矩阵;
术语集合扩充模块,用于对所述源术语集合和目标术语集合进行扩充,使得扩充后的关联矩阵为方阵;
间接关联矩阵获取模块,用于对扩展后的关联矩阵进行幂运算,得到不同幂次的间接关联矩阵;
关联矩阵计算模块,用于对不同幂次的间接关联矩阵进行加权平均,得到表示不同术语之间的关联度的关联矩阵。
本发明实施例提供的关联词典构建方法和装置,通过从网络词典网页获取术语集合,对术语集合进行扩充,并根据扩充后的术语集合计算术语间的关联矩阵,完成了对关联术语之间的关联度的计算,增加了关联词典中的数据量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明第一实施例提供的关联词典构建方法的流程图;
图2是本发明第一实施例提供的术语集合扩充前后的术语集合和关联矩阵比较示意图;
图3是本发明第一实施例提供的关联词典构建方法中的初始直接关联矩阵构建的流程图;
图4是本发明第一实施例提供的关联词典构建方法中的术语集合扩充的流程图;
图5是本发明第二实施例提供的关联词典构建方法中的术语集合扩充的流程图;
图6是本发明第三实施例提供的关联词典构建方法的流程图;
图7是本发明第三实施例提供的关联词典构建装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
图1至图4示出了本发明的第一实施例。
图1是本发明第一实施例提供的关联词典构建方法的流程图。参见图1,所述关联词典构建方法包括:
步骤S110,从网络词典网页上获取源术语集合和目标术语集合。
关联词典是由相互之间具有关联关系的术语及它们之间的关联关系构成的数据集合。每个关联关系涉及两个术语,即所述关联关系的指出术语,以及所述关联关系的指入术语。在本发明中,所述关联关系的指出术语被称为源术语,而所述关联关系的指入术语被称为目标术语。
所述源术语集合是用于构建关联词典的源术语组成的集合,而目标术语集合是用于构建关联词典的目标术语组成的集合。
所述网络词典网页是互联网上各种网络词典的网页,包括维基百科的网页、百度百科的网页。由于这些网络词典中的词条经过了专业人员的加工,具有一定的代表性,因此,将这些网络词典的网页作为构建关联词典的数据源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310565554.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多重保护的紧急切断阀
- 下一篇:一种带轮