[发明专利]一种基于通用百科网站的领域百科构建系统有效
申请号: | 201410723613.8 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104408148B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 覃华峥;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通用 百科 网站 领域 构建 系统 | ||
1.一种基于通用百科网站的领域百科构建系统,其特征在于由四大模块组成:百科数据爬取模块、百科数据预处理模块、相关实体搜索及排序模块、实体聚类模块;其中:
百科数据爬取模块,利用分布式网络爬虫将海量在线百科数据爬取到本地;
百科数据预处理模块,对网络爬虫所爬取到的页面预处理;所述预处理依次包括去噪、文字区域提取、分词及词频处理统计和构建索引这几个步骤;
相关实体搜索及排序模块,在预处理后的页面中搜索和一个领域相关的实体并按相关度排序;
实体聚类模块,根据相关实体搜索及排序模块结果,聚类同一个领域下的相似实体;其中:
所述百科数据预处理模块由去噪子模块、文字区域提取子模块、分词及词频统计子模块和索引构建子模块构成;其中:
所述去噪子模块,利用正则表达式匹配爬取到的百科原始页面中的噪声,并将噪声去除;所述噪声包括各种html标签,标点符号和乱码;
所述文字区域提取子模块,利用正则表达式将百科原始页面中的各个区域文字分开提取;页面中的各个区域包括标题、摘要、属性框、正文和分类信息;
所述分词及词频统计子模块,依次进行如下工作:
A)利用文字区域提取子模块中提取到的百科实体集合作为分词时的词典,采用逆向最大匹配算法对提取出的纯文本进行分词;
B)对一个页面的分词完成后,对各区域进行词频统计;
所述索引构建子模块,利用分词结果对百科页面构建倒排索引;
所述相关实体搜索及排序模块包含以下四个子模块:
(1)搜索候选实体子模块,该子模块搜索包含领域实体或者领域实体的同义实体的页面;
(2)相关性度量子模块,该模块综合了来度量两个实体的相关性的特征,为每个候选实体计算特征值,然后用logistic形式的函数整合特征值得到候选实体与查询实体的相关性;
(3)参数训练子模块,该子模块依次进行如下工作:
a)通过网络爬虫在互联网搜索引擎中爬取一个查询实体与其候选实体
的共现情况,通过计算PMI值确定相关性,以此来作为训练相关性度量函数中参数的训练集;
b)将(a)中所涉及到的候选实体提取特征,供训练时计算使用;
c)读取训练数据,通过基于学习排序的方法训练出参数,即通过一些已有的实体之间相关性的数据,去学习出如何给别的实体进行相关度排序;
(4)实体相关度排序子模块,该模块根据上面参数训练子模块中训练出的相关度函数的参数,确定候选实体与查询实体的相关性,并按相关性从大到小排序。
2.根据权利要求1所述的基于通用百科网站的领域百科构建系统,其特征在于,所述实体聚类模块包含相似性度量子模块、实体相似性约束构建子模块以及半监督聚类子模块组成;其中:
所述相似性度量子模块,依次进行如下工作:
a)将从实体页面中提取到的分类信息进行分解,使得一些原来不能被精确匹配的分类信息被近似匹配,而不是完全无法匹配,充分利用了实体分类信息;
b)在原始页面中抽取对应实体的IsA模式,将抽取到的模式中描述实体类别的关键字用于扩充实体原有的分类信息,使得实体的分类信息尽可能的详细,有助于提高分类效果;
c)将上述的分类信息按关键字出现频率构成一个向量,通过计算该向量的余弦相似度来度量两实体之间的相似性;
所述实体相似性约束构建子模块,依次进行如下工作:
a)利用Washall算法从人工给出的约束中计算传递闭包,得到所有must-link的实体对;
b)从人工给出的约束中计算所有cannot-link实体对;
所述半监督聚类子模块,以最小化违背约束的代价为原则,将实体聚类;该子模块按参数训练子模块中所得到的实体相关度排序结果,按相关度从高到低将实体聚类,有利于形成初始的高质量簇;该子模块依次进行如下工作:
a)从约束集中读取约束,并根据约束形成初始的类簇;
b)根据实体相关度排序结果,按相关度从高到低将读入实体,将实体聚类,将实体聚到这样一个类中,使得聚到该类后,比聚到其它类的代价要小;
c)重新把实体聚类,即将一个实体先从当前的类中排除,然后将它归到当前情况下,所造成代价最小的那个类中;
d)重复c)一定次数得到最终聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410723613.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种废料周转箱的框架
- 下一篇:一种卡尺存放盒