[发明专利]一种基于通用百科网站的领域百科构建系统有效
申请号: | 201410723613.8 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104408148B | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 覃华峥;肖仰华;汪卫 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,王洁平 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于开放知识抽取技术领域,具体为一种基于通用百科网站的领域百科构建系统。该系统分为以下几个模块百科数据爬取模块,百科数据预处理模块,相关实体搜索及排序模块和实体聚类模块。本发明的有益效果在于领域百科的构建目前大多为手工构建,费时费力,且人工不可能发现所有相关实体,因此覆盖率低;而以本发明找出的领域相关实体为基础建立领域百科,能极大地减少领域百科的构建的人力,并大幅提升覆盖率。同时,利用本发明系统所构建出的领域百科,将极大地方便用户获取特定领域的知识,省去了繁琐地搜索及筛选过程,把“用户被动地搜索信息”变成了“系统主动地提供信息”。 | ||
搜索关键词: | 一种 基于 通用 百科 网站 领域 构建 系统 | ||
【主权项】:
一种基于通用百科网站的领域百科构建系统,其特征在于由四大模块组成:百科数据爬取模块、百科数据预处理模块、相关实体搜索及排序模块、实体聚类模块;其中:百科数据爬取模块,利用分布式网络爬虫将海量在线百科数据爬取到本地;百科数据预处理模块,对网络爬虫所爬取到的页面预处理;所述预处理依次包括去噪、文字区域提取、分词及词频处理统计和构建索引这几个步骤;相关实体搜索及排序模块,在预处理后的页面中搜索和一个领域相关的实体并按相关度排序;实体聚类模块,根据相关实体搜索及排序模块结果,聚类同一个领域下的相似实体;其中:所述百科数据预处理模块由去噪子模块、文字区域提取子模块、分词及词频统计子模块和索引构建子模块构成;其中:所述去噪子模块,利用正则表达式匹配爬取到的百科原始页面中的噪声,并将噪声去除;所述噪声包括各种html标签,标点符号和乱码;所述文字区域提取子模块,利用正则表达式将百科原始页面中的各个区域文字分开提取;页面中的各个区域包括标题、摘要、属性框、正文和分类信息;所述分词及词频统计子模块,依次进行如下工作:A)利用文字区域提取子模块中提取到的百科实体集合作为分词时的词典,采用逆向最大匹配算法对提取出的纯文本进行分词;B)对一个页面的分词完成后,对各区域进行词频统计;所述索引构建子模块,利用分词结果对百科页面构建倒排索引;所述相关实体搜索及排序模块包含以下四个子模块:(1)搜索候选实体子模块,该子模块搜索包含领域实体或者领域实体的同义实体的页面;(2)相关性度量子模块,该模块综合了来度量两个实体的相关性的特征,为每个候选实体计算特征值,然后用logistic形式的函数整合特征值得到候选实体与查询实体的相关性;(3)参数训练子模块,该子模块依次进行如下工作:a)通过网络爬虫在互联网搜索引擎中爬取一个查询实体与其候选实体的共现情况,通过计算PMI值确定相关性,以此来作为训练相关性度量函数中参数的训练集;b)将(a)中所涉及到的候选实体提取特征,供训练时计算使用;c)读取训练数据,通过基于学习排序的方法训练出参数,即通过一些已有的实体之间相关性的数据,去学习出如何给别的实体进行相关度排序;(4)实体相关度排序子模块,该模块根据上面参数训练子模块中训练出的相关度函数的参数,确定候选实体与查询实体的相关性,并按相关性从大到小排序。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410723613.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种废料周转箱的框架
- 下一篇:一种卡尺存放盒