[发明专利]一种基于网页正文的人物属性提取方法在审

专利信息
申请号: 202211180208.7 申请日: 2022-09-27
公开(公告)号: CN115525760A 公开(公告)日: 2022-12-27
发明(设计)人: 费高雷;高隽逸;胡光岷 申请(专利权)人: 电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06F40/30;G06F40/211
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网页 正文 人物属性 提取 方法
【说明书】:

发明公开了一种基于网页正文的人物属性提取方法,包括以下步骤:S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;S2、根据人物属性,选择包含分类信息的词元属性;S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。本发明在复杂网络环境中,获取感兴趣的目标人物的网页的正文,通过合理地选取和构造特征,使用最大熵算法实现了在复杂网络环境中提取人物特征的方法。

技术领域

本发明涉及人物属性提取,特别是基于网页正文的人物属性提取方法。

背景技术

随着互联网的普及和快速发展,互联网技术的日益成熟以及人们的需求日益多元化使得互联网服务呈现出了专业细分的趋势并在吸引了数量庞大的互联网用户,各式各样的互联网服务还承载了海量的用户数据,这样的数据往往是碎片化的,根据网络平台的不同,其数据格式也存在差异,但相当一部分的信息都以文本的形式存在于网络中。

网页正文中的人物属性提取问题,目的为在网络中检索人物相关文档,并从文档中提取人物属性。现有的基于网页正文的人物属性提取研究已形成数种方法,但依旧存在一些局限性。一方面,在根据目的人物属性寻找可能包含信息的词法、句法特征时,现有方法通常只依据词性、词元位置等单一信息来提取人物的属性,没有充分利用网页文本中的高级特征和一些上下文特征等,导致人物信息缺失;另一方面,在文本处理模型的选择上,通常都是使用条件随机场等判别式模型,而很少考虑模型在样本整体上的信息。

基于网页正文的人物属性抽取的目标是从网页中获取特定实体的属性信息,而网页中的人物属性大多以文本形式存在,在提取正文既定的前提下,可将问题转化为从文本数据中提取特定实体的属性信息,比如实体的姓名、国籍、职位等。通过对于特定人物实体的属性抽取,获取多个数据源的实体属性,就可以通过处理这些属性信息来完成人物画像的构建。当今常用的属性抽取模型主要分两种:基于序列标注的方法和基于HTML网页的方法。

1、基于序列标注的属性提取方法

对于文本数据,人物属性问题可以转换为序列标注问题。文本数据可以看作是一个线性序列,而文本数据中的词元即对应序列中的元素,每一个词元的属性信息对应序列标签和属性值,最后使用序列标注模型进行训练和抽取。将属性抽取看作序列标注问题,可以采用BIO、BIOE等标注方法。标注需要花费一定的人工成本,在人物属性的抽取的场景下,可以使用百度百科等百科词条的结构化信息框进行标注,可以降低一定的人工标注成本;同时,标注时也可以使用Bootstrap方法由种子发现更多潜在属性值。

序列标注常使用的模型有CRF模型、神经网络模型如BiGRU+CRF模型等。近年来,预训练语言模型在自然语言处理中得到了较为广泛的应用,在基于序列标注的属性抽取中,依然可以使用bert等预训练语言模型进行特征抽取,经典模型框架为bert+BiLSTM+CRF模型。由于属性值的内容和形式多种多样,对于字数较长的描述性属性,往往不能取得理想的效果;对于序列的标注,常会耗费大量的人工成本,降低了模型的扩展性,并无法解决多属性值问题;对于序列标注的属性选择,现有方法一般从词法角度只考虑词元的词性、前后缀等初级特征,对于一些信息比较明显的高级特征考虑较少,而从句法角度考虑词元直接位置上的上下文特征对于词元在语义上的信息反映不完全。

2、基于HTML网页的属性提取方法

网络中每个网页都基于HTML规范,从代码结构上看,网页你内容都是以DOM树呈现的。DOM(文档对象模型)构成的基本要素是“节点”,而网页的结构就是由层次化的节点组成。在DOM模型中,整个网页文档就是一个文档(Document)节点,每个文档节点都拥有一个根(Root)节点,根节点下则含有众多功能不同的节点,而节点互相之间存在父子、兄弟等层级关系。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211180208.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top