[发明专利]一种基于网页正文的人物属性提取方法在审

专利信息
申请号: 202211180208.7 申请日: 2022-09-27
公开(公告)号: CN115525760A 公开(公告)日: 2022-12-27
发明(设计)人: 费高雷;高隽逸;胡光岷 申请(专利权)人: 电子科技大学
主分类号: G06F16/35 分类号: G06F16/35;G06F40/295;G06F40/30;G06F40/211
代理公司: 成都虹盛汇泉专利代理有限公司 51268 代理人: 王伟
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网页 正文 人物属性 提取 方法
【权利要求书】:

1.一种基于网页正文的人物属性提取方法,其特征在于,包括以下步骤:

S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;

S2、根据人物属性,选择包含分类信息的词元属性;

S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;

S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。

2.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。

3.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中,将单词作为分词的粒度。

4.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S2中,分词处理后的正文文本是一个词元序列,分词的最小语义单元即为序列的词元;在人物属性提取任务中,人物属性信息就包含在词元本身的属性以及词元上下文的关系中;使用的词元属性包括以下几种:

1)“text”属性的属性值为词元的原始文本;保留词元的原始文本作为词元属性;在后续特征构建中,对照静态词表,匹配人物属性中高频出现的单词;

2)“lemma”属性是词元的原型,使用“lemma”属性作为词元属性来消除歧义,作为“text”属性的辅助属性进行标注;

3)“shape”属性代表词元的大小写格式;

4)“pos”属性表示词元的词类;

5)“index”是指词元在文本序列中的索引值;

6)“prefix”和“suffix”分别代表词元的前缀和后缀。

5.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S3中的状态特征包括:

1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断;

2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表,使用静态前、后缀表作为特征函数来进行前后缀的选择;

3)“ent”表示词元的命名实体类别,使用命名实体属性来作为特征函数;

转移特征包括:

4)“dep”表示词元的依存关系,该属性反映的是词元在句法和语义上的依存特征;依存句法关系用一棵依存关系树来表示,使用条件依存关系来作为特征函数。

6.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S4中,最大熵算法构建的分类模型是一个条件概率分布P(Y|X),其中,X为样本,Y为人物属性类别;将构建的特征函数f(x,y)作为分布P(Y|X)的约束条件,以寻找满足这些约束条件的分布中,熵最大的分布P(Y|X);其中,特征函数f(x,y)用来描述词元x和类别标注y的关系,定义为:

特征函数反应的是词元在词元本身和上下文中满足的关系;

为了寻找不同的特征函数对于分类的增益程度,考虑特征函数在真实分布和经验分布上的一致性;对于第i个特征函数fi,其关于真实期望的期望值用表示为:

表示(x,y)的真实分布;

第i个特征函数fi关于条件分布和经验分布的模糊期望值EP(fi)有如下表示:

指的是x的真实分布;P(y|x)指的是模型在得到x的输入的情况下,输出y的分布;

在人物属性提取的场景下,特征函数的真实期望和模型期望EP(fi)分别代表该特征函数在真实分布和经验分布上的期望值,假设这两个期望相等;则人物属性提取模型必须满足所有特征等式的约束

为了最小化模型P(Y|X)的熵,首先要计算出满足等式约束的条件熵,其定义如下:

该函数的约束条件为:

M表示特征函数的个数;H(P)代表着满足所有特征函数的人物属性提取模型的熵的负值;H(P)为凸函数,根据凸优化的理论,使用拉格朗日函数将其转化为无约束优化函数求解H(P),得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λi;从语义的角度来看,λi反映的是构造的不同的特征函数fi(x,y)对于分类的增益程度,特征函数对于分类的增益越高,其λi值就越大;至此,得到分布P(y|x)关于一组权值λ的如下表示形式:

其中,Zλ(x)为规范化因子,它确保整个模型是一个合法的概率分布,其定义为:

使用IIS算法来完成模型学习的最优化;通过最小化模型H(P),得到模型的分布函数Pλ(y|x),即完成模型在人物属性提取场景下的构建。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211180208.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top