[发明专利]一种基于网页正文的人物属性提取方法在审
申请号: | 202211180208.7 | 申请日: | 2022-09-27 |
公开(公告)号: | CN115525760A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 费高雷;高隽逸;胡光岷 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06F40/211 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 正文 人物属性 提取 方法 | ||
1.一种基于网页正文的人物属性提取方法,其特征在于,包括以下步骤:
S1、获取目标人物的相关网页,从网页中提取出包含人物属性信息的正文文本,并对正文文本进行文本分词;
S2、根据人物属性,选择包含分类信息的词元属性;
S3、构建特征:使用命名实体、依存关系作为额外的词元标注,并构建基于静态词表的状态特征,同时使用依存句法树的上下文关系来构建转移特征;
S4、将状态特征和转移特征作为最大熵算法的约束,训练分类模型。
2.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。
3.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S1中,将单词作为分词的粒度。
4.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S2中,分词处理后的正文文本是一个词元序列,分词的最小语义单元即为序列的词元;在人物属性提取任务中,人物属性信息就包含在词元本身的属性以及词元上下文的关系中;使用的词元属性包括以下几种:
1)“text”属性的属性值为词元的原始文本;保留词元的原始文本作为词元属性;在后续特征构建中,对照静态词表,匹配人物属性中高频出现的单词;
2)“lemma”属性是词元的原型,使用“lemma”属性作为词元属性来消除歧义,作为“text”属性的辅助属性进行标注;
3)“shape”属性代表词元的大小写格式;
4)“pos”属性表示词元的词类;
5)“index”是指词元在文本序列中的索引值;
6)“prefix”和“suffix”分别代表词元的前缀和后缀。
5.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S3中的状态特征包括:
1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断;
2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表,使用静态前、后缀表作为特征函数来进行前后缀的选择;
3)“ent”表示词元的命名实体类别,使用命名实体属性来作为特征函数;
转移特征包括:
4)“dep”表示词元的依存关系,该属性反映的是词元在句法和语义上的依存特征;依存句法关系用一棵依存关系树来表示,使用条件依存关系来作为特征函数。
6.根据权利要求1所述的一种基于网页正文的人物属性提取方法,其特征在于,所述步骤S4中,最大熵算法构建的分类模型是一个条件概率分布P(Y|X),其中,X为样本,Y为人物属性类别;将构建的特征函数f(x,y)作为分布P(Y|X)的约束条件,以寻找满足这些约束条件的分布中,熵最大的分布P(Y|X);其中,特征函数f(x,y)用来描述词元x和类别标注y的关系,定义为:
特征函数反应的是词元在词元本身和上下文中满足的关系;
为了寻找不同的特征函数对于分类的增益程度,考虑特征函数在真实分布和经验分布上的一致性;对于第i个特征函数fi,其关于真实期望的期望值用表示为:
表示(x,y)的真实分布;
第i个特征函数fi关于条件分布和经验分布的模糊期望值EP(fi)有如下表示:
指的是x的真实分布;P(y|x)指的是模型在得到x的输入的情况下,输出y的分布;
在人物属性提取的场景下,特征函数的真实期望和模型期望EP(fi)分别代表该特征函数在真实分布和经验分布上的期望值,假设这两个期望相等;则人物属性提取模型必须满足所有特征等式的约束
为了最小化模型P(Y|X)的熵,首先要计算出满足等式约束的条件熵,其定义如下:
该函数的约束条件为:
M表示特征函数的个数;H(P)代表着满足所有特征函数的人物属性提取模型的熵的负值;H(P)为凸函数,根据凸优化的理论,使用拉格朗日函数将其转化为无约束优化函数求解H(P),得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λi;从语义的角度来看,λi反映的是构造的不同的特征函数fi(x,y)对于分类的增益程度,特征函数对于分类的增益越高,其λi值就越大;至此,得到分布P(y|x)关于一组权值λ的如下表示形式:
其中,Zλ(x)为规范化因子,它确保整个模型是一个合法的概率分布,其定义为:
使用IIS算法来完成模型学习的最优化;通过最小化模型H(P),得到模型的分布函数Pλ(y|x),即完成模型在人物属性提取场景下的构建。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211180208.7/1.html,转载请声明来源钻瓜专利网。