[发明专利]一种基于网页正文的人物属性提取方法在审

申请号：	202211180208.7	申请日：	2022-09-27
公开（公告）号：	CN115525760A	公开（公告）日：	2022-12-27
发明（设计）人：	费高雷;高隽逸;胡光岷	申请（专利权）人：	电子科技大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/295;G06F40/30;G06F40/211
代理公司：	成都虹盛汇泉专利代理有限公司 51268	代理人：	王伟
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页正文人物属性提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于网页正文的人物属性提取方法，其特征在于，包括以下步骤：

S1、获取目标人物的相关网页，从网页中提取出包含人物属性信息的正文文本，并对正文文本进行文本分词；

S2、根据人物属性，选择包含分类信息的词元属性；

S3、构建特征：使用命名实体、依存关系作为额外的词元标注，并构建基于静态词表的状态特征，同时使用依存句法树的上下文关系来构建转移特征；

S4、将状态特征和转移特征作为最大熵算法的约束，训练分类模型。

2.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中的相关网页包括在线百科、个人网站、机构主页和社交平台个人账号。

3.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S1中，将单词作为分词的粒度。

4.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S2中，分词处理后的正文文本是一个词元序列，分词的最小语义单元即为序列的词元；在人物属性提取任务中，人物属性信息就包含在词元本身的属性以及词元上下文的关系中；使用的词元属性包括以下几种：

1)“text”属性的属性值为词元的原始文本；保留词元的原始文本作为词元属性；在后续特征构建中，对照静态词表，匹配人物属性中高频出现的单词；

2)“lemma”属性是词元的原型，使用“lemma”属性作为词元属性来消除歧义，作为“text”属性的辅助属性进行标注；

3)“shape”属性代表词元的大小写格式；

4)“pos”属性表示词元的词类；

5)“index”是指词元在文本序列中的索引值；

6)“prefix”和“suffix”分别代表词元的前缀和后缀。

5.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S3中的状态特征包括：

1)“word_list”特征为当前词元的“text”和“lemma”属性是否包含于静态词表的判断；

2)“prefix_list”、“suffix_list”分别为前缀、后缀的静态词表，使用静态前、后缀表作为特征函数来进行前后缀的选择；

3)“ent”表示词元的命名实体类别，使用命名实体属性来作为特征函数；

转移特征包括：

4)“dep”表示词元的依存关系，该属性反映的是词元在句法和语义上的依存特征；依存句法关系用一棵依存关系树来表示，使用条件依存关系来作为特征函数。

6.根据权利要求1所述的一种基于网页正文的人物属性提取方法，其特征在于，所述步骤S4中，最大熵算法构建的分类模型是一个条件概率分布P(Y|X)，其中，X为样本，Y为人物属性类别；将构建的特征函数f(x，y)作为分布P(Y|X)的约束条件，以寻找满足这些约束条件的分布中，熵最大的分布P(Y|X)；其中，特征函数f(x，y)用来描述词元x和类别标注y的关系，定义为：

特征函数反应的是词元在词元本身和上下文中满足的关系；

为了寻找不同的特征函数对于分类的增益程度，考虑特征函数在真实分布和经验分布上的一致性；对于第i个特征函数f_i，其关于真实期望的期望值用表示为：

表示(x，y)的真实分布；

第i个特征函数f_i关于条件分布和经验分布的模糊期望值E_P(f_i)有如下表示：

指的是x的真实分布；P(y|x)指的是模型在得到x的输入的情况下，输出y的分布；

在人物属性提取的场景下，特征函数的真实期望和模型期望E_P(f_i)分别代表该特征函数在真实分布和经验分布上的期望值，假设这两个期望相等；则人物属性提取模型必须满足所有特征等式的约束

为了最小化模型P(Y|X)的熵，首先要计算出满足等式约束的条件熵，其定义如下：

该函数的约束条件为：

M表示特征函数的个数；H(P)代表着满足所有特征函数的人物属性提取模型的熵的负值；H(P)为凸函数，根据凸优化的理论，使用拉格朗日函数将其转化为无约束优化函数求解H(P)，得到拉格朗日函数中每个约束条件对应的拉格朗日乘子λ_i；从语义的角度来看，λ_i反映的是构造的不同的特征函数f_i(x，y)对于分类的增益程度，特征函数对于分类的增益越高，其λ_i值就越大；至此，得到分布P(y|x)关于一组权值λ的如下表示形式：

其中，Z_λ(x)为规范化因子，它确保整个模型是一个合法的概率分布，其定义为：

使用IIS算法来完成模型学习的最优化；通过最小化模型H(P)，得到模型的分布函数P_λ(y|x)，即完成模型在人物属性提取场景下的构建。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211180208.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种往复流淤泥质海域人工岛外轮廓的确定方法
下一篇：一种基于双目立体视觉与电动葫芦的拱肋节段吊装施工方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于网页正文的人物属性提取方法在审

专利文献下载