[发明专利]基于句法依存的人物属性抽取方法有效
申请号: | 201910061661.8 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109815497B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 占梦来;张磊;苏家琦;张军;徐晓龙;张棚 | 申请(专利权)人: | 四川易诚智讯科技有限公司;电子科技大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/247;G06F16/36 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 610041 四川省成都市武侯区*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句法 依存 人物属性 抽取 方法 | ||
1.基于句法依存的人物属性抽取方法,其特征在于,包括:
S1、采用MDR提取出网页中含有的有效人物信息html标签,然后对有效人物信息html标签进行处理后得到正文;
S2、提取正文中包含的人物属性;
S3、对提取出的人物和人物属性通过Stanford core NLP得到每句的句法依存分析结果;
S4、对每句的句法依存分析结果通过标记人物和人物属性找到人物和人物属性之间的最短路径,保存最短路径上的词汇,得到最短路径词汇字典;同时保存主语和属性前后词窗口大小的词汇,得到词窗口词汇字典;
S5、通过分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度,得到人物和人物属性之间是否具有从属关系;其中属性相关词字典为预先筛选好的词典;步骤S5具体为:
S51、分别计算属性相关词字典和对最短路径词汇字典、词窗口词汇字典的Jaccard相似度;Jaccard相似度的计算过程为:
simα1=simα simα>α
simα2=simα simα<α
α为判定两个词之间是否相关的阈值;
S52、将属性相关词字典和对最短路径词汇字典的Jaccard相似度、属性相关词字典和词窗口词汇字典的Jaccard相似度,分别赋予权重,计算出加权和相似度;
S53、若步骤S52计算出的相似度大于第一阈值,则人物和人物属性具有从属关系,否则不具有从属关系。
2.根据权利要求1所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S1所述对有效人物信息html标签进行处理后得到正文,具体为:去除多余的web标签后,再进行去除停用词、词干还原、去除特殊字符的操作,然后得到正文。
3.根据权利要求2所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S2具体为:采用基于字典的人物属性提取、基于正则的人物属性提取以及基于最大熵的人物属性提取。
4.根据权利要求3所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S5之前还包括:
A1、使用语料库来训练Word2Vec模型,得到一个词向量序列;
A2、将属性相关词字典、最短路径词汇字典以及词窗口词汇字典,这三个字典中的词通过word2vec模型转为word2向量。
5.根据权利要求4所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S51具体为:
B1、计算属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典中的词向量的余弦相似度;
B2、若步骤B1计算得到的余弦相似度大于第二阈值,则两个字典的交集不为空,将该余弦相似度记为simα1;否则两个字典的交集为空,将该余弦相似度记为simα2;
B3、计算simα1与simα2的交并比,得到属性相关词典中的词向量与最短路径词汇字典或词窗口词汇字典的Jaccard相似度。
6.根据权利要求5所述的基于句法依存的人物属性抽取方法,其特征在于,步骤S52所述计算加权和相似度表达式为:
Sim=βsimJ_dep+(1-β)simJ_context
其中,β为加权系数,simJ_dep为属性相关词字典与最短路径字典之间的相似度,simJ_context为属性相关词字典与词窗口字典之间的相似度。
7.根据权利要求6所述的基于句法依存的人物属性抽取方法,其特征在于,步骤A1所述语料库为长文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川易诚智讯科技有限公司;电子科技大学,未经四川易诚智讯科技有限公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910061661.8/1.html,转载请声明来源钻瓜专利网。