[发明专利]一种用于人物关系抽取的方法和装置有效
申请号: | 201510127450.1 | 申请日: | 2015-03-23 |
公开(公告)号: | CN104657750B | 公开(公告)日: | 2018-04-27 |
发明(设计)人: | 钱龙华;朱苏阳;李军辉;周国栋 | 申请(专利权)人: | 苏州大学张家港工业技术研究院;苏州大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 常亮 |
地址: | 215699 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用于人物关系抽取的方法和装置。该方法在获取属于人物实体的页面后,对页面中的人物实体构建人物实体列表。进而,在对文本中的人物实体进行标注时,采用人物实例列表与文本中的人物实体名称进行匹配,完成对人物实体的标注。同时,将已知的用于表征人物实体之间关系的家庭关系三元组映射到文本中,实现对文本中的人物实体之间的人物关系的标注,得到训练语料,并利用训练语料建立分类模型,抽取文中的新的人物实体关系。与现有技术相比,本发明无需人工对人物实体和人物实体之间的人物关系标注时,省时省力,提高了工作效率。 | ||
搜索关键词: | 一种 用于 人物 关系 抽取 方法 装置 | ||
【主权项】:
一种用于人物关系抽取的方法,其特征在于,包括:获取属于人物实体的页面,并对页面中的人物实体构建人物实体列表;提取所述人物实体页面中的文本以及用于表征人物实体之间关系的家庭关系三元组,并对所述家庭关系三元组进行关系定义;利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料;所述利用所述人物实体列表对所述文本中的人物实体进行标注,并将定义后的所述家庭关系三元组映射到所述文本中,得到训练语料,包括:对提取的文本进行分句、分词预处理;针对预处理后的文本,根据所述人物实例列表中的人物名称通过词匹配的方式标注出人物实体所在位置;利用预处理后的文本构建关系实例集合;将定义后的所述家庭关系三元组映射到所述关系实例集合中,得到正例训练语料;根据预设的负例训练语料判断规则,获取所述关系实例集合中的负例训练语料;根据所述训练语料建立分类模型,利用所述分类模型对所述文本进行分类,得到所述文本中的新的人物关系。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州大学张家港工业技术研究院;苏州大学,未经苏州大学张家港工业技术研究院;苏州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510127450.1/,转载请声明来源钻瓜专利网。