[发明专利]实体链接方法、装置、设备、计算机可读存储介质有效
申请号: | 201810146229.4 | 申请日: | 2018-02-12 |
公开(公告)号: | CN110209830B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 丁磊;童毅轩;董滨;姜珊珊;张永伟 | 申请(专利权)人: | 株式会社理光 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;张博 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体 链接 方法 装置 设备 计算机 可读 存储 介质 | ||
1.一种实体链接方法,其特征在于,包括:
通过已有的无歧义实体数据库构建训练数据,所述无歧义实体数据库中存储有实体词对应的无歧义实体,所述训练数据包括多组标注数据,每组标注数据包括携带有实体词的文本以及与该实体词链接的无歧义实体;
利用所述训练数据训练无歧义实体识别模型,所述无歧义实体识别模型能够输出文本中的实体词与无歧义实体的匹配概率;
将包括有待识别的实体词的文本输入所述无歧义实体识别模型,根据输出结果确定与所述待识别的实体词链接的无歧义实体,
其中,所述利用所述训练数据训练无歧义实体识别模型包括:
利用所述训练数据分别训练语言模型和主题模型,所述语言模型能够输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,所述主题模型能够输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度;
将所述训练数据分别输入所述语言模型和所述主题模型,利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型,
所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型之前,所述方法还包括:
利用所述语言模型和所述主题模型对所述训练数据进行扩充,其中,通过所述语言模型和所述主题模型交互进行训练,利用未标注数据生成新的标注数据扩充进所述训练数据。
2.根据权利要求1所述的实体链接方法,其特征在于,所述通过已有的无歧义实体数据库构建训练数据包括:
将包括有至少一个实体词的文本复制为多条,并将每一条复制文本中的任意一个或多个实体词替换为对应的无歧义实体标识,所述无歧义实体标识唯一代表一无歧义实体。
3.根据权利要求1所述的实体链接方法,其特征在于,所述利用所述语言模型、所述主题模型的输出结果以及所述训练数据训练得到所述无歧义实体识别模型包括:
利用所述语言模型的输出结果、所述主题模型的输出结果以及所述训练数据中文本的实体词与某一无歧义实体的匹配概率对集成模型进行训练,所述集成模型能够输出所述语言模型的输出结果的权重和所述主题模型的输出结果的权重;
集成所述集成模型、所述语言模型和所述主题模型得到所述无歧义实体识别模型。
4.根据权利要求3所述的实体链接方法,其特征在于,所述无歧义实体识别模型输出的实体词与无歧义实体的匹配概率p=a*x+b*y,其中,a为所述集成模型输出的所述语言模型的输出结果的权重,b为所述集成模型输出的所述主题模型的输出结果的权重,x为所述语言模型的输出结果,y为所述主题模型的输出结果。
5.根据权利要求1所述的实体链接方法,其特征在于,所述利用所述语言模型和所述主题模型对所述训练数据进行扩充包括:
将多组未标注数据输入所述语言模型,每组未标注数据包括携带有实体词的文本,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第一阈值的未标注数据输入所述主题模型,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第二阈值的未标注数据加入所述训练数据,并将所述相关度高于预设第二阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体;和/或
将多组未标注数据输入所述主题模型,每组未标注数据包括携带有实体词的文本,所述主题模型输出文本中的实体词为某一无歧义实体时与文本上下文主题的相关度,将相关度高于预设第三阈值的未标注数据输入所述语言模型,所述语言模型输出文本中的实体词为某一无歧义实体时与文本上下文的匹配度,将匹配度高于预设第四阈值的未标注数据加入所述训练数据,并将所述匹配度高于预设第四阈值时,所述实体词对应的无歧义实体作为与该实体词链接的无歧义实体。
6.根据权利要求1所述的实体链接方法,其特征在于,所述根据输出结果确定与所述待识别的实体词链接的无歧义实体包括:
将与所述实体词匹配概率大于预设第五阈值的无歧义实体确定为与所述实体词链接的无歧义实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社理光,未经株式会社理光许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810146229.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法和装置
- 下一篇:模型生成、语义识别的方法、系统、设备及存储介质