[发明专利]基于BERT的影视作品地域知识图谱构建方法及系统在审
申请号: | 202110853213.9 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113609305A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 杨艳妮;闵锦涛;林丽萍;周蕾 | 申请(专利权)人: | 三峡大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/9537;G06F40/284 |
代理公司: | 宜昌市三峡专利事务所 42103 | 代理人: | 成钢 |
地址: | 443002 *** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 影视作品 地域 知识 图谱 构建 方法 系统 | ||
1.基于BERT的影视作品地域知识图谱构建方法,其特征在于,包括以下步骤:
步骤1:采集影视作品文本数据,构建影视作品地域领域词典,并对文本数据进行预处理和分词,得到影视作品的地域关联数据;
步骤2:对地域关联数据中的实体进行定义,建立实体之间的关联关系;
步骤3:依据实体与实体关系,对影视作品的地域关联数据中的实体和实体关系进行标注,得到标注后的实体和实体关系;
步骤4:利用影视作品的地域关联数据以及标注的实体和实体关系,对BERT模型进行训练;
步骤5:将未标注的影视作品的地域关联数据输入BERT模型,利用BERT模型抽取得到影视作品的实体关系;
步骤6:将得到的影视作品的实体关系存入图数据库,得到影视作品的地域特色知识图谱。
2.根据权利要求1所述的影视作品地域知识图谱构建方法,其特征在于,步骤2中,结合专家知识对影视作品的地域关联数据中的实体进行定义,建立实体之间的关联关系,实体之间的关联关系包括作品名称-制片地区、作品名称-方言、作品名称-地名关系以及制片地区-地域名称、方言-地域名称、地名-地域名称关系。
3.根据权利要求2所述的影视作品地域知识图谱构建方法,其特征在于,步骤3采用Brat工具对所述影视作品的地域关联数据中的实体和实体关系进行人工标注操作。
4.根据权利要求3所述的影视作品地域知识图谱构建方法,其特征在于,所述方法对BERT模型进行改进,将BERT模型中随机字级别的掩码机制改为影视作品领域相关短语级别的掩码机制,使改进的BERT模型学习到影视作品文本数据的句法语法信息。
5.根据权利要求4所述的影视作品地域知识图谱构建方法,其特征在于,所述方法在改进的BERT模型中增加与隐藏层连接的注意力层,以加强影视作品地域领域词汇的语义权重。
6.根据权利要求5所述的影视作品地域知识图谱构建方法,其特征在于,所述方法还包括定时采集更新的影视作品地域关联数据,利用增量数据对BERT模型进行再训练。
7.影视作品地域知识图谱构建系统,其特征在于,包括:
数据获取模块,用于获取影视作品的地域关联数据;
地域领域词典构建模块,用于构建影视作品地域领域词典,根据构建的地域领域词典对获取的影视作品地域关联数据作分词处理;
定义模块,对影视作品的地域关联数据中的实体进行定义,建立实体之间的关联关系;
标注模块,根据实体和实体间关系对影视作品的地域关联数据中的实体和实体关系进行人工标注,得到标注后的实体和实体关系;
训练模块,利用影视作品的地域关联数据和标注后的实体和实体关系对深度学习模型进行训练;
实体关系抽取模块,用于将未标注的影视作品的地域关联数据输入至训练好的深度学习模型进行实体关系抽取,得到多个抽取出来的实体关系;
知识图谱构建模块,将深度学习模型抽取得到的实体关系存入图数据库,得到影视作品的地域特色知识图谱;
查询展示模块,利用影视作品的地域特色知识图谱信息,向系统用户提供用户查询地域的关联影视作品信息。
8.根据权利要求7所述的系统,其特征在于,所述训练模块还包括增量训练子模块,增量训练子模块用于从互联网定时采集更新的影视作品地域关联数据,利用增量数据对深度学习模型进行再训练,实现深度学习模型的更新、优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于三峡大学,未经三峡大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110853213.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:竹片打包装置
- 下一篇:防糊边的激光切割方法