[发明专利]自适应广播电视新闻关键词标准化方法有效
申请号: | 202110451197.0 | 申请日: | 2021-04-26 |
公开(公告)号: | CN112988953B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 温序铭;朱婷婷;杨瀚;严照宇;陈智 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 贾年龙 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自适应 广播电视 新闻 关键词 标准化 方法 | ||
本发明公开了自适应广播电视新闻关键词标准化方法,包括步骤:步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库等;本发明作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。
技术领域
本发明涉及广播电视新闻媒资自动标引领域,更为具体的,涉及自适应广播电视新闻关键词标准化方法。
背景技术
融合媒体时代,爆炸式增长的新闻视频数据给媒体资源的再利用带来了巨大的挑战,如何“快”、“省”、“易”地对相关新闻视频进行编目变得十分重要。另一方面,随着计算机运算能力的提升以及相关视觉、NLP算法手段的逐步成熟,通过大数据和人工智能技术来实现自动化的视频内容数据标引从而提高编目质量和标引的实时性已经成为一种趋势。在这种环境下,媒体数据资料的管理从传统人工编目逐步转换到依托智能化管理平台的自动编目。
通过实体识别、人脸识别、景别识别、关键词识别等AI技术,可以实现对媒体内容多个维度的自动分类、标识、标引,从而实现媒体资源本身的内容标签的自动提取。在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关,然而目前AI技术提取的关键词还达不到用户实际业务需求。一方面,这是由于中文用词较为灵活和多样,不同的新闻可以用不同的词表达同一个语义,还有各种缩略词、指代词;另一方面,用户通过多年的人工编目积累了自己的特色词库(更适配于地方特色或习惯的词库)。比如AI技术提取的关键词是“澳港澳”或者“大湾区”,但对于深圳、中国台方用户来说可能更常提及的是“澳港澳大湾区”;再比如AI技术提取的关键词是“新冠病毒”,但实际上用户希望展现出的关键词是“新型冠状病毒”。因此,能够针对不同的用户自适应地进行关键词的标准化具有重要意义。此外,随着新闻视频数据的不断增多,用户原有的特色词库也需要同步进行扩展,才能更好地支撑关键词的标准化。
为了解决上述问题,本发明提出一种自适应广播电视新闻关键词标准化方法。
发明内容
本发明的目的在于克服现有技术的不足,提供自适应广播电视新闻关键词标准化方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。
本发明的目的是通过以下方案实现的:
自适应广播电视新闻关键词标准化方法,包括:
步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。
在该实施方案中,基础关键词库可以是用户侧的特色词库。
进一步地,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。
在该实施方案中,对广播电视新闻进行关键词预测时采用的关键词抽取模型可以为本发明提供的基于深度学习的关键词抽取模型或其他现有的关键词抽取模型。如果采用本发明提供的基于深度学习的关键词抽取模型,则该模型按串联顺序包括文本向量化层、第一关键词预测层,第二关键词序列标注层。文本向量化层主要基于预训练语言模型。这样可以获得传统的依赖分词的模型无法获得的词汇,如十二五计划、精准扶贫、新型冠状病毒、澳港澳大湾区等。如果采用发明提供的基于深度学习的关键词抽取模型,获取关键词结果进一步包括如下步骤:
(1)、标注待分析的广播电视新闻数据的关键词信息,构建关键词数据集;
(2)、利用预训练模型构建关键词抽取模型,并利用(1)所述广播电视新闻关键词数据集训练所构建的关键词抽取模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110451197.0/2.html,转载请声明来源钻瓜专利网。