[发明专利]新闻主体判断方法、设备及计算机可读介质有效
申请号: | 202111057309.0 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113761940B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 廖宇康 | 申请(专利权)人: | 杭州隆埠科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/35;G06F16/33;G06F18/214 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健;邵栋 |
地址: | 310012 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 主体 判断 方法 设备 计算机 可读 介质 | ||
本申请实施例提供了一种新闻主体判断方法、设备以及计算机可读介质,该方案在处理过程中对提取到的实体名称采用匿名标记进行了统一的替换,并且采用了BERT模型对匿名替换处理后的匿名化新闻数据进行了词嵌入处理,在排除了实体名称本身含义对判断结果的影响的同时,可以较好地利用实体名称在整个新闻中的位置信息和上下文信息,使得该方案在提升新闻主体判断准确性的情况下,在泛化能力方面也具有更好的效果。
技术领域
本申请涉及信息技术领域,尤其涉及一种新闻主体判断方法、设备及计算机可读介质。
背景技术
随着互联网的发展,信息的累积速度早已超过个人所能处理的范畴。为了对新闻的内容进行分析,新闻主体提取是必不可少的步骤。由于在新闻中通常会提到许多个实体名称,而这些实体名称中通常只有一个是新闻主体,如何从新闻中准确地确定新闻主体,是提高新闻内容分析效率的重要部分。
现有的方案中,会首先通过利用一些已有的方式,如列表匹配、机器学习等方式从新闻数据提取出可能作为新闻主体的实体名称,然后通过一些统计的方式获得这些实体名称所对应的统计信息(如词频、TF-IDF等),并利用这些统计信息对实体名称进行评分,将得分最高的实体名称确定为新闻对应的主体。以财经类的新闻为例,若通过列表匹配的方式确定了该新闻数据中包括三个实体名称,分别为“A公司”、“B公司”、“C公司”,然后分别计算这三个对象实体的TF-IDF值,选择TF-IDF值最大的实体名称作为该新闻对应的新闻主体。
由于在实际场景中,新闻主体在实际新闻中的实际表现规律往往会与当前的语境、上下文信息等内容相关,并不一定符合统计学上的规律,因此上述方案在实际判断新闻主体时的准确性往往不高,容易出现误判的情况。
发明内容
本申请的一个目的是提供一种新闻主体判断方法、设备及计算机可读介质,用以解决现有的新闻主体判断方式准确性不高的问题。
为实现上述目的,本申请实施例提供了一种新闻主体判断方法,所述方法包括:
提取新闻数据中的实体名称;
对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称;
对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列;
采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列,其中,新闻文本序列中的每个序列元素对应所述语义向量序列中的一条语义向量,所述匿名标记为一个新闻文本序列中的一个序列元素;
对所述语义向量序列进行池化处理,获取语义表征向量;
将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量;
根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。
进一步地,对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称,包括:
选取所述新闻数据中的一个实体名称,并使用匿名标记替代所述新闻数据中出现的该实体名称,生成一条对应于所述实体名称的匿名化新闻数据。
进一步地,对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列,包括:
将所述匿名化新闻数据进行分词处理,获取对应的新闻文本序列,其中,对所述匿名化新闻数据中的中文文本进行字级别的分词处理,将每个中文文本确定为所述新闻文本序列的一个序列元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州隆埠科技有限公司,未经杭州隆埠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111057309.0/2.html,转载请声明来源钻瓜专利网。