[发明专利]新闻主体判断方法、设备及计算机可读介质有效
申请号: | 202111057309.0 | 申请日: | 2021-09-09 |
公开(公告)号: | CN113761940B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 廖宇康 | 申请(专利权)人: | 杭州隆埠科技有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F16/35;G06F16/33;G06F18/214 |
代理公司: | 上海百一领御专利代理事务所(普通合伙) 31243 | 代理人: | 陈贞健;邵栋 |
地址: | 310012 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 新闻 主体 判断 方法 设备 计算机 可读 介质 | ||
1.一种新闻主体判断方法,其特征在于,所述方法包括:
提取新闻数据中的实体名称;
对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称;
对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列;
采用BERT模型对所述新闻文本序列进行词嵌入处理,获取所述新闻文本序列对应的语义向量序列,其中,新闻文本序列中的每个序列元素对应所述语义向量序列中的一条语义向量,所述匿名标记为一个新闻文本序列中的一个序列元素;
对所述语义向量序列进行池化处理,获取语义表征向量;
将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量;
根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体。
2.根据权利要求1所述的方法,其特征在于,对所述新闻数据中的实体名称进行匿名化处理,获取至少一条匿名化新闻数据,其中,每条匿名化新闻数据为对所述新闻数据中的一个实体名称进行匿名化处理后所获得的新闻数据,所述匿名化处理为使用匿名标记替代新闻数据中的实体名称,包括:
选取所述新闻数据中的一个实体名称,并使用匿名标记替代所述新闻数据中出现的该实体名称,生成一条对应于所述实体名称的匿名化新闻数据。
3.根据权利要求1所述的方法,其特征在于,对所述匿名化新闻数据进行预处理,获取对应的新闻文本序列,包括:
将所述匿名化新闻数据进行分词处理,获取对应的新闻文本序列,其中,对所述匿名化新闻数据中的中文文本进行字级别的分词处理,将每个中文文本确定为所述新闻文本序列的一个序列元素。
4.根据权利要求1所述的方法,其特征在于,所述新闻文本序列对应语义向量序列表示为N×M的矩阵,其中,N为新闻文本序列的长度,M为每个序列元素所对应的语义向量的维度。
5.根据权利要求4所述的方法,其特征在于,对所述语义向量序列进行池化处理,获取语义表征向量,包括:
对所述语义向量序列所对应的矩阵中的每一列数据进行池化处理,获得维度为M的语义表征向量。
6.根据权利要求5所述的方法,其特征在于,所述池化处理包括最大池化或平均池化。
7.根据权利要求5所述的方法,其特征在于,将所述语义表征向量与所述新闻文本序列中匿名标记所对应的语义向量进行拼接,获取分类向量,包括:
将维度为M的语义表征向量与所述新闻文本序列中匿名标记所对应的、维度为M的语义向量进行拼接,获取维度为2M的分类向量。
8.根据权利要求5所述的方法,其特征在于,根据所述分类向量确定所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称是否为新闻主体,包括:
将所述分类向量输入分类器,并获取对应的分类标签,若所述分类标签为主体,则将所述分类向量所对应的匿名化新闻数据中匿名标记所替代的实体名称确定为新闻主体。
9.一种新闻主体判断设备,其中,该设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发所述设备执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州隆埠科技有限公司,未经杭州隆埠科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111057309.0/1.html,转载请声明来源钻瓜专利网。