[发明专利]信息的时效识别、模型训练、推送方法、装置及介质在审
申请号: | 202110892912.4 | 申请日: | 2021-08-04 |
公开(公告)号: | CN114330295A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 石磊;马连洋 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06N20/00 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 谭英强 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 时效 识别 模型 训练 推送 方法 装置 介质 | ||
1.一种信息的时效识别方法,其特征在于,包括以下步骤:
从待识别的信息中获取目标文本数据;
对所述目标文本数据进行语句分割处理,得到多个语句,并确定各个所述语句对应的第一语句特征数据;
将各个所述语句对应的第一语句特征数据输入到时效识别模型中,得到各个所述语句对应的第一时效识别结果;所述第一时效识别结果用于表征所述语句的有效时长;
根据所表征的有效时长较短的第一时效识别结果,确定所述信息对应的第二时效识别结果;所述第二时效识别结果用于表征所述信息的有效时长。
2.根据权利要求1所述的方法,其特征在于,所述从待识别的信息中获取目标文本数据,包括:
从所述信息中获取初始文本数据;
从所述初始文本数据的首部或者尾部中的至少一者截取得到所述目标文本数据,或从所述初始文本数据中随机抽取得到所述目标文本数据。
3.根据权利要求2所述的方法,其特征在于,所述从所述信息中获取初始文本数据,包括以下步骤至少之一:
当所述信息为音频数据,对所述音频数据进行语音识别,得到所述初始文本数据;
当所述信息为图片数据,对所述图片数据进行文字识别,得到所述初始文本数据;
当所述信息为视频数据,对所述视频数据进行语音识别或者文字识别,得到所述初始文本数据。
4.根据权利要求1所述的方法,其特征在于,所述确定各个所述语句对应的第一语句特征数据,包括:
对所述语句进行分词处理,得到所述语句对应的词组,并确定所述词组中各个词对应的词特征数据;其中,每个所述词组包括若干个词;
根据所述词组中各个词对应的词特征数据,确定所述语句对应的第一语句特征数据。
5.根据权利要求4所述的方法,其特征在于,所述词特征数据包括词嵌入向量;
所述确定所述词组中各个词对应的词特征数据,包括:
将所述词映射到向量空间,得到所述词对应的词嵌入向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述词组中各个词对应的词特征数据,确定所述语句对应的第一语句特征数据,包括:
对所述词组中各个词对应的词嵌入向量进行累加,得到第一向量;
对所述第一向量进行归一化,得到所述第一语句特征数据。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述方法还包括以下步骤:
根据预先建立的语料匹配库对所述目标文本数据进行匹配,得到匹配结果;所述语料匹配库中包括多个时效关键词和时效关键语句;
根据所述匹配结果对所述第二时效识别结果进行更新。
8.根据权利要求7所述的方法,其特征在于,所述对所述目标文本数据进行匹配,得到匹配结果,包括:
提取所述目标文本数据中若干个词;
确定所述词和所述时效关键词的第一相似度;
根据大于第一阈值的所述第一相似度对应的时效关键词确定所述匹配结果;
或者,
提取所述目标文本数据中若干个语句;
确定所述语句和所述时效关键语句的第二相似度;
根据大于第二阈值的所述第二相似度对应的时效关键语句确定所述匹配结果。
9.根据权利要求8所述的方法,其特征在于,所述确定所述词和所述时效关键词的第一相似度,包括:
确定所述词对应的第一词嵌入向量和所述时效关键词对应的第二词嵌入向量;
计算所述第一词嵌入向量的第一长度和所述第二词嵌入向量的第二长度;
根据所述第一长度和所述第二长度的乘积得到第一数值,根据所述第一词嵌入向量和所述第二词嵌入向量的内积得到第二数值;
根据所述第二数值和所述第一数值的商,得到所述第一相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110892912.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文本处理方法、装置、计算机设备和存储介质
- 下一篇:仿形倒角去毛刺装备
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置