[发明专利]目标事件的标记方法和装置、存储介质及电子装置有效
申请号: | 201910713377.4 | 申请日: | 2019-08-02 |
公开(公告)号: | CN110458296B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 邹耿鹏;段建波 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06N20/10 | 分类号: | G06N20/10;G06F16/35;G06F40/289 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 事件 标记 方法 装置 存储 介质 电子 | ||
1.一种目标事件的标记方法,其特征在于,包括:
获取待处理信息中携带的内容语句,其中,所述内容语句被切分多个词组;
在所述多个词组中确定出目标词组,其中,所述目标词组为出现在同一条所述待处理信息中、且在预定时间段内出现次数超过预设次数阈值的词组;
使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,其中,包括所述目标类别的不同类别在所述分类模型中对应不同的权重,所述目标类别的权重用于指示所述目标词组成为目标事件的可能性;
在所述目标类别对应的权重超过预设权重阈值的情况下,将所述目标待处理信息中包含的所述目标词组标记为所述目标事件;
所述在所述多个词组中确定出目标词组包括:
将出现在同一所述内容语句中、且在多个所述待处理信息的所述内容语句中出现次数超过预设阈值的词组确定为第一词组,其中,所述第一词组中仅包含汉字;将今日占比小于第一预设占比阈值和/或今日词频小于第一预设词频阈值和/或今日词频增长率小于第一预设增长率阈值的所述第一词组丢弃,得到第二词组,其中,所述今日词频增长率是相对于前一天的词频获得的增长率;对所述第二词组进行聚类,得到第一词组簇;将今日占比小于第二预设占比阈值和/或今日词频小于第二预设词频阈值和/或今日词频增长率小于第二预设增长率阈值的所述第一词组簇丢弃,得到第二词组簇;确定所述第二词组簇中的词组为所述目标词组。
2.根据权利要求1所述的方法,其特征在于,所述使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别,包括:
将所述目标待处理信息输入所述分类模型,其中,所述分类模型是使用所述待处理信息中包含的所述词组作为训练样本对初始分类模型进行训练得到的;
输出所述目标待处理信息对应的所述目标类别。
3.根据权利要求2所述的方法,其特征在于,使用分类模型确定所述待处理信息中包含所述目标词组的目标待处理信息所对应的目标类别之前,所述方法还包括:
使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练,其中,所述第一目标待处理信息中包含标记为目标事件的词组和没有标记为目标事件的词组。
4.根据权利要求3所述的方法,其特征在于,使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练包括:
将已经确定类别的第一目标待处理信息划分为训练数据集、验证数据集和测试数据集,其中,所述训练数据集和所述验证数据集用于对所述初始分类模型进行训练,所述测试数据集用于对训练后的所述分类模型进行测试;
将所述训练数据集和所述验证数据集中包含的所述内容语句切分为初始训练词组,将出现频率超过预设阈值的所述初始训练词组作为初始训练样本,其中,所述初始训练样本的向量维数为所述初始训练样本的数量;
通过向量表征算法计算所述初始训练样本的语义向量表征;
将所述初始训练样本的向量维数和所述初始训练样本的语义向量表征输入所述初始分类模型进行训练,得到所述分类模型;
通过所述测试数据集对所述分类模型的训练结果进行测试,并调整所述分类模型的模型参数。
5.根据权利要求3所述的方法,其特征在于,使用已经确定类别的第一目标待处理信息作为训练样本对所述初始分类模型进行训练之后,所述方法还包括:
将所述目标待处理信息中的目标内容语句切分为多个目标训练词组,其中,所述目标训练词组中只包含汉字、且不包含停用词,所述停用词至少包括感叹词和/或代词和/或语气词;
将出现频率超过预设阈值的所述目标训练词组确定为词袋;
将所述词袋与所述分类模型当前的训练样本合并,组成目标训练样本;
使用所述目标训练样本训练所述分类模型,并调整所述分类模型的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910713377.4/1.html,转载请声明来源钻瓜专利网。