[发明专利]一种文本处理方法、装置以及相关设备在审
申请号: | 201910304358.6 | 申请日: | 2019-04-16 |
公开(公告)号: | CN110162624A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 唐亚腾 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标内容 属性参数 目标文本 安全类型 目标主题 文本处理 文本 参数组合 多个单位 多个目标 获取目标 内容属性 内容信息 序列识别 主题信息 | ||
1.一种文本处理方法,其特征在于,包括:
获取目标文本,从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数;
将所述目标文本的内容信息划分为多个单位目标内容信息,并获取与每个单位目标内容信息分别对应的目标内容属性参数,将多个目标内容属性参数组合为目标内容属性参数序列;
根据所述目标主题属性参数和所述目标内容属性参数序列识别所述目标文本的安全类型。
2.根据权利要求1所述的方法,其特征在于,所述主题信息包括标题信息和封面图像;
所述从所述目标文本的主题信息中,获取所述目标文本的目标主题属性参数,包括:
根据所述标题信息所包含的字符,生成标题关键词信息;
获取所述目标文本所属的消息分发群组对应的质量属性参数;
识别所述封面图像的封面图像安全参数,并获取所述目标文本所属业务领域的领域属性参数;
识别所述标题信息的文本安全参数;
将所述标题关键词信息、所述质量属性参数、所述封面图像安全参数、所述领域属性参数和所述文本安全参数组合为所述目标主题属性参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
获取标题关键词字典,并创建关键词数组;所述标题关键词字典包括多个标题关键词;
从所述多个标题关键词中选择目标标题关键词,并确定所述目标标题关键词在所述标题关键词字典中的位置信息;
若所述目标标题关键词存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第一数值;
若所述目标标题关键词不存在于所述标题信息中,则根据所述位置信息,在所述关键词数组中填充第二数值;
当所有的标题关键词均被确定为所述目标标题关键词时,将填充后的关键词数组作为所述标题关键词信息。
4.根据权利要求2所述的方法,其特征在于,所述根据所述标题信息所包含的字符,生成标题关键词信息,包括:
将所述标题信息划分为多个标题字符,并在字符词袋中查找与每个标题字符分别对应的独热码,作为字符输入向量;所述字符词袋包括多个字符,以及与每个字符分别对应的独热码;
基于字符词向量转换模型中的隐藏层,将多个字符输入向量分别进行降维,得到多个字符词向量,并将所述多个字符词向量合并为所述标题关键词信息。
5.根据权利要求1所述的方法,其特征在于,所述获取与每个单位目标内容信息分别对应的目标内容属性参数,包括:
当单位目标内容信息的内容属性为图像属性时,识别所述单位目标内容信息的内容图像安全参数,将所述内容图像安全参数确定为与所述单位目标内容信息对应的目标内容属性参数;
当单位目标内容信息的内容属性为字符属性时,根据所述单位目标内容信息所包含的关键词,生成内容关键词信息,将所述内容关键词信息确定为与所述单位目标内容信息对应的目标内容属性参数。
6.根据权利要求1所述的方法,其特征在于,所述将多个目标内容属性参数组合为目标内容属性参数序列,包括:
从所述多个目标内容属性参数中提取多个第一目标内容属性参数;所述多个第一目标内容属性参数对应的单位目标内容信息的内容属性均为字符属性,且所述多个第一目标内容属性参数对应的单位目标内容信息在所述目标文本中相邻;
将所述多个第一目标内容属性参数合并为统计目标内容属性参数;
将所述统计目标内容属性参数和第二目标内容属性参数组合为所述目标内容属性参数序列;所述第二目标内容属性参数是在所述多个目标内容属性参数中除所述多个第一目标内容属性参数以外的目标内容属性参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910304358.6/1.html,转载请声明来源钻瓜专利网。