[发明专利]文本处理方法、装置、设备以及存储介质在审

专利信息
申请号: 202011401511.6 申请日: 2020-12-02
公开(公告)号: CN113408266A 公开(公告)日: 2021-09-17
发明(设计)人: 彭晨晨;董志成 申请(专利权)人: 腾讯科技(深圳)有限公司
主分类号: G06F40/216 分类号: G06F40/216;G06F40/289;G06F16/35
代理公司: 北京市立方律师事务所 11330 代理人: 张筱宁;张海秀
地址: 518000 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 处理 方法 装置 设备 以及 存储 介质
【权利要求书】:

1.一种文本处理方法,其特征在于,所述方法包括:

获取待评估文本集合,以及用于进行文本评估的多个文本评估特征,所述待评估文本集合包括多个待评估文本;

对所述多个待评估文本进行分类,得到多个文本集合;

基于每个所述文本集合所包含的待评估文本的数量,确定所述多个文本集合中的目标文本集合;

对于所述目标文本集合中的每个待评估文本,基于该待评估文本与所述多个文本评估特征的匹配度,确定该待评估文本的评估结果。

2.根据权利要求1所述的方法,其特征在于,对于所述目标文本集合中的每个待评估文本,所述基于该待评估文本与所述多个文本评估特征的匹配度,确定该待评估文本的评估结果,包括:

获取该待评估文本与各文本评估特征的匹配度对应的评估权重;

基于该待评估文本与所述多个文本评估特征的匹配度和对应的评估权重,确定该待评估文本的评估结果。

3.根据权利要求1或2所述的方法,其特征在于,所述文本评估特征包括以下至少一项:

至少一个信息类别;

文本格式;

关键词库,所述关键词库中包括多个评估关键词。

4.根据权利要求3所述的方法,其特征在于,所述文本评估特征包括多个信息类别,对于所述目标文本集合中的每个待评估文本,所述方法还包括:

确定该待评估文本在所述多个信息类别中所命中的信息类别;

基于该待评估文本所命中的信息类别,确定该待评估文本与所述多个信息类别的匹配度。

5.根据权利要求3所述的方法,其特征在于,所述文本评估特征包括关键词库,所述关键词库中包括多个评估关键词,对于所述目标文本集合中的每个待评估文本,所述方法还包括:

确定该待评估文本在所述关键词库中所命中的评估关键词;

基于该待评估文本所命中的评估关键词,确定该待评估文本与所述多个评估关键词的匹配度。

6.根据权利要求3所述的方法,其特征在于,所述关键词库中的至少部分评估关键词是通过以下方式确定:

获取样本文本集,所述样本文本集包括多个样本文本;

基于所述多个样本文本中所包含的各候选词在所述多个样本文本中的出现情况,从所述各候选词中确定出评估关键词。

7.根据权利要求1所述的方法,其特征在于,所述对所述多个待评估文本进行分类,得到多个文本集合,包括:

确定各所述待评估文本的文本特征;

基于各所述待评估文本的文本特征,对所述多个待评估文本的文本特征进行聚类,基于聚类结果得到多个文本集合。

8.根据权利要求7所述的方法,其特征在于,所述确定各所述待评估文本的文本特征,包括:

对于每一待评估文本,对该待评估文本中的各词进行编码得到该待评估文本中各词的编码特征;

基于该待评估文本中各词的编码特征确定该待评估文本中各所述词的词向量;

基于该待评估文本中各所述词的词向量,确定该待评估文本的文本特征。

9.根据权利要求7所述的方法,其特征在于,对于每一待评估文本,所述基于该待评估文本中各词的编码特征确定该待评估文本中各词的词向量是通过向量提取模型实现的;

其中,所述向量提取模型是通过以下方式训练得到的:

获取训练数据集,所述训练数据集包括多个训练文本;

对各所述训练文本中的各词进行编码得到各所述训练文本中各词的编码特征;

将各所述训练文本中的各词的编码特征输入神经网络模型,对于每一词,通过所述神经网络模型,基于与该词相邻的词的编码特征,确定所述相邻的词的词向量;

基于所述相邻的词的词向量确定该词对应的词向量分布,基于所述词向量分布确定该词对应的预测词;

基于各所述训练文本中各词和相对应的预测词,确定训练损失值,根据所述训练损失值和所述训练数据集对所述神经网络模型进行迭代训练,直至所述训练损失值满足预设的训练结束条件,将训练结束后的模型确定为所述向量提取模型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011401511.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top