[发明专利]文本数据的处理方法和装置、以及存储介质和电子装置在审
申请号: | 201810444924.9 | 申请日: | 2018-05-10 |
公开(公告)号: | CN110196920A | 公开(公告)日: | 2019-09-03 |
发明(设计)人: | 汤见乐 | 申请(专利权)人: | 腾讯科技(北京)有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/33 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 周婷婷;江舟 |
地址: | 100080 北京市海淀区海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 文本数据 媒体资源 目标媒体 方法和装置 文本相似度 存储介质 电子装置 准确度 抓取 目标条件 资源集中 中文 | ||
1.一种文本数据的处理方法,其特征在于,包括:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;
确定所述多个文本中任意两个文本之间的文本相似度值;
根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。
3.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:
统计每个文本相对于所述多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
4.根据权利要求1所述的方法,其特征在于,根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值包括:
确定每个媒体资源集对应的权重,其中,所述权重用于表示对应媒体资源集的文本数据的准确程度;
根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
5.根据权利要求1所述的方法,其特征在于,确定所述多个文本中任意两个文本之间的文本相似度值包括:
对所述多个文本分别进行分词处理,得到每个文本的分词结果;
根据所述多个文本的分词结果,生成每个文本的分词向量,其中,每个分词向量的向量维数n为所述多个文本的分词集合中互不相同的分词的总个数,每个分词向量的各个元素值分别用于表示元素对应的分词在对应文本中出现的次数;
通过以下公式确定所述多个文本中第一文本的分词向量和第二文本的分词向量之间的夹角余弦值cosθ,以作为所述第一文本和所述第二文本之间的文本相似度值:
6.根据权利要求1所述的方法,其特征在于,抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本包括:
抓取多个媒体资源集的每个媒体资源集中目标媒体资源的目标项的文本数据,得到多个文本。
7.一种文本数据的处理装置,其特征在于,包括:
抓取单元,用于抓取多个媒体资源集的每个媒体资源集中目标媒体资源的文本数据,得到多个文本,其中,所述多个文本与所述多个媒体资源集一一对应;
第一确定单元,用于确定所述多个文本中任意两个文本之间的文本相似度值;
第二确定单元,用于根据每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值;
第三确定单元,用于根据所述多个文本中文本准确度值符合目标条件的文本,对目标媒体资源集中的所述目标媒体资源的文本数据进行处理。
8.根据权利要求7所述的装置,其特征在于,所述目标条件为文本准确度值超过目标阈值或文本准确度值最高。
9.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
统计模块,用于统计每个文本相对于所述多个文本中其它文本的文本相似度值之和,得到对应文本的文本准确度值。
10.根据权利要求7所述的装置,其特征在于,所述第二确定单元包括:
第一确定模块,用于确定每个媒体资源集对应的权重,其中,所述权重用于表示对应媒体资源集的文本数据的准确程度;
第二确定模块,用于根据权重公式和每个文本相对于所述多个文本中其它文本的文本相似度值,确定对应文本的文本准确度值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(北京)有限公司,未经腾讯科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810444924.9/1.html,转载请声明来源钻瓜专利网。