[发明专利]基于词汇义原的文本过滤方法及相关设备在审
申请号: | 201910884727.3 | 申请日: | 2019-09-19 |
公开(公告)号: | CN110765259A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 陈霖捷;王健宗;黄章成 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 11321 北京市京大律师事务所 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 过滤 文本 文本向量 词汇义 参考 文本相似度 文本过滤 相似度 申请 预处理 人工智能领域 训练文本数据 混合文本 文本数据 向量计算 向量集 映射 分解 | ||
1.一种基于词汇义原的文本过滤方法,其特征在于,包括以下步骤:
获取待过滤文本,对所述待过滤文本进行预处理,获得所述待过滤文本的词汇义原,并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集;
获取参考文本,对所述参考文本进行预处理,获得所述参考文本的词汇义原,并根据所述词汇义原将所述参考文本映射成参考文本向量集;
根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度,并根据所述文本相似度对所述待过滤文本进行文本过滤。
2.如权利要求1所述的基于词汇义原的文本过滤方法,其特征在于,所述对所述待过滤文本进行预处理,获得所述待过滤文本的词汇义原,包括:
对所述待过滤文本进行分词,获得所述待过滤文本的词汇集合;
对所述词汇集合中的每个词汇进行分解,获得每个词汇的义原。
3.如权利要求2所述的基于词汇义原的文本过滤方法,其特征在于,所述根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集,包括:
对所述词汇集合中的每个词汇进行词性标注;
对所述词性标注后的待过滤文本进行权重调整;
根据所述权重调整后的待过滤文本获得每个义原的标量值,根据所述标量值获得所述待过滤文本向量集。
4.如权利要求3所述的基于词汇义原的文本过滤方法,其特征在于,所述对所述词性标注后的待过滤文本进行权重调整,包括:
对所述词汇集合中每个词汇的每个义原分配初始权重,并对每个词汇的所有义原进行归一化处理;
依次对每个词汇的每个义原调整权重。
5.如权利要求1所述的基于词汇义原的文本过滤方法,其特征在于,所述依次对每个词汇的每个义原调整权重,包括:
获取所述待过滤文本中的任意一个句子,并获得所述句子中的任意一个词汇;
计算所述词汇与所属同一句子中其它词汇的关联性,并根据所述词汇与所属同一句子中其它词汇的关联性调整所述词汇对应义原的权重;
遍历所述待过滤文本中所有句子的所有词汇,对所有词汇对应的义原进行权重调整。
6.如权利要求5所述的基于词汇义原的文本过滤方法,其特征在于,所述根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度,包括:
根据公式获得所述待过滤文本向量集与参考文本向量集之间的文本相似度,其中,Vref为参考文本向量集,Vtext为待过滤文本向量集,(Vref,Vtext)为待过滤文本向量集与参考文本向量集的内积,|Vtext|与|Vref|分别为待过滤文本向量集与参考文本向量集的标量。
7.如权利要求6所述的基于词汇义原的文本过滤方法,其特征在于,所述根据所述文本相似度对所述待过滤文本进行文本过滤,包括:
预设文本相似度阈值;
当获取到所述待过滤文本向量集与参考文本向量集之间的文本相似度之后,将所述文本相似度与所述文本相似度阈值进行比较;
当所述文本相似度大于所述文本相似度阈值时,保留当前待过滤文本,否则删除当前待过滤文本。
8.一种基于词汇义原的文本过滤装置,其特征在于,所述装置包括:
第一获取模块:设置为获取待过滤文本,对所述待过滤文本进行预处理,获得所述待过滤文本的词汇义原,并根据所述词汇义原将所述待过滤文本映射成待过滤文本向量集;
第二获取模块:设置为获取参考文本,对所述参考文本进行预处理,获得所述参考文本的词汇义原,并根据所述词汇义原将所述参考文本映射成参考文本向量集;
过滤模块:设置为根据所述待过滤文本向量集及参考文本向量集计算获得文本相似度,并根据所述文本相似度对所述待过滤文本进行文本过滤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910884727.3/1.html,转载请声明来源钻瓜专利网。