[发明专利]一种文本的质量清洗方法、装置及介质在审
申请号: | 202111583937.2 | 申请日: | 2021-12-22 |
公开(公告)号: | CN114298033A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 李峰;申冲 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/335;G06F16/35;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 常亮 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 质量 清洗 方法 装置 介质 | ||
1.一种文本的质量清洗方法,其特征在于,包括:
对互联网语料进行采样,得到采样数据;
从所述采样数据中抽取预先设定的低质量文本,所述低质量文本包括不通顺的语句、知识表达不充分的语句和重复出现的语句,所述预先设定的低质量文本至少包括其中两类。
2.根据权利要求1所述的文本的质量清洗方法,其特征在于,若所述低质量文本为所述不通顺的语句,则所述从所述采样数据中抽取预先设定的低质量文本包括:
计算所述采样数据中各所述语句的困惑度;
根据各所述语句的所述困惑度确定所述低质量文本并进行抽取,其中,所述困惑度与所述语句为所述低质量文本的概率成正比。
3.根据权利要求1所述的文本的质量清洗方法,其特征在于,若所述低质量文本为所述知识表达不充分的语句,则所述从所述采样数据中抽取预先设定的低质量文本包括:
使用jieba分词的TextRank算法筛选各所述语句的关键词;
根据每个所述语句的所述关键词的数量和语句长度计算用于衡量所述关键词的密度的指标;
根据所述指标确定所述低质量文本并进行抽取,其中,所述指标与所述语句为所述低质量文本的概率成反比。
4.根据权利要求1所述的文本的质量清洗方法,其特征在于,若所述低质量文本为重复出现的语句,则所述从所述采样数据中抽取预先设定的低质量文本包括:
获取句向量;
根据所述句向量构建Annoy索引;
通过所述Annoy索引统计相似度超过预设阈值的所述语句;
对各所述语句中的相似问题数量进行排序,以确定所述低质量文本并进行抽取,其中,所述相似问题数量与所述语句为所述低质量文本的概率成正比。
5.根据权利要求1所述的文本的质量清洗方法,其特征在于,若所述低质量文本不属于所述不通顺的语句、所述知识表达不充分的语句和所述重复出现的语句中的任一类,则所述从所述采样数据中抽取预先设定的低质量文本包括:
根据关键词或正则表达式对所述采样数据进行过滤,得到所述低质量文本并进行抽取。
6.根据权利要求1所述的文本的质量清洗方法,其特征在于,还包括:
确定抽取所述低质量文本后剩余的所述采样数据为高质量文本;
根据所述低质量文本和所述高质量文本对文本质量分类模型进行训练调优;
计算所述高质量文本的采样率,根据所述采样率对所述高质量文本进行采样,得到预训练数据集。
7.根据权利要求6所述的文本的质量清洗方法,其特征在于,所述根据所述低质量文本和所述高质量文本对文本质量分类模型进行训练调优包括:
根据所述低质量文本和所述高质量文本构建文本质量分类训练集;
根据所述文本质量分类训练集使用BERT对所述文本质量分类模型进行训练调优。
8.根据权利要求6所述的文本的质量清洗方法,其特征在于,所述计算所述高质量文本的采样率包括:
统计文章级别的所述高质量文本的分布、所述高质量文本的总token数量以及每篇所述文章的所述token的数量分布;
根据目标token数量和所述高质量文本的总所述token数量计算所述采样率。
9.一种文本的质量清洗装置,其特征在于,包括存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至8任一项所述的文本的质量清洗方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的文本的质量清洗方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111583937.2/1.html,转载请声明来源钻瓜专利网。