[发明专利]文本质量评估方法、装置、存储介质及计算机设备有效
申请号: | 202110412219.2 | 申请日: | 2021-04-16 |
公开(公告)号: | CN112966509B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 杨森 | 申请(专利权)人: | 重庆度小满优扬科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06N3/0442 |
代理公司: | 北京知帆远景知识产权代理有限公司 11890 | 代理人: | 刘岩磊 |
地址: | 401121 重庆市渝*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 质量 评估 方法 装置 存储 介质 计算机 设备 | ||
1.一种文本质量评估方法,其特征在于,所述方法包括:
获取待评估文本,所述待评估文本为将通话场景中的录音文件进行语音识别得到的对话文本数据;
根据特有专名词典和分词工具,对所述待评估文本进行分词处理,以得到所述待评估文本的分词结果,所述特有专名词典是根据所述通话场景所属的特定应用场景或特定领域中常用的专有名词预先设定的;
对所述待评估文本的分词结果进行特征提取,以得到所述待评估文本的文本特征,所述文本特征包括以下任意多种:文本长度、词重复度、标点个数、生僻个数、字重复度、整句中词最大长度、词出现频率;
根据所述待评估文本的分词结果,计算所述待评估文本的文本信息熵,包括:根据所述待评估文本的分词结果中单个词的词频与样本集总词个数,确定单个词的出现频率;将所述单个词的出现频率乘以所述单个词的出现频率的对数值得到单个词对应的第一乘积;根据所述待评估文本中所有词的第一乘积之和,确定所述待评估文本的文本信息熵,所述待评估文本的文本信息熵表示所述待评估文本中文本信息的紊乱程度;
根据所述待评估文本的分词结果,计算所述待评估文本在预设的语音模型中的文本出现概率,所述文本出现概率是根据所述待评估文本中所有词的出现概率的乘积确定的,所述预设的语音模型是将从内部客服场景中获取到的正确文本输入初始语音模型中进行训练得到的;
根据所述待评估文本的文本特征、文本信息熵和文本出现概率对所述待评估文本进行文本质量评估,以得到所述待评估文本的评估结果,包括:将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果;其中所述评估结果包含预设质量等级中每一等级对应的评估分数,所述预设质量等级用于表示文本可读性,所述预设质量等级包括以下四个质量等级:第一质量等级用于表示能读并完全正确的文本质量,第二质量等级用于表示能读懂但有瑕疵的文本质量,第三质量等级用于表示能读懂部分含义的文本质量,第四质量等级用于表示完全读不懂的文本质量;所述训练好的文本质量评估模型是基于包括多个标注文本的训练集进行训练得到的,每个所述标注文本含有对应标注的质量等级。
2.如权利要求1所述的文本质量评估方法,其特征在于,在所述将所述待评估文本的文本特征、文本信息熵和文本出现概率输入训练好的文本质量评估模型,以输出预设质量等级中每一等级对应的评估分数作为所述待评估文本的评估结果之前,还包括:
获取训练集,所述训练集包括多个标注文本;
对所述训练集中的标注文本进行分词处理,以得到每一所述标注文本的分词结果;
对所述训练集中每一所述标注文本的分词结果进行特征提取,以得到每一所述标注文本的文本特征;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本的文本信息熵;
根据所述训练集中每一所述标注文本的分词结果,计算每一所述标注文本在预设的语音模型中的文本出现概率;
将所述训练集中的所述标注文本的文本特征、文本信息熵和文本出现概率作为输入参数,以及将所述预设质量等级中每一等级对应的评估分数作为输出参数,对所述文本质量评估模型中进行学习训练,以更新所述文本质量评估模型的模型参数,生成训练后的文本质量评估模型。
3.如权利要求2所述的文本质量评估方法,其特征在于,所述获取训练集,包括:
获取包含有多个初始语音识别文本的训练集;
根据文本长度和词个数对所述初始语音识别文本进行初筛处理;
根据所述预设质量等级对所述初筛后的多个初始语音识别文本进行标注,以得到所述多个标注文本。
4.如权利要求1所述的文本质量评估方法,其特征在于,在所述得到所述待评估文本的评估结果之后,还包括:
根据所述评估结果,对所述待评估文本进行分类;
基于分类结果对已评估的文本集中语义相似的已评估文本进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆度小满优扬科技有限公司,未经重庆度小满优扬科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110412219.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:PC全自动抹平机
- 下一篇:一种基于有限元法的三维空间电场的计算方法