[发明专利]文本可读性评价方法、计算机设备及计算机存储介质有效
申请号: | 202110692925.7 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113408295B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 毛瑞彬;朱菁;潘斌强;邓永翠;李霁;杨雯雯;张大千;商齐;张俊;杨建明 | 申请(专利权)人: | 深圳证券信息有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 可读性 评价 方法 计算机 设备 存储 介质 | ||
1.一种文本可读性评价方法,其特征在于,所述方法包括:
获得标准文本及待评价的目标文本,所述标准文本为预先确定的可读性符合预设要求的文本;
构建训练语料库,所述训练语料库包括第一文本集合、第二文本集合及第三文本集合,所述第二文本集合的可读性在所述训练语料库中最强,所述第三文本集合的可读性在所述训练语料库中最弱;
获得预先训练完成的第一语言模型、第二语言模型及第三语言模型,所述第一语言模型由机器学习算法对所述第一文本集合训练得到,所述第二语言模型由机器学习算法对所述第二文本集合训练得到,所述第三语言模型由机器学习算法对所述第三文本集合训练得到;
计算所述标准文本基于所述第一语言模型的第一语义向量表达与基于所述第二语言模型的第二语义向量表达之间的第一标准语义距离,计算所述第一语义向量表达与所述标准文本基于所述第三语言模型的第三语义向量表达之间的第二标准语义距离;
计算所述目标文本基于所述第一语言模型的语义向量表达与基于所述第二语言模型的语义向量表达之间的第一目标语义距离,计算所述目标文本基于所述第一语言模型的语义向量表达与基于所述第三语言模型的语义向量表达之间的第二目标语义距离;
比对所述第一标准语义距离、所述第二标准语义距离与所述第一目标语义距离、所述第二目标语义距离,根据比对结果确定所述目标文本的可读性大小。
2.根据权利要求1所述的方法,其特征在于,所述第一语言模型、所述第二语言模型及所述第三语言模型的训练步骤包括:
获得第一初始语言模型、第二初始语言模型及第三初始语言模型,将所述第一初始语言模型、所述第二初始语言模型及所述第三初始语言模型两两配对,获得3个配对模型;
分别向每个所述配对模型输入训练样本,所述第一初始语言模型以所述第一文本集合为训练样本,所述第二初始语言模型以所述第二文本集合为训练样本,所述第三初始语言模型以所述第三文本集合为训练样本,得到每个所述配对模型中相互配对的两个语言模型各自输出的语义向量表达;
当所述配对模型中相互配对的两个语言模型各自输出的语义向量表达之间的相似度得分小于预设阈值时,停止所述配对模型的训练,得到两份所述第一语言模型、两份所述第二语言模型及两份所述第三语言模型。
3.根据权利要求2所述的方法,其特征在于,所述计算所述标准文本基于所述第一语言模型的第一语义向量表达与基于所述第二语言模型的第二语义向量表达之间的第一标准语义距离,计算所述第一语义向量表达与所述标准文本基于所述第三语言模型的第三语义向量表达之间的第二标准语义距离,包括:
将所述标准文本分别输入至每份所述第一语言模型,得到两份所述第一语言模型输出的两个语义向量表达,取两份所述第一语言模型输出的两个语义向量表达的平均值作为所述第一语义向量表达;
从两份所述第二语言模型及两份所述第三语言模型中,确定由所述第二初始语言模型与所述第三初始语言模型的配对模型训练得到的目标第二语言模型和目标第三语言模型;
将所述标准文本分别输入至所述目标第二语言模型和所述目标第三语言模型,得到所述目标第二语言模型输出的所述第二语义向量表达及所述目标第三语言模型输出的所述第三语义向量表达;
计算所述第一语义向量表达与所述第二语义向量表达之间的所述第一标准语义距离,计算所述第一语义向量表达与所述第三语义向量表达之间的所述第二标准语义距离。
4.根据权利要求1所述的方法,其特征在于,所述比对所述第一标准语义距离、所述第二标准语义距离与所述第一目标语义距离、所述第二目标语义距离,根据比对结果确定所述目标文本的可读性大小,包括:
计算所述第一标准语义距离与所述第一目标语义距离的第一差值,计算所述第二标准语义距离与所述第二目标语义距离的第二差值;
计算所述第一差值与所述第二差值的第三差值,计算所述第一差值与所述第二差值的和值;
计算所述第三差值与所述和值之间的比值,若所述比值在预设范围之内,则确定所述目标文本的可读性大小符合所述预设范围对应的要求;若所述比值不在所述预设范围之内,则确定所述目标文本的可读性大小不符合所述预设范围对应的要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司,未经深圳证券信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692925.7/1.html,转载请声明来源钻瓜专利网。