[发明专利]文本可读性评价方法、计算机设备及计算机存储介质有效
申请号: | 202110692925.7 | 申请日: | 2021-06-22 |
公开(公告)号: | CN113408295B | 公开(公告)日: | 2023-02-28 |
发明(设计)人: | 毛瑞彬;朱菁;潘斌强;邓永翠;李霁;杨雯雯;张大千;商齐;张俊;杨建明 | 申请(专利权)人: | 深圳证券信息有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06N20/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王学强 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 可读性 评价 方法 计算机 设备 存储 介质 | ||
本申请实施例公开了一种文本可读性评价方法、计算机设备及计算机存储介质,用于评价文本是否通俗易懂。本申请实施例提供了根据多种语义距离评价文本可读性的具体实施方式,以及提供了一种更科学的语义模型训练的方式和具体步骤,可以评价文本面向各种不同知识背景人群的可读性和通俗易懂性,同时还量化了文本可读性评价指标,使得文本可读性不再由人为主观评价,提高了文本可读性评价的准确性和可靠程度,具有更高的可用性和可实践性。
技术领域
本申请实施例涉及数据处理领域,具体涉及一种文本可读性评价方法、计算机设备及计算机存储介质。
背景技术
《中华人民共和国证券法》第五章第七十八条规定信息披露义务人披露的信息,应当真实、准确、完整,简明清晰,通俗易懂,不得有虚假记载、误导性陈述或者重大遗漏。上市公司或拟上市公司的信息披露文本需充分披露投资者作出价值判断和投资决策所必需的信息,因此,信息披露文本是否通俗易懂,决定了信息披露的有效性,研究证明,信息披露复杂性或可读性与公司未来的盈利表现或股价表现有着紧密联系。
最早由美国教授Robert Gunning于1952年提出迷雾指数(The Gunning FOGIndex),该指数可从词数、难度、完整思维的数量和平均句长等方面考察一篇文章的阅读难度。因为英文单词的长度可以一定程度反映单词的难度,而汉字则难以使用该方法,因此在中文文本可阅读性的评价方面,研究人员逐渐增加了笔画数、专业词汇频率、转折词使用频率、单句中字数等特征,对中文文本的可阅读性进行评价,这些方法虽然一定程度解决了中文难词的识别问题,但无法覆盖所有方面,比如简单的字组合在一起仍然存在无法理解的情况,比如“量子纠缠”。
另外,这些研究的应用场景主要面向阅读分级,也就是说评价文本是否适合一群具有相同阅读理解能力的人,比如霍金的《时间简史》是否适合小学生阅读。而信息披露文本是否足够通俗让投资者易懂,这一问题难以适用上述方法,原因是投资者并不具备相同的知识背景,绝大多数投资者具备较少的复杂财务知识或商业知识,因此如何判断信息披露文本是否通俗易懂需要另辟蹊径。
发明内容
本申请实施例提供了一种文本可读性评价方法、计算机设备及计算机存储介质,用于评价文本是否通俗易懂。
本申请实施例第一方面提供了一种文本可读性评价方法,所述方法包括:
获得标准文本及待评价的目标文本,所述标准文本为预先确定的可读性符合预设要求的文本;
构建训练语料库,所述训练语料库包括第一文本集合、第二文本集合及第三文本集合,所述第二文本集合的可读性在所述训练语料库中最强,所述第三文本集合的可读性在所述训练语料库中最弱;
获得预先训练完成的第一语言模型、第二语言模型及第三语言模型,所述第一语言模型由机器学习算法对所述第一文本集合训练得到,所述第二语言模型由机器学习算法对所述第二文本集合训练得到,所述第三语言模型由机器学习算法对所述第三文本集合训练得到;
计算所述标准文本基于所述第一语言模型的第一语义向量表达与基于所述第二语言模型的第二语义向量表达之间的第一标准语义距离,计算所述第一语义向量表达与所述标准文本基于所述第三语言模型的第三语义向量表达之间的第二标准语义距离;
计算所述目标文本基于所述第一语言模型的语义向量表达与基于所述第二语言模型的语义向量表达之间的第一目标语义距离,计算所述目标文本基于所述第一语言模型的语义向量表达与基于所述第三语言模型的语义向量表达之间的第二目标语义距离;
比对所述第一标准语义距离、所述第二标准语义距离与所述第一目标语义距离、所述第二目标语义距离,根据比对结果确定所述目标文本的可读性大小。
本申请实施例第二方面提供了一种计算机设备,所述计算机设备包括:
获取单元,用于获得标准文本及待评价的目标文本,所述标准文本为预先确定的可读性符合预设要求的文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳证券信息有限公司,未经深圳证券信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110692925.7/2.html,转载请声明来源钻瓜专利网。