[发明专利]文本审核模型的测试方法、装置、计算机设备及存储介质在审
申请号: | 202110276895.1 | 申请日: | 2021-03-15 |
公开(公告)号: | CN112989789A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 王晓广;张帅;黄帅 | 申请(专利权)人: | 京东数科海益信息科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 韩海花 |
地址: | 100176 北京市北京经济技*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 审核 模型 测试 方法 装置 计算机 设备 存储 介质 | ||
本公开公开了一种文本审核模型的测试方法、装置、计算机设备及存储介质,涉及自然语言处理、深度学习等人工智能领域。实现方案为:获取待测试的文本审核模型及文本审核模型的类型;根据文本审核模型的类型,从参考文本集中获取多个参考敏感文本及多个参考非敏感文本;基于预设的变换规则,分别将多个参考敏感文本及多个参考非敏感文本进行变换处理,以生成测试文本集,其中测试文本集中包括多个测试文本及每个测试文本对应的标签;利用测试文本集对文本审核模型进行测试,以生成测试结果。通过基于预设的变换规则对参考文本进行变换处理,以获取测试文本集,从而丰富了测试文本集的数量和类型,提高了对文本审核模型测试结果的准确性和可靠性。
技术领域
本公开涉及计算机技术领域,尤其涉及自然语言处理、深度学习等人工智能领域,具体涉及一种文本审核模型的测试方法、装置、计算机设备及存储介质。
背景技术
随着互联网的普及发展,网络平台内容迎来了大爆发,同时也产生了大量的不良有害信息,内容安全已经成为了互联网生态治理的重要内容。
相关技术中,可以在内容发布前,首先通过文本审核模型对内容审核,来尽量避免不良信息的发布和传播。为了保证文本审核模型的准确性和可靠性,文本审核模型在投入使用前,需要利用大量的测试数据进行测试。比如,可以利用人工标注大量的文本测试集对模型进行测试。但是这种测试方式,不仅测试样本获取的成本高,且很难涵盖足够类型的不良有害内容,从而导致产生的测试结果不够准确,不够可靠。
发明内容
本公开提供了一种用于文本审核模型的测试方法、装置、计算机设备以及存储介质。
根据本公开的一方面,提供了一种文本审核模型的测试方法。
获取待测试的文本审核模型及所述文本审核模型的类型;
根据所述文本审核模型的类型,从参考文本集中获取多个参考敏感文本及多个参考非敏感文本;
基于预设的变换规则,分别将所述多个参考敏感文本及多个参考非敏感文本进行变换处理,以生成测试文本集,其中所述测试文本集中包括多个测试文本及每个测试文本对应的标签;
利用所述测试文本集对所述文本审核模型进行测试,以生成测试结果。
根据本公开的第二方面,提供了一种文本审核模型的测试装置。
第一获取模块,用于获取待测试的文本审核模型及所述文本审核模型的类型;
第二获取模块,用于根据所述文本审核模型的类型,从参考文本集中获取多个参考敏感文本及多个参考非敏感文本;
变换模块,用于基于预设的变换规则,分别将所述多个参考敏感文本及多个参考非敏感文本进行变换处理,以生成测试文本集,其中所述测试文本集中包括多个测试文本及每个测试文本对应的标签;
测试模块,用于利用所述测试文本集对所述文本审核模型进行测试,以生成测试结果。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述一方面实施例所述的文本审核模型的测试方法。
根据本公开第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其上存储有计算机程序,所述计算机指令用于使所述计算机执行上述一方面实施例所述的文本审核模型的测试方法。
根据本公开第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求上述一方面实施例所述的文本审核模型的测试方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于京东数科海益信息科技有限公司,未经京东数科海益信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276895.1/2.html,转载请声明来源钻瓜专利网。