[发明专利]目标文本检测方法、模型训练方法、装置及设备在审
申请号: | 201911013036.2 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110879832A | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 曹绍升 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 周嗣勇 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 文本 检测 方法 模型 训练 装置 设备 | ||
本说明书实施例提供一种目标文本检测方法、模型训练方法、装置及设备。在获取待检测文本后,基于待检测文本中各词语的n元拼音以及n元笔画得到各词语的第一词向量,然后将第一词向量输入到预先训练的目标文本检测模型,检测文本是否为目标文本。由于第一词向量是基于所述词语的n元拼音以及n元笔画得到,因而具有“音”和“形”的特性,且更细粒度表现了词语之间的关联,因而在根据第一词向量来检测文本是否为目标文本时,可以更加准确地检测出一些形近和音近的目标文本。
技术领域
本说明书涉及计算机技术领域,尤其涉及目标文本检测方法、模型训练方法、装置及设备。
背景技术
目前,很多场景都需要对文本进行检测,以筛选出符合一定条件的目标文本。举个例子,很多APP或者网站都会为用户提供留言评论的功能。比如,在手淘、天猫和闲鱼等APP中,都会为用户提供留言评论的功能。由于一个用户的留言评论其他的用户都可以看到,为了避免不良信息在APP内的传播,需要对这些评论进行检测,将一些违规的评论检测出来,比如涉及传播色情信息、违法犯罪信息等评论,禁止其发表和传播。为了更准确地从海量文本中将符合条件的目标文本检测出来,需要对目标文本检测方法加以改进。
发明内容
基于此,本说明书提供了一种目标文本检测方法、模型训练方法、装置及设备。
根据本说明书实施例的第一方面,一种目标文本检测方法,所述方法包括:
获取待检测文本;
分别生成所述待检测文本中各词语的第一词向量,其中,所述第一词向量基于所述词语的n元拼音以及n元笔画得到;
将所述第一词向量输入到预先训练的文本检测模型,以确定所述待检测文本是否为目标文本。
根据本说明书实施例的第二方面,提供一种文本检测模型训练方法,所述方法包括:
获取训练文本及其标签,所述标签用于指示所述训练文本是否为目标文本;
生成所述训练文本中各词语的第二词向量,其中,所述第二词向量基于所述词语的n元拼音以及n元笔画得到;
根据所述第二词向量和所述标签训练得到所述文本检测模型。
根据本说明书实施例的第三方面,提供一种目标文本检测装置,所述装置包括:
获取模块,用于获取待检测文本;
词向量生成模块,用于分别生成所述待检测文本中各词语的第一词向量,其中,所述第一词向量基于所述词语的n元拼音以及n元笔画得到;
判定模块,用于将所述第一词向量输入到预先训练的文本检测模型,以确定所述待检测文本是否为目标文本。
根据本说明书实施例的第四方面,提供一种文本检测模型训练装置,所述装置包括:
获取模块,用于根据获取训练文本及其标签,所述标签用于指示所述训练文本是否为目标文本;
词向量生成模块,用于生成所述训练文本中各词语的第二词向量,其中,所述第二词向量基于所述词语的n元拼音以及n元笔画得到;
训练模块,用于根据所述第二词向量和所述标签训练得到所述文本检测模型。
根据本说明书实施例的第五方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现任一实施例所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911013036.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:激光扫描电极结构
- 下一篇:一种惯性传感器及其控制方法