[发明专利]目标文本检测方法、模型训练方法、装置及设备在审

申请号：	201911013036.2	申请日：	2019-10-23
公开（公告）号：	CN110879832A	公开（公告）日：	2020-03-13
发明（设计）人：	曹绍升	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06F40/289;G06F40/30
代理公司：	北京博思佳知识产权代理有限公司 11415	代理人：	周嗣勇
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标文本检测方法模型训练装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种目标文本检测方法、模型训练方法、装置及设备。在获取待检测文本后，基于待检测文本中各词语的n元拼音以及n元笔画得到各词语的第一词向量，然后将第一词向量输入到预先训练的目标文本检测模型，检测文本是否为目标文本。由于第一词向量是基于所述词语的n元拼音以及n元笔画得到，因而具有“音”和“形”的特性，且更细粒度表现了词语之间的关联，因而在根据第一词向量来检测文本是否为目标文本时，可以更加准确地检测出一些形近和音近的目标文本。

技术领域

本说明书涉及计算机技术领域，尤其涉及目标文本检测方法、模型训练方法、装置及设备。

背景技术

目前，很多场景都需要对文本进行检测，以筛选出符合一定条件的目标文本。举个例子，很多APP或者网站都会为用户提供留言评论的功能。比如，在手淘、天猫和闲鱼等APP中，都会为用户提供留言评论的功能。由于一个用户的留言评论其他的用户都可以看到，为了避免不良信息在APP内的传播，需要对这些评论进行检测，将一些违规的评论检测出来，比如涉及传播色情信息、违法犯罪信息等评论，禁止其发表和传播。为了更准确地从海量文本中将符合条件的目标文本检测出来，需要对目标文本检测方法加以改进。

发明内容

基于此，本说明书提供了一种目标文本检测方法、模型训练方法、装置及设备。

根据本说明书实施例的第一方面，一种目标文本检测方法，所述方法包括：

获取待检测文本；

分别生成所述待检测文本中各词语的第一词向量，其中，所述第一词向量基于所述词语的n元拼音以及n元笔画得到；

将所述第一词向量输入到预先训练的文本检测模型，以确定所述待检测文本是否为目标文本。

根据本说明书实施例的第二方面，提供一种文本检测模型训练方法，所述方法包括：

获取训练文本及其标签，所述标签用于指示所述训练文本是否为目标文本；

生成所述训练文本中各词语的第二词向量，其中，所述第二词向量基于所述词语的n元拼音以及n元笔画得到；

根据所述第二词向量和所述标签训练得到所述文本检测模型。

根据本说明书实施例的第三方面，提供一种目标文本检测装置，所述装置包括：

获取模块，用于获取待检测文本；