[发明专利]用于检测文本的方法和装置在审
申请号: | 201610643211.6 | 申请日: | 2016-08-08 |
公开(公告)号: | CN107741933A | 公开(公告)日: | 2018-02-27 |
发明(设计)人: | 潘小光 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 检测 文本 方法 装置 | ||
1.一种用于检测文本的方法,其特征在于,所述方法包括:
获取已检测的有效文本和已检测的无效文本;
利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;
获取用户通过用户终端发送的待检测文本;
利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。
2.根据权利要求1所述的方法,其特征在于,所述待检测文本包括:所述用户的标识、选项答案、段落;以及
在所述利用所述文本分类模型检测所述待检测文本之前,所述方法还包括:
检测以下至少一项是否满足:预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符;
响应于以上任意一项满足,确定所述待检测文本为无效文本。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于以上均不满足,将所述文本分类模型确定的有效文本作为二次检测文本;
对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例;
当所述单字所占的比例大于预设阈值时,确定所述二次检测文本为无效文本。
4.根据权利要求3所述的方法,其特征在于,所述对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例,包括:
对所述二次检测文本的段落进行分词处理,得到词序列;
确定所述词序列中词的数量以及单字的数量;
将所述单字的数量与所述词的数量的比值作为所述单字所占的比例。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
当所述单字所占的比例小于或等于所述预设阈值时,确定所述二次检测文本为有效文本。
6.根据权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:
检测确定的无效文本中用户的标识是否位于所述预设的用户标识列表中;
响应于确定的无效文本中用户的标识不位于所述预设的用户标识列表中,将所述确定的无效文本中用户的标识加入所述预设的用户标识列表中。
7.根据权利要求2-4任一项所述的方法,其特征在于,所述利用获取的有效文本和无效文本训练分类算法模型,包括:
将获取的有效文本中的至少一个段落作为有效语料;
将获取的无效文本中的至少一个段落作为无效语料;
利用所述有效语料和所述无效语料训练所述分类算法模型。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
存储或输出确定的有效文本及确定的无效文本。
9.一种用于检测文本的装置,其特征在于,所述装置包括:
第一获取单元,用于获取已检测的有效文本和已检测的无效文本;
训练单元,用于利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;
第二获取单元,用于获取用户通过用户终端发送的待检测文本;
第一检测单元,用于利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本和无效文本。
10.根据权利要求9所述的装置,其特征在于,所述待检测文本包括:所述用户的标识、选项答案、段落;以及
所述装置还包括:
第二检测单元,用于在所述第一检测单元利用所述文本分类模型检测所述待检测文本之前,检测以下至少一项是否满足:预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符;
第一无效确定单元,用于响应于以上任意一项满足,确定所述待检测文本为无效文本。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
二次检测单元,用于响应于以上均不满足,将所述文本分类模型确定的有效文本作为二次检测文本;
分词单元,用于对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例;
第二无效确定单元,用于当所述单字所占的比例大于预设阈值时,确定所述二次检测文本为无效文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610643211.6/1.html,转载请声明来源钻瓜专利网。