[发明专利]一种异常文本确定方法、装置、电子设备和介质有效
申请号: | 201911341128.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111125362B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 刘庚;白敬亭;张伟军;彭云鹏;杨经纬 | 申请(专利权)人: | 百度国际科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/23213 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异常 文本 确定 方法 装置 电子设备 介质 | ||
1.一种异常文本确定方法,其特征在于,包括:
根据文本簇中除上次异常文本之外的其他文本,确定本次簇中心特征;
根据所述文本簇中所有文本与所述本次簇中心特征之间的距离,从所述所有文本中选择本次异常文本,包括:
若根据所述本次异常文本,以及文本簇中除所述本次异常文本之外的其他文本,检测到迭代停止事件,则将所述本次异常文本作为所述文本簇中的目标异常文本;或者,
比较所述本次异常文本和所述上次异常文本,并根据比较结果确定所述文本簇中的目标异常文本;
所述方法还包括:
将与所述本次簇中心特征之间距离最近的本次异常文本,作为第一本次异常文本;
将与所述第一本次异常文本之间距离最近的其他本次异常文本,作为第二本次异常文本;
若所述文本簇中除所述本次异常文本之外的所有其他文本,与所述第一本次异常文本之间距离,均大于所述第一本次异常文本与所述第二本次异常文本之间距离,则生成所述迭代停止事件。
2.根据权利要求1所述的方法,其特征在于,将与所述第一本次异常文本之间距离最近的其他本次异常文本,作为第二本次异常文本之后,还包括:
若所述文本簇中除所述本次异常文本之外的每一其他文本,与所述第一本次异常文本之间距离,小于或等于所述第一本次异常文本与所述第二本次异常文本之间距离,则将该其他文本添加到所述本次异常文本中,并触发下次异常文本确定操作。
3.根据权利要求1所述的方法,其特征在于,根据比较结果确定所述文本簇中的目标异常文本,包括:
若所述上次异常文本和所述本次异常文本一致,则将所述本次异常文本作为所述文本簇中的目标异常文本;
若所述上次异常文本和所述本次异常文本不一致,且异常文本确定次数达到设定次数阈值,则将所述上次异常文本和所述本次异常文本作为所述文本簇中的目标异常文本。
4.根据权利要求1所述的方法,其特征在于,还包括:
依据设定聚类类别以及所述聚类类别的关键字,对爬取的文本集进行聚类,得到文本簇。
5.根据权利要求4所述的方法,其特征在于,依据设定聚类类别以及所述聚类类别的关键字,对爬取的文本集进行聚类之前,还包括:
依据设定标题长度、正则表达式以及特定标识符中的至少一个,对所述文本集进行过滤。
6.一种异常文本确定装置,其特征在于,包括:
本次中心特征确定模块,用于根据文本簇中除上次异常文本之外的其他文本,确定本次簇中心特征;
本次异常文本确定模块,用于根据所述文本簇中所有文本与所述本次簇中心特征之间的距离,从所述所有文本中选择本次异常文本;
目标异常文本确定模块,用于根据所述本次异常文本,确定所述文本簇中的目标异常文本;
所述目标异常文本确定模块,具体用于:
若根据所述本次异常文本,以及文本簇中除所述本次异常文本之外的其他文本,检测到迭代停止事件,则将所述本次异常文本作为所述文本簇中的目标异常文本;或者,
比较所述本次异常文本和所述上次异常文本,并根据比较结果确定所述文本簇中的目标异常文本;
迭代停止事件生成模块,用于:
将与所述本次簇中心特征之间距离最近的本次异常文本,作为第一本次异常文本;
将与所述第一本次异常文本之间距离最近的其他本次异常文本,作为第二本次异常文本;
若所述文本簇中除所述本次异常文本之外的所有其他文本,与所述第一本次异常文本之间距离,均大于所述第一本次异常文本与所述第二本次异常文本之间距离,则生成所述迭代停止事件。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的异常文本确定方法。
8.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的异常文本确定方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度国际科技(深圳)有限公司,未经百度国际科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911341128.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性基板及其制备方法
- 下一篇:一种直播互动方法