[发明专利]一种文本审核中的规则提取方法及系统有效
申请号: | 201810866635.8 | 申请日: | 2018-08-01 |
公开(公告)号: | CN110019816B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 徐建 | 申请(专利权)人: | 云知声(上海)智能科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/30 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 朱健;张国香 |
地址: | 200030 上海市徐*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 审核 中的 规则 提取 方法 系统 | ||
1.一种文本审核中的规则提取方法,其特征在于,所述方法包括:
获取待处理的文本数据;
按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;
对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;
针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;
针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。
2.根据权利要求1所述的方法,其特征在于,按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征包括:
以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取SkippingBigram特征。
3.根据权利要求1所述的方法,其特征在于,对所述文本数据进行泛化处理包括:
确定包含人名和人称代词的命名实体,并利用所述命名实体对所述文本数据进行泛化。
4.根据权利要求1或3所述的方法,其特征在于,从泛化处理后的文本数据中提取N-Gram特征包括:
以字符为单位,从所述泛化处理后的文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述泛化处理后的文本数据中提取Skipping Bigram特征。
5.根据权利要求1所述的方法,其特征在于,所述语句依存关系树中,节点表征语句中的单词,节点与节点之间的边表征单词之间的依存关系。
6.根据权利要求1所述的方法,其特征在于,根据所述语句依存关系树生成N-Gram特征包括:
针对所述语句依存关系树中的叶子节点,根据与所述叶子节点具备依存关系的其它节点,生成N-Gram特征。
7.根据权利要求1所述的方法,其特征在于,形成每个审核类别的审核规则包括:
确定当前候选规则命中的审核文本,并识别所述命中的审核文本对应的违规类别,以确定所述当前候选规则在违规类别中的分布距离;
根据所述当前候选规则在违规类别中的分布距离,构建评价函数,并利用所述评价函数确定所述当前候选规则的评价结果;
分别从不同的违规类别对应的候选规则中抽取评价结果较高的目标规则,并将所述目标规则作为对应违规类别文本的标准审核规则。
8.一种文本审核中的规则提取系统,其特征在于,所述系统包括:
数据获取单元,用于获取待处理的文本数据;
第一候选规则构建单元,用于按照以字符为单位以及以单词为单位,分别提取所述文本数据的N-Gram特征,以构建第一候选规则;
第二候选规则构建单元,用于对所述文本数据进行泛化处理,并从泛化处理后的文本数据中提取N-Gram特征,以构建第二候选规则;
第三候选规则构建单元,用于针对所述文本数据中的语句,构建语句依存关系树,并根据所述语句依存关系树生成N-Gram特征,以构建第三候选规则;
标准审核规则确定单元,用于针对训练样本,抽取上述三种候选规则;并针对不同审核类别,确定对应的规则权重,并通过预先设置的阈值判定每个审核类别的规则集合,以形成每个审核类别的审核规则。
9.根据权利要求8所述的系统,其特征在于,所述第一候选规则构建单元包括:
特征提取模块,用于以字符为单位,从所述文本数据中提取长度为3的3元模型特征,以及以单词为单位,从所述文本数据中提取Skipping Bigram特征。
10.根据权利要求8所述的系统,其特征在于,所述标准审核规则确定单元包括:
分布距离确定模块,用于确定当前候选规则命中的审核文本,并识别所述命中的审核文本对应的违规类别,以确定所述当前候选规则在违规类别中的分布距离;
评价结果确定模块,用于根据所述当前候选规则在违规类别中的分布距离,构建评价函数,并利用所述评价函数确定所述当前候选规则的评价结果;
标准确定模块,用于分别从不同的违规类别对应的候选规则中抽取评价结果较高的目标规则,并将所述目标规则作为对应违规类别文本的标准审核规则。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声(上海)智能科技有限公司,未经云知声(上海)智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810866635.8/1.html,转载请声明来源钻瓜专利网。