[发明专利]一种真实用户评论的区分方法和区分装置有效
申请号: | 201910149762.0 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109933648B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 吴明平;黄楷;梁新敏;吴明辉 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06Q30/02 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100070 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 真实 用户 评论 区分 方法 装置 | ||
1.一种真实用户评论的区分方法,其特征在于,包括:
对行业文本的文本特征进行比较,根据所述比较相似度确定新分类类别;
根据所述新分类类别调整初始分类规则形成更新分类规则,利用所述更新分类规则进行所述行业文本分类;
所述形成更新分类规则包括:
通过对比分类规则形成的分类行业文本间的相似度进行规则聚合;
通过统计分类规则形成的分类行业文本在全量行业文本中的占比进行分类规则淘汰。
2.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述行业文本的形成过程包括:
确定所述行业文本的数据源,对数据源同步采集行业数据;
确定所述行业数据中包含的信息类型;
量化所述行业数据中所述信息类型,形成所述行业文本和对应的文本特征。
3.如权利要求2所述的真实用户评论的区分方法,其特征在于,所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种,其中:
所述文本信息来源至少包括主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客中的一种;
所述文本信息属性至少包括文本阅读量、发布时间或文本长度中的一种;
所述用户属性包至少包括昵称、性别、年龄、是否水军标识或粉丝数中的一种。
4.如权利要求2所述的真实用户评论的区分方法,其特征在于,所述初始分类规则的形成过程包括:
利用所述文本特征对所述行业文本进行聚类确定文本基本分类;
在所述文本基本分类基础上利用所述数据源的数据分类维度对所述行业文本进行分类确定文本附加分类;
根据所述文本基本分类和所述文本附加分类形成对应的所述初始分类规则。
5.如权利要求4所述的真实用户评论的区分方法,其特征在于,所述聚类采用半监督方式,所述数据分类维度至少包括所述数据源的字段、对所述数据源的过滤关键词或过滤检索式。
6.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述根据所述比较相似度确定新分类类别包括:
建立所述行业文本的simhash签名,通过所述simhash签名间的汉明距离确定行业文本间的相似度;
根据所述相似度获得相似行业文本的比例,根据比例确定所述新分类类别。
7.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述比较相似度包括:
对单一行业文本进行分词获取语料的词向量特征;
对所述语料的词向量特征Hash化;
对Hash化语料的向量特征进行加权排序;
对所述加权排序后的向量特征合并形成散列化字符串;
对所属散列化字符串降维形成simhash签名;
根据simhash签名判断所述行业文本间的汉明距离。
8.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述汉明距离小于等于位数阈值判定两个行业文本间具有相似度,大于位数阈值判定两个行业文本间不具有相似度。
9.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述相似行业文本的数量等于或大于全量行业文本数量的设定比例阈值时,确定相似行业文本形成所述新分类类别。
10.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述调整初始分类规则过程包括:
对所述新分类类别的行业文本进行分类效果校验,根据校验结果调整所述初始分类规则。
11.如权利要求10所述的真实用户评论的区分方法,其特征在于,所述校验结果确认是新分类类别时的修正过程包括:
确认所述新分类类别属于非正常用户发布的行业文本;
将所述新分类类别设置为单独类别或现有分类类别的分属类别;
为所述新分类类别匹配新分类规则,覆盖此类非正常用户发布的行业文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910149762.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:线圈组件
- 下一篇:发电机的端部绕组的冷却