[发明专利]一种真实用户评论的区分方法和区分装置有效

专利信息
申请号: 201910149762.0 申请日: 2019-02-28
公开(公告)号: CN109933648B 公开(公告)日: 2022-07-05
发明(设计)人: 吴明平;黄楷;梁新敏;吴明辉 申请(专利权)人: 北京学之途网络科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06Q30/02
代理公司: 北京天方智力知识产权代理事务所(普通合伙) 11719 代理人: 谷成
地址: 100070 北京市朝阳*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 真实 用户 评论 区分 方法 装置
【权利要求书】:

1.一种真实用户评论的区分方法,其特征在于,包括:

对行业文本的文本特征进行比较,根据所述比较相似度确定新分类类别;

根据所述新分类类别调整初始分类规则形成更新分类规则,利用所述更新分类规则进行所述行业文本分类;

所述形成更新分类规则包括:

通过对比分类规则形成的分类行业文本间的相似度进行规则聚合;

通过统计分类规则形成的分类行业文本在全量行业文本中的占比进行分类规则淘汰。

2.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述行业文本的形成过程包括:

确定所述行业文本的数据源,对数据源同步采集行业数据;

确定所述行业数据中包含的信息类型;

量化所述行业数据中所述信息类型,形成所述行业文本和对应的文本特征。

3.如权利要求2所述的真实用户评论的区分方法,其特征在于,所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种,其中:

所述文本信息来源至少包括主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客中的一种;

所述文本信息属性至少包括文本阅读量、发布时间或文本长度中的一种;

所述用户属性包至少包括昵称、性别、年龄、是否水军标识或粉丝数中的一种。

4.如权利要求2所述的真实用户评论的区分方法,其特征在于,所述初始分类规则的形成过程包括:

利用所述文本特征对所述行业文本进行聚类确定文本基本分类;

在所述文本基本分类基础上利用所述数据源的数据分类维度对所述行业文本进行分类确定文本附加分类;

根据所述文本基本分类和所述文本附加分类形成对应的所述初始分类规则。

5.如权利要求4所述的真实用户评论的区分方法,其特征在于,所述聚类采用半监督方式,所述数据分类维度至少包括所述数据源的字段、对所述数据源的过滤关键词或过滤检索式。

6.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述根据所述比较相似度确定新分类类别包括:

建立所述行业文本的simhash签名,通过所述simhash签名间的汉明距离确定行业文本间的相似度;

根据所述相似度获得相似行业文本的比例,根据比例确定所述新分类类别。

7.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述比较相似度包括:

对单一行业文本进行分词获取语料的词向量特征;

对所述语料的词向量特征Hash化;

对Hash化语料的向量特征进行加权排序;

对所述加权排序后的向量特征合并形成散列化字符串;

对所属散列化字符串降维形成simhash签名;

根据simhash签名判断所述行业文本间的汉明距离。

8.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述汉明距离小于等于位数阈值判定两个行业文本间具有相似度,大于位数阈值判定两个行业文本间不具有相似度。

9.如权利要求6所述的真实用户评论的区分方法,其特征在于,所述相似行业文本的数量等于或大于全量行业文本数量的设定比例阈值时,确定相似行业文本形成所述新分类类别。

10.如权利要求1所述的真实用户评论的区分方法,其特征在于,所述调整初始分类规则过程包括:

对所述新分类类别的行业文本进行分类效果校验,根据校验结果调整所述初始分类规则。

11.如权利要求10所述的真实用户评论的区分方法,其特征在于,所述校验结果确认是新分类类别时的修正过程包括:

确认所述新分类类别属于非正常用户发布的行业文本;

将所述新分类类别设置为单独类别或现有分类类别的分属类别;

为所述新分类类别匹配新分类规则,覆盖此类非正常用户发布的行业文本。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910149762.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top