[发明专利]一种真实用户评论的区分方法和区分装置有效

申请号：	201910149762.0	申请日：	2019-02-28
公开（公告）号：	CN109933648B	公开（公告）日：	2022-07-05
发明（设计）人：	吴明平;黄楷;梁新敏;吴明辉	申请（专利权）人：	北京学之途网络科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F16/35;G06Q30/02
代理公司：	北京天方智力知识产权代理事务所(普通合伙) 11719	代理人：	谷成
地址：	100070 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种真实用户评论区分方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种真实用户评论的区分方法和区分装置，解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。方法包括：对行业文本的文本特征进行比较，根据比较相似度确定新分类类别；根据新分类类别调整初始分类规则形成更新分类规则，利用更新分类规则进行行业文本分类。利用初始分类规则对行业文本进行分类形成对真实用户评论的最基本分类。基于文本相似特征形成新的分类规则，进一步准确用户分类，使得行业文本信息中真实用户评论与非正常用户评论得以区别，可更加精确的识别到各种数据类别。同时在随着不断地从规则到新文本特征信息，再从新文本特征信息到规则的迭代，使得规则和真实用户观点信息均在不断地完善和增长。

技术领域

本发明涉及语义识别技术领域，具体涉及一种真实用户评论的区分方法和区分装置。

背景技术

用户在互联网各平台发表的评论、原创博文等文本信息，反映了用户对于某个事件的持有态度或者某个品牌产品的评价，这些信息可用于发掘用户的兴趣特征和行为模式，进行更加精确的舆情分析，从而实现个性化的精准营销。从文本中进行真实用户评论信息的抽取是实现上述技术目的关键。

目前，对于挖掘真实用户文本的方法一类是以文本内容分析为主，但是忽略了规模数据量化处理和反馈结果的客观性与准确性，误差较大，人工成本较高。另一类则是从用户个人信息出发，判断此用户是否是真实用户，但是存在较大的误判风险与局限，首先用户类别的识别存在一定的误差率，其次，同一个用户在某些平台中发布的文本类型也是不唯一的，而且此种方法无法分辨出非真实用户评论的文本存在哪些类别，使得进一步挖掘全量文本数据的文本特征比较困难。现有技术利用部分文本的文本特征进行类别人工聚类可以获得相对稳定的文本分类，并通过适配分类规则对大规模文本进行自动匹配分类。但这种分类方法对全量文本数据中的潜在分类缺少必要的识别手段。

发明内容

鉴于上述问题，本发明实施例提供一种真实用户评论的区分方法和区分装置，解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。

本发明实施例的真实用户评论的区分方法，包括：

对行业文本的文本特征进行比较，根据所述比较相似度确定新分类类别；

根据所述新分类类别调整初始分类规则形成更新分类规则，利用所述更新分类规则进行所述行业文本分类。

本发明一实施例中，所述行业文本的形成过程包括：

确定所述行业文本的数据源，对数据源同步采集行业数据；

确定所述行业数据中包含的信息类型；

量化所述行业数据中所述信息类型，形成所述行业文本和对应的文本特征。

本发明一实施例中，所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种，其中：

所述文本信息来源至少包括主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客中的一种；

所述文本信息属性至少包括文本阅读量、发布时间或文本长度中的一种；