[发明专利]一种真实用户评论的区分方法和区分装置有效
申请号: | 201910149762.0 | 申请日: | 2019-02-28 |
公开(公告)号: | CN109933648B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 吴明平;黄楷;梁新敏;吴明辉 | 申请(专利权)人: | 北京学之途网络科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06Q30/02 |
代理公司: | 北京天方智力知识产权代理事务所(普通合伙) 11719 | 代理人: | 谷成 |
地址: | 100070 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 真实 用户 评论 区分 方法 装置 | ||
本发明提供了一种真实用户评论的区分方法和区分装置,解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。方法包括:对行业文本的文本特征进行比较,根据比较相似度确定新分类类别;根据新分类类别调整初始分类规则形成更新分类规则,利用更新分类规则进行行业文本分类。利用初始分类规则对行业文本进行分类形成对真实用户评论的最基本分类。基于文本相似特征形成新的分类规则,进一步准确用户分类,使得行业文本信息中真实用户评论与非正常用户评论得以区别,可更加精确的识别到各种数据类别。同时在随着不断地从规则到新文本特征信息,再从新文本特征信息到规则的迭代,使得规则和真实用户观点信息均在不断地完善和增长。
技术领域
本发明涉及语义识别技术领域,具体涉及一种真实用户评论的区分方法和区分装置。
背景技术
用户在互联网各平台发表的评论、原创博文等文本信息,反映了用户对于某个事件的持有态度或者某个品牌产品的评价,这些信息可用于发掘用户的兴趣特征和行为模式,进行更加精确的舆情分析,从而实现个性化的精准营销。从文本中进行真实用户评论信息的抽取是实现上述技术目的关键。
目前,对于挖掘真实用户文本的方法一类是以文本内容分析为主,但是忽略了规模数据量化处理和反馈结果的客观性与准确性,误差较大,人工成本较高。另一类则是从用户个人信息出发,判断此用户是否是真实用户,但是存在较大的误判风险与局限,首先用户类别的识别存在一定的误差率,其次,同一个用户在某些平台中发布的文本类型也是不唯一的,而且此种方法无法分辨出非真实用户评论的文本存在哪些类别,使得进一步挖掘全量文本数据的文本特征比较困难。现有技术利用部分文本的文本特征进行类别人工聚类可以获得相对稳定的文本分类,并通过适配分类规则对大规模文本进行自动匹配分类。但这种分类方法对全量文本数据中的潜在分类缺少必要的识别手段。
发明内容
鉴于上述问题,本发明实施例提供一种真实用户评论的区分方法和区分装置,解决通过评论数据无法有效获得真实用户评论排除虚假用户的技术问题。
本发明实施例的真实用户评论的区分方法,包括:
对行业文本的文本特征进行比较,根据所述比较相似度确定新分类类别;
根据所述新分类类别调整初始分类规则形成更新分类规则,利用所述更新分类规则进行所述行业文本分类。
本发明一实施例中,所述行业文本的形成过程包括:
确定所述行业文本的数据源,对数据源同步采集行业数据;
确定所述行业数据中包含的信息类型;
量化所述行业数据中所述信息类型,形成所述行业文本和对应的文本特征。
本发明一实施例中,所述信息类型至少包括文本信息来源、文本信息属性或用户属性中的一种,其中:
所述文本信息来源至少包括主流新闻发布平台、专业网站移动端、以及微博、微信、视频或博客中的一种;
所述文本信息属性至少包括文本阅读量、发布时间或文本长度中的一种;
所述用户属性包至少包括昵称、性别、年龄、是否水军标识或粉丝数中的一种。
本发明一实施例中,所述初始分类规则的形成过程包括:
利用所述文本特征对所述行业文本进行聚类确定文本基本分类;
在所述文本基本分类基础上利用所述数据源的数据分类维度对所述行业文本进行分类确定文本附加分类;
根据所述文本基本分类和所述文本附加分类形成对应的所述初始分类规则。
本发明一实施例中,所述聚类采用半监督方式,所述数据分类维度至少包括所述数据源的字段、对所述数据源的过滤关键词或过滤检索式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京学之途网络科技有限公司,未经北京学之途网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910149762.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:线圈组件
- 下一篇:发电机的端部绕组的冷却