[发明专利]一种社群内文本价值的评估方法及装置有效
申请号: | 201910763287.6 | 申请日: | 2019-08-19 |
公开(公告)号: | CN112417088B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 刘垚;邹更;任钰欣;黄梓杰 | 申请(专利权)人: | 武汉渔见晚科技有限责任公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 罗飞 |
地址: | 430070 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社群 文本 价值 评估 方法 装置 | ||
本发明公开了一种社群内文本价值的评估方法,包括:搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理;对目标文本进行预处理,将顺次链接的x个词作为词组,并将目标文本整合至语料库,对词汇数据库和词组数据库进行更新;计算目标文本中包含的词组在更新后的词组数据库中出现的概率;根据目标文本中词组出现的概率,计算每一个词组的信息量;根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的信息量评分。本发明的方法可以提高评分的准确性,改善评估效果。
技术领域
本发明涉及计算机技术领域,具体涉及一种社群内文本价值的评估方法及装置。
背景技术
随着互联网时代的飞速发展,人与人之间的信息网络日益紧密,不同类型的互联网产品将人们聚集成无形的社群,而信息传播则是互联网社群中最重要的主题。
现有技术中,常用的对社群内文本价值的评估主要依赖于社群内用户的反馈。通过用户的反馈形成自文本内容的价值评估,并作为在文本的推广及控制的重要依据。此外,对于文本信息的质量评估,目前常用的有基于机器学习的方法通过人工标注的高质量文本训练集构建文本分类模型,或者针对文本中能体现文本质量的语言成分例如修辞和比喻句的数量来对文本的质量进行评价。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
现有技术中依赖用户反馈的文本评估体系具有滞后性,并且具有不可避免的时间累积效应。滞后性会导致无法在信息得到一定的传播之前对信息进行评估和控制,并且依赖用户对优质信息进行筛选和评估增加了用户的阅读成本;而时间累积效应则使得先出现的信息会不断累积其传播优势,占据用户的信息获取渠道,使得后续出现的优质信息受阻,一方面使得优质信息难以有效曝光,另一方面又会使得用户的信息接收同质化。对于文本信息的质量评估,仅孤立的进行评估,从而导致评估效果不好。
由此可知,现有技术中的方法存在评估效果较差的技术问题。
发明内容
有鉴于此,本发明提供了一种社群内文本价值的评估方法及装置,用以解决或者至少部分解决现有技术中的方法存在的评估效果较差的技术问题。
本发明第一方面提供了一种社群内文本价值的评估方法,包括:
搜集一个社群内的全部语料文本,构建语料库,并对语料文本进行预处理,将顺次链接的x个词作为词组,将所有的词,组成词汇数据库;将所有的词组,组成词汇数据库,其中,x为大于或等于2的正整数;
对目标文本(T)进行预处理,将顺次链接的x个词作为词组,并将目标文本(T)整合至语料库,对词汇数据库和词组数据库进行更新;
计算目标文本(T)中包含的词组在更新后的词组数据库中出现的概率;
根据目标文本(T)中词组出现的概率,计算每一个词组的信息量,具体为:h(phrase)=-log2p(phrase),其中,p(phrase)表示词组出现的概率,h(phrase)表示词组的信息量;
根据词组在社群内的覆盖度,确定词组在社群内的传播潜力,其中,覆盖度与传播潜力成反比;
根据词组的信息量和传播潜力,获得词组的修正信息量,并根据目标文本中包含的所有词组的修正信息量,获得目标文本的原始信息量评分。
在一种实施方式中,在获得目标文本的原始信息量评分之后,所述方法还包括:
将原始信息量评分进行归一化处理得到信息量评分,将其值域控制在[0,100)之间,归一化处理方式为:
NSH(T)=actan(SH(T))*200/π,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉渔见晚科技有限责任公司,未经武汉渔见晚科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910763287.6/2.html,转载请声明来源钻瓜专利网。