[发明专利]一种对论坛中有用帖子信息进行分类并整理的方法无效

专利信息
申请号: 200710163936.6 申请日: 2007-10-12
公开(公告)号: CN101178721A 公开(公告)日: 2008-05-14
发明(设计)人: 薛永刚;吕学强;都云程;林春雨;施水才 申请(专利权)人: 北京拓尔思信息技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 10010*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 论坛 有用 帖子 信息 进行 分类 整理 方法
【说明书】:

技术领域

发明与包括文档分类的自然语言处理技术有关。更准确的说,本发明涉及提供一种在论坛帖子信息数量较大且很难用自动分类精确确定类别时,可以有效的将有用信息进行聚集,提供分类信息,从而大大减少人工整理的工作量的方法。

背景技术

随着Internet和电子技术的发展,人们再也不用受到地域的限制,可以方便的在网上交换着各种各样的信息。论坛也作为一种方便、有效的形式被大家广为接受。在大量用户的参与下,论坛中存在着大量的有用信息,这些信息不仅对个人有很好的使用价值,对企业等团体也有很好的使用价值。如某一产品的论坛,用户可以在论坛中发布自己的使用心得、所发现的问题等信息,这些信息可以作为其他个人的购买建议;而且这种信息对企业也有很好的参考价值,可以作为企业改进产品的建议。

但论坛中信息的发布存在着很大的随意性,论坛中包含着有用信息的同时也还包含着大量的无用信息。目前解决的方法有:1、使用文本自动分类的技术,将帖子自动分到所属的类别中,从而达到抽取和整理有用信息的目的。该方法的好处是成本较低且效率高,但在帖子特征不明显而且无用信息数量十分大的情况下准确率较低,不能适用于对抽取信息质量要求较为严格的情况下。2、采用人工的方法来区分有用信息和无用信息,并确定有用信息的类别。该方法的好处就是所得到的结果的准确率极高,但缺点就是效率低且成本高,而且在帖子数量极大的情况下完成极其困难。

因此,我们迫切需要解决的问题是:如何方便有效的得到有用信息。

发明内容

鉴于以上原因,本发明提供了一种可以在帖子数量较大且存在较多无用数据的情况下,方便有效的得到有用信息的方法。

本发明结合网络信息采集装置,对采集来的信息首先利用规则模板进行过滤,将大部分无用信息过滤掉。对于过滤后的信息使用文本自动分类装置,使所有的帖子得到相应的类别,并产生帖子对应类别的置信度。在帖子都得到相应类别和置信度后,根据置信度由大到小进行排列。对于排序后的数据,选取前x%的数据作为第一批挑选数据,由人工进行挑选,若结果数量不满足要求,则再进行后(100-x)%数据的挑选工作,否则不对后(100-x)%的数据进行挑选,达到节省人工的目的。最终,对挑选后的结果进行发布。

本发明相比上述现有方法具有以下优点:

1)利用规则模板自动过滤的方法将大部分无用信息过滤掉,大大减轻了后续挑选工作的工作量。而且根据不同的领域可以生成不同的规则模板,并根据具体情况扩充模板,具有很好的扩充性。

2)在分类的同时得到类别置信度,以置信度排序后按x%和(100-x)%来分割数据。据我们实验的结果,见下表:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术有限公司,未经北京拓尔思信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710163936.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top