[发明专利]一种对论坛中有用帖子信息进行分类并整理的方法无效
申请号: | 200710163936.6 | 申请日: | 2007-10-12 |
公开(公告)号: | CN101178721A | 公开(公告)日: | 2008-05-14 |
发明(设计)人: | 薛永刚;吕学强;都云程;林春雨;施水才 | 申请(专利权)人: | 北京拓尔思信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 10010*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 论坛 有用 帖子 信息 进行 分类 整理 方法 | ||
技术领域
本发明与包括文档分类的自然语言处理技术有关。更准确的说,本发明涉及提供一种在论坛帖子信息数量较大且很难用自动分类精确确定类别时,可以有效的将有用信息进行聚集,提供分类信息,从而大大减少人工整理的工作量的方法。
背景技术
随着Internet和电子技术的发展,人们再也不用受到地域的限制,可以方便的在网上交换着各种各样的信息。论坛也作为一种方便、有效的形式被大家广为接受。在大量用户的参与下,论坛中存在着大量的有用信息,这些信息不仅对个人有很好的使用价值,对企业等团体也有很好的使用价值。如某一产品的论坛,用户可以在论坛中发布自己的使用心得、所发现的问题等信息,这些信息可以作为其他个人的购买建议;而且这种信息对企业也有很好的参考价值,可以作为企业改进产品的建议。
但论坛中信息的发布存在着很大的随意性,论坛中包含着有用信息的同时也还包含着大量的无用信息。目前解决的方法有:1、使用文本自动分类的技术,将帖子自动分到所属的类别中,从而达到抽取和整理有用信息的目的。该方法的好处是成本较低且效率高,但在帖子特征不明显而且无用信息数量十分大的情况下准确率较低,不能适用于对抽取信息质量要求较为严格的情况下。2、采用人工的方法来区分有用信息和无用信息,并确定有用信息的类别。该方法的好处就是所得到的结果的准确率极高,但缺点就是效率低且成本高,而且在帖子数量极大的情况下完成极其困难。
因此,我们迫切需要解决的问题是:如何方便有效的得到有用信息。
发明内容
鉴于以上原因,本发明提供了一种可以在帖子数量较大且存在较多无用数据的情况下,方便有效的得到有用信息的方法。
本发明结合网络信息采集装置,对采集来的信息首先利用规则模板进行过滤,将大部分无用信息过滤掉。对于过滤后的信息使用文本自动分类装置,使所有的帖子得到相应的类别,并产生帖子对应类别的置信度。在帖子都得到相应类别和置信度后,根据置信度由大到小进行排列。对于排序后的数据,选取前x%的数据作为第一批挑选数据,由人工进行挑选,若结果数量不满足要求,则再进行后(100-x)%数据的挑选工作,否则不对后(100-x)%的数据进行挑选,达到节省人工的目的。最终,对挑选后的结果进行发布。
本发明相比上述现有方法具有以下优点:
1)利用规则模板自动过滤的方法将大部分无用信息过滤掉,大大减轻了后续挑选工作的工作量。而且根据不同的领域可以生成不同的规则模板,并根据具体情况扩充模板,具有很好的扩充性。
2)在分类的同时得到类别置信度,以置信度排序后按x%和(100-x)%来分割数据。据我们实验的结果,见下表:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京拓尔思信息技术有限公司,未经北京拓尔思信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710163936.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结构光光条中心线提取的混合图像处理方法
- 下一篇:自抽油烟燃气灶
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置