[发明专利]一种文本信息的处理方法和装置有效
申请号: | 201611027271.1 | 申请日: | 2016-11-17 |
公开(公告)号: | CN107038193B | 公开(公告)日: | 2020-11-27 |
发明(设计)人: | 任望 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/335 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 黄熊 |
地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 处理 方法 装置 | ||
本申请公开了一种文本信息的处理方法和装置,包括:获取文本信息,对所述文本信息进行过滤;计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;根据事件中的文本信息,计算每个事件的重要度指标;判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。通过使用本申请中公开的方法和装置,能够自动化的将文本信息过滤和归类至不同事件,并监视各个事件,在某个事件指标超过阈值时标记该事件,以方便寻找有用信息。
技术领域
本申请涉及计算机技术领域,尤其涉及一种使用计算机处理文本信息的方法和装置。
背景技术
随着信息化浪潮的到来和互联网的普及,越来越多的用户在互联网上发表、交换各种文本信息,并生成越来越多的用户生成内容(User Generated Content,简称UGC)。常见的UGC有用户发表的微博、论坛帖子、新闻消息等。每时每刻,都有大量的新的UGC出现,这些新的UGC中包含各种信息,有的是旧信息的重复,有的却是全新的、尚未被公众所熟知的信息。无论新旧,这些信息中都有可能包含符合预定条件的信息,比如包含受到高度关注的信息,这些符合预定条件的信息具有重大价值,同时也是非常重要的。
一直以来,人们都希望从这些或旧或新的信息中,找到具有重大价值的信息。然而,由于UGC的数量极其巨大,更新极其迅速,内容千差万别,至今尚未有有效的办法从UGC中找到有用的信息。
发明内容
有鉴于此,本发明提供了一种使用计算机处理文本信息的方法和装置,其能够实现自动化的将文本信息过滤和归类至不同事件,并监视各个事件,从而可以将数量巨大的文本信息自动分成不同事件,并在某个事件指标超过阈值时标记该事件,例如,对该事件进行报警。报警的事件比不报警的事件更有可能包含有重要的信息,从而,本方法可以更方便寻找有用信息。
本申请实施例提供一种文本信息的处理方法,包括:
获取文本信息,对所述文本信息进行过滤;
计算过滤后的文本信息的相似度,根据所述相似度将过滤后的文本信息归类至不同的事件;
根据事件中的文本信息,计算每个事件的重要度指标;
判断每个事件对应的所述重要度指标数值是否超过预设重要度阈值,如果超过预设重要度阈值,则对该超过预设重要度阈值的事件进行标记。
优选的,所述对所述文本信息进行过滤,包括以下步骤中的任一步骤:
使用业务模型判断所述文本信息是否为指定业务,如否,则将判断为否的文本信息过滤掉;
使用广告模型判断所述文本信息是否为广告,如是,则将判断为是的文本信息过滤掉;
使用情感模型判断所述文本信息负面情感值是否超过预设情感值阈值,如超过,则将该超过预设情感阈值的文本信息过滤掉,或者,如果不超过,则将该不超过预设情感阈值的文本信息过滤掉。
优选的,所述计算过滤后的文本信息的相似度,包括计算文本信息和文本信息的相似度和/或计算文本信息和事件的相似度。
优选的,所述根据所述相似度将过滤后的文本信息归类至不同的事件,包括:
当过滤后的文本信息和事件的相似度大于预设值时,将该过滤后的文本信息归类至该事件;当过滤后的文本信息和任意事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
当过滤后的文本信息和另一文本信息的相似度大于预设值时,将该过滤后的文本信息归类至所述另一文本信息所在的事件;当过滤后的文本信息和任意另一文本信息事件的相似度均不大于预设值时,生成包含该过滤后的文本信息的事件;
或者,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611027271.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置