[发明专利]从文本中对热门见解的可扩展挖掘在审
申请号: | 201710199077.X | 申请日: | 2017-03-29 |
公开(公告)号: | CN107273346A | 公开(公告)日: | 2017-10-20 |
发明(设计)人: | 张永正;赵瑞;宽之意;郑毅 | 申请(专利权)人: | 邻客音公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京邦信阳专利商标代理有限公司11012 | 代理人: | 郑世奇 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 热门 见解 扩展 挖掘 | ||
技术领域
本公开涉及识别文档语料库中的话题,并且更具体地涉及以可扩展的方式识别热门话题。
背景技术
热门见解是找到最能代表文本语料库中的见解的重要话题的计算研究。一种识别热门见解的有效方法可以揭示:(1)在线论坛中关于特定话题的热门讨论,例如围绕特定品牌、产品或服务;(2)关于什么话题可能在社交媒体上病毒式传播的早期信号;和(3)新兴的观点和驱动因数。识别热门见解的挑战来自于极大量的非结构化数据,该非结构化数据是在线可用的文本形式。数据来自多个渠道,例如产品评论、市场调研、客户关怀对话和社交媒体。虽然文本显然包含有价值的信息,但是如何最好地大规模分析这些数据往往不太清楚。另一个挑战是多书面语言(包括英语)的复杂性,这使得很难有效地找到最重要的话题。
识别热门见解的一些方法大多是统计的,从简单地计算单词的频次到更高级的方法(例如潜在狄利克雷分配(LDA))。然而,这些方法存在几个关键问题:(1)产生过多的噪声或假阳性(例如,诸如“感谢”和“联系我们”的太过通用的短语或者诸如“突发新闻”的太频繁出现的词语);(2)大量的重复;(3)显著的计算成本;和(4)结果不能直观地解释。
在本节中描述的方法是可以进行的方法,但不一定是先前已经构想或进行的方法。因此,除非另有说明,否则不应仅仅由于它们包括在本部分中就假定本节中描述的任何方法是现有技术。
附图说明
在附图中:
图1是描绘在实施例中用于识别文本语料库中的热门话题的过程的流程图;
图2是描绘在实施例中用于识别文档语料库中的热门话题的系统的框图;
图3是示出了可以在其上实现本发明的实施例的计算机系统的框图。
具体实施方式
在以下描述中,出于说明的目的,阐述了多个具体细节以便提供对本发明的深入理解。然而,显然可以在没有这些具体细节的情况下实施本发明。在其他实例中,以框图形式示出了公知的结构和装置,以避免不必要地使本发明模糊。
总体概述
提供了一种用于识别文本语料库中的热门话题的系统和方法。在一种方法中,话题识别技术用于识别包括多个文档的文本语料库中的多个话题。识别和移除重复的话题。针对所识别的话题的子集中的每个话题生成热门分数。热门分数用于对子集中的话题进行排名。
过程概述
图1是描绘在实施例中用于识别文本语料库中的热门话题的过程100的流程图;
在框110处,分析文档语料库以识别多个文档中的话题集合。一个或多个话题识别技术可以用于识别所述话题集合。
在框120处,移除话题集合中的一个或多个话题。可以基于一个或多个标准来移除话题,诸如用户不期望呈现的已知的、预定义的或预期的话题。预定义的话题可以由用户指定并且与该组中的每个话题进行比较。作为另一示例,移除话题可以涉及比较话题集合中的两个话题的文档位置。如果两个话题出现在特定文档中相同的文档位置处,则两个话题可被合并或两个话题中的一个被删除。在实施例中,框120是可选的。
在框130处,针对剩余的话题集合中的每个话题计算热门分数。可以以多种方式之一计算热门分数。例如,确定多个时间段的每个时间段中的话题的频次,并将其用于计算热门分数。可以将当前时间段中的话题的频次与一个或多个先前时间段中的话题的频次进行比较。
在框140处,基于所计算的热门分数对剩余的话题集合进行排名。在一个实施方式中,热门分数越高,排名越高。
在框150处,基于排名显示剩余的话题集合(或其一部分)。框150可以仅涉及显示其热门分数高于特定阈值的话题。
系统概述
图2是示出了在实施例中用于识别文档语料库中的热门话题的系统200的框图。系统200包括数据库210和热门话题标识符220,所述热门话题标识符220包括话题标识符222、重复数据删除器224、分数生成器226和排名器228。元件222-228中的每一个可以用软件、固件、硬件,或它们的任何组合实现。元件222-228可以在相同的计算装置上或在任何数量的不同计算装置上实现。在一些实施方式中,系统200包括元件222-228中的一个或多个的多个实例,例如话题标识符222的多个实例和重复数据删除器224的多个实例。虽然元件222-228被示出为单独的元件,但元件222-228可以被实现为单个部件(无论是软件、固件还是硬件)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邻客音公司,未经邻客音公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710199077.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在用户界面中提供主题变体
- 下一篇:一种社交网络信息传播检测节点的选择方法