[发明专利]一种从文档集中挖掘特征词的系统和方法有效
申请号: | 201510017522.7 | 申请日: | 2015-01-13 |
公开(公告)号: | CN104573027B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 屠守中;黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 集中 挖掘 特征 系统 方法 | ||
本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。
技术领域
本发明主要涉及数据挖掘领域,尤其涉及一种从文档集中挖掘特征词的系统和方法。
背景技术
当今社会,信息呈爆炸式增长。对于大量涌现的信息,如何准确而迅速地抽取信息中具有话题代表性的词(即特征词),以帮助人们快速了解新闻时事、社会动态,更能够帮助政府把握当前社会舆论倾向,并作出正确的价值观导向。以我们经常使用的信息媒介——微博,话题“雾霾”为例,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“PM2.5”、“致癌”、“口罩”等特征词,以帮助人们快速了解与雾霾有关的社会动态;仍以微博为例,对于话题“吸毒”,如何从大量微博评论中准确而迅速地抽取中具有话题代表性的词,诸如“吸毒正常”、“不碍事”、“支持”等特征词,以帮助政府迅速把握当前社会舆论倾向,以采取有效措施作出正确的价值观导向。
现有技术中,为了解决上述问题,有学者提出了自举学习的方法,其中有Likelihood Ratio Test for Bootstrapping方法(简称“LRTBOOT”),即基于似然比检验的自举学习方法。但是该方法通常在数据量巨大的时候,挖掘出的特征词与话题相关度不高,也即文档旨意代表性不强。
发明内容
本发明提出了一种从文档集中挖掘特征词的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。
根据本发明的一个方面,提供了一种从文档集中挖掘特征词的方法,该方法包括步骤:
对所述文档集中的每个分句进行分词处理,得到分词结果表;
计算分词结果表中每两个分词结果之间的正相关似然比统计量;
对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。
优选地,所述对所述文档集中的每个分句进行分词处理,得到分词结果表的步骤具体包括:
对所述文档集中的每个分句进行分词处理,得到初步分词结果表;
统计长度为1~N的、由所述初步分词结果表中的词连续组成的组合词语分别出现在所述文档集中的分句频次,其中N是正整数,表示词的个数;
基于对所述组合词语的点互信息统计量的计算对所述组合词语进行排序,基于排序至少抽取一部分的组合词语,形成分词结果表。
优选地,所述基于排序至少抽取一部分的组合词语,形成分词结果表的步骤具体包括:
基于排序至少抽取一部分的组合词语,形成候选分词结果表;
基于对所述候选分词结果表中各组合词语的左信息熵和右信息熵的计算并与相应阈值比较,保留左信息熵和右信息熵均大于相应阈值的组合词语,形成分词结果表。
优选地,所述计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:
基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;
其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510017522.7/2.html,转载请声明来源钻瓜专利网。