[发明专利]一种从文档集中挖掘特征词的系统和方法有效
申请号: | 201510017522.7 | 申请日: | 2015-01-13 |
公开(公告)号: | CN104573027B | 公开(公告)日: | 2018-07-24 |
发明(设计)人: | 屠守中;黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从文档集中挖掘特征词的系统和方法,其中所述方法包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法,可以更有效地挖掘出能够更强地表现文档集旨意的特征词。 | ||
搜索关键词: | 一种 文档 集中 挖掘 特征 系统 方法 | ||
【主权项】:
1.一种从文档集中挖掘特征词的方法,包括:对所述文档集中的每个分句进行分词处理,得到分词结果表;计算分词结果表中每两个分词结果之间的正相关似然比统计量;对于给定的来自分词结果表的种子词,对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序,基于排序从分词结果表中提取一定数量的分词结果作为特征词输出;其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括:基于每两个分词结果之间的正相关似然比统计量,得到与所述分词结果表对应的正相关矩阵;其中,正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510017522.7/,转载请声明来源钻瓜专利网。