[发明专利]一种从文档集中挖掘特征词的系统和方法有效

申请号：	201510017522.7	申请日：	2015-01-13
公开（公告）号：	CN104573027B	公开（公告）日：	2018-07-24
发明（设计）人：	屠守中;黄民烈;朱小燕	申请（专利权）人：	清华大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	北京汉昊知识产权代理事务所(普通合伙) 11370	代理人：	朱海波
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种从文档集中挖掘特征词的系统和方法，其中所述方法包括：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出。本发明所提供的系统和方法，可以更有效地挖掘出能够更强地表现文档集旨意的特征词。
搜索关键词：	一种文档集中挖掘特征系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种从文档集中挖掘特征词的方法，包括：对所述文档集中的每个分句进行分词处理，得到分词结果表；计算分词结果表中每两个分词结果之间的正相关似然比统计量；对于给定的来自分词结果表的种子词，对它与分词结果表中的各分词结果之间的正相关似然比统计量进行排序，基于排序从分词结果表中提取一定数量的分词结果作为特征词输出；其中计算分词结果表中每两个分词结果之间的正相关似然比统计量的步骤还包括：基于每两个分词结果之间的正相关似然比统计量，得到与所述分词结果表对应的正相关矩阵；其中，正相关矩阵的每一行或每一列的各个值表示分词结果表中的每个分词结果对应的该分词结果与分词结果表中的各分词结果之间的正相关似然比统计量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510017522.7/，转载请声明来源钻瓜专利网。

上一篇：基于CDR话单的用户群体划分方法和系统
下一篇：一种基于异质刻面转换的网构软件构件库中构件检索方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从文档集中挖掘特征词的系统和方法有效

专利文献下载