[发明专利]一种从文档集中自动发现新词的方法及装置有效
申请号: | 201410220317.6 | 申请日: | 2014-05-23 |
公开(公告)号: | CN103955453B | 公开(公告)日: | 2017-09-29 |
发明(设计)人: | 黄民烈;朱小燕 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种从文档集中自动发现新词的方法及装置,其中,模板获取单元获取一个或多个模板;词语提取单元从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语;候选模板集合加入单元从所述一个或多个模板中至少选取一部分模板加入到候选模板集合;候选词集合加入单元从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合;新词集合加入单元基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于所述排序将一定数量的候选词加入到新词集合。与现有技术相比,本发明提供的方法和装置可以有效地发现新词。 | ||
搜索关键词: | 一种 文档 集中 自动 发现 新词 方法 装置 | ||
【主权项】:
一种从文档集中自动发现新词的方法,包括:获取一个或多个模板(S101),所述模板包括词和空格或/和自定义符号;从所述文档集中提取出与所述一个或多个模板中的各模板相匹配的词语(S102),所述从文档集中提取出与所述一个或多个模板中的各模板相匹配的词语是除该模板所包括的词以外的词语;从所述一个或多个模板中至少选取一部分模板加入到候选模板集合(S103);从提取出的与所述一个或多个模板中的各模板相匹配的词语中至少选取一部分词语加入到候选词集合(S104);基于候选模板集合中的模板对所述候选词集合中的候选词排序,基于用候选模板集合中的模板对所述候选词集合中的候选词的排序将一定数量的候选词加入到新词集合(S105)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410220317.6/,转载请声明来源钻瓜专利网。