[发明专利]一种专业词表动态生成系统和方法有效
申请号: | 200610036093.9 | 申请日: | 2006-06-19 |
公开(公告)号: | CN101079024A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 丁江伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种专业词表动态生成系统,包括根据主题语义向量对对应文档进行专业分类或聚类的文档分类模块和专业词表生成模块,所述专业词表生成模块用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将排序靠前的N个词汇作为对应专业类别的专业词表。本发明还提供了一种专业词表动态生成方法。本发明的有益效果在于:系统能够自动生成专业词表,并且由于应用了基于语义计算的聚类或分类算法,准确率比较高,成本比较低;能够对专业词表进行动态的维护更新;能够发现并记录网络上的新生词汇,并将其归类。 | ||
搜索关键词: | 一种 专业 词表 动态 生成 系统 方法 | ||
【主权项】:
1、一种专业词表动态生成系统,其特征在于,包括:文档分类模块,其用于获取一定数量文档的主题语义向量,根据所述主题语义向量对所述文档进行专业分类或聚类,并按类别进行存储;专业词表生成模块,其用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将排序靠前的N个词汇作为对应专业类别的专业词表。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610036093.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能聚酯材料的制备方法
- 下一篇:一种显示设备数据更新方法及装置