[发明专利]一种专业词表动态生成系统和方法有效
申请号: | 200610036093.9 | 申请日: | 2006-06-19 |
公开(公告)号: | CN101079024A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 丁江伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专业 词表 动态 生成 系统 方法 | ||
1.一种专业词表动态生成系统,其特征在于,包括:
文档分类模块,其用于获取一定数量文档的主题语义向量,根据所述主题语义向量对所述文档进行按照专业分类或聚类的处理,并按类别进行存储;
专业词表生成模块,其用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将排序靠前的N个词汇作为对应专业类别的专业词表;
还包括:
文档预处理模块,其用于将输入的、不同格式的文档转换为标准格式,并提取文档正文;
分词模块,其用于对所述文档预处理模块的输出进行分词,得到所述第一词汇表;
主题语义向量计算模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,得到与所述文档一一对应的主题语义向量;
文档主题语义向量库,其用于存储对应文档的主题语义向量;
以及文档语义向量管理模块,其用于对文档主题语义向量库进行管理,接收所述主题语义向量计算模块的输出,再存入文档主题语义向量库;从所述文档主题语义向量库中获取文档的主题语义向量,并发送到所述文档分类模块。
2.根据权利要求1所述的一种专业词表动态生成系统,其特征在于,还包括:类别文档库,其用于按照专业类别分别存储经过所述文档分类模块分类后的文档。
3.根据权利要求2所述的一种专业词表动态生成系统,其特征在于:还包括类别语义种子向量库,其用于存储代表各专业类别典型特征词汇语义的类别语义种子向量;所述文档分类模块,其用于计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度,来对所述文档进行专业分类,并按分类存储到所述类别文档库。
4.根据权利要求3所述的一种专业词表动态生成系统,其特征在于,所述专业词表生成模块包括:
词汇权重计算模块,其用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重进行排序;
类别标识及关键词提取模块,其用于选取权重最高的词汇或选取所述类别语义种子向量中的类别标识词作为本类别的类别标识词,选取排序靠前的N个词汇作为本专业类别的专业词表,并将所述类别标识词和专业词表发送到专业类别词汇库;
专业类别词汇库,其用于存储对应专业类别的专业词表和类别标识词。
5.根据权利要求4所述的一种专业词表动态生成系统,其特征在于,还包括:类别词汇管理模块,其用于接收所述专业词表生成模块的输出,将对应专业类别的最新类
别标识词和专业词表与历史类别标识词和专业词表进行合成,再存储到所述专业类别词汇库中。
6.一种专业词表动态生成方法,其特征在于,包括以下步骤:
(a),文档分类模块获取一定数量文档的主题语义向量,并根据其主题语义向量对文档进行按照专业分类或聚类的处理,并按类别将对应文档存储到类别文档库;
(b),专业词表生成模块从所述类别文档库中提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将排序靠前的N个词汇作为对应专业类别的专业词表;
步骤(a)中,所述获取一定数量文档的主题语义向量的方法包括:
(c1),文档预处理模块将输入的、不同格式的文档转换为标准格式,并提取文档正文内容;
(c2),分词模块对所述文档预处理模块的输出进行分词,得到第一词汇表;
(c3),主题语义向量计算模块将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,得到与所述文档一一对应的主题语义向量,并通过文档语义向量管理模块存储到文档主题语义向量库;
(c4),所述文档语义向量管理模块从所述文档主题语义向量库中或从主题语义向量计算模块中获得一定数量文档的主题语义向量,并发送到所述文档分类模块。
7.根据权利要求6所述的一种专业词表动态生成方法,其特征在于,步骤(a)中,进行专业分类的方法是:
所述文档分类模块计算对应文档的主题语义向量与代表各专业类别典型特征词汇语义的类别语义种子向量库中的各类别语义种子向量的相似度,将文档分到相似度最大的那个类别中,并存储到所述类别文档库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610036093.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能聚酯材料的制备方法
- 下一篇:一种显示设备数据更新方法及装置