[发明专利]一种专业词表动态生成系统和方法有效
申请号: | 200610036093.9 | 申请日: | 2006-06-19 |
公开(公告)号: | CN101079024A | 公开(公告)日: | 2007-11-28 |
发明(设计)人: | 丁江伟 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 深圳市顺天达专利商标代理有限公司 | 代理人: | 郭伟刚;蔡晓红 |
地址: | 518057广东省深圳市高新科*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 专业 词表 动态 生成 系统 方法 | ||
技术领域
本发明涉及网络通信技术,更具体地说,涉及一种专业词表动态生成系统和方法。
背景技术
专业领域词表指的是某一专业类别里面的词汇集合。在自然语言处理领域该信息对于诸如搜索、语义相关计算等有很大帮助,现阶段一般是由专人手工收录。很显然,手工建设专业词表的方法比较浪费人力物力,另外手工建设词表取决于录入人的知识,可能有很多词汇没有召回。另外,词汇在不断的消长,手工录入对新造词汇需要一个持续的投入,成本太高。
发明内容
本发明的目的在于针对现有技术的缺陷,提供一种专业词表动态生成系统和方法,节省人力物力。
本发明的技术方案是:一种专业词表动态生成系统,包括:文档分类模块,其用于获取一定数量文档的主题语义向量,根据所述主题语义向量对所述文档进行按照专业分类或聚类的处理,并按类别进行存储;专业词表生成模块,其用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将排序靠前的N个词汇作为对应专业类别的专业词表;
上述专业词表动态生成系统还包括:文档预处理模块,其用于将输入的、不同格式的文档转换为标准格式,并提取文档正文;分词模块,其用于对所述文档预处理模块的输出进行分词,得到所述第一词汇表;主题语义向量计算模块,其用于将所述第一词汇表中的词汇转换为义元,对所述义元计算权重,得到与所述文档一一对应的主题语义向量;文档主题语义向量库,其用于存储对应文档的主题语义向量;以及文档语义向量管理模块,其用于对文档主题语义向量库进行管理,接收所述主题语义向量计算模块的输出,再存入文档主题语义向量库;从所述文档主题语义向量库中获取文档的主题语义向量,并发送到所述文档分类模块。还可以包括:类别文档库,其用于按照专业类别分别存储经过所述文档分类模块分类后的文档。
在一种实施方式中,本发明系统还包括类别语义种子向量库,其用于存储代表各专业类别典型特征词汇语义的类别语义种子向量;所述文档分类模块,其用于计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度,来对所述文档进行专业分类,并按分类存储到所述类别文档库。
进一步的,所述专业词表生成模块包括:词汇权重计算模块,其用于提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重进行排序;类别标识及关键词提取模块,其用于选取权重最高的词汇或选取所述类别语义种子向量中的类别标识词作为本类别的类别标识词,选取排序靠前的N个词汇作为本专业类别的专业词表,并将所述类别标识词和专业词表发送到专业类别词汇库;专业类别词汇库,其用于存储对应专业类别的专业词表和类别标识词。
本发明一种专业词表动态生成系统还可以包括:类别词汇管理模块,其用于接收所述专业词表生成模块的输出,将对应专业类别的最新类别标识词和专业词表与历史类别标识词和专业词表进行合成,再存储到所述专业类别词汇库中。
本发明还提供了一种专业词表动态生成方法,主要包括以下步骤:(a),文档分类模块获取一定数量文档的主题语义向量,并根据其主题语义向量对文档进行按照专业分类或聚类的处理,并按类别将对应文档存储到类别文档库;(b),专业词表生成模块从所述类别文档库中提取一定数量的、属于一个专业类别的文档的正文,对所有正文中的词汇计算权重,并按权重值大小排序,将
在一种具体实施方式中,步骤(a)中,进行专业分类的方法是:所述文档分类模块计算对应文档的主题语义向量与类别语义种子向量库中的各类别语义种子向量的相似度,将文档分到相似度最大的那个类别中,并存储到所述类别文档库。
在另一种具体实施方式中,步骤(a)中,所述文档分类模块采用聚类算法对一定数量文档的主题语义向量进行处理,对文档进行专业聚类。
进一步的,步骤(b)包括:专业词表生成模块选取权重最高的词汇或选取对应类别语义种子向量中的类别标识词作为本类别的类别标识词,将所述类别标识词和所述专业词表发送到专业类别词汇库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200610036093.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高性能聚酯材料的制备方法
- 下一篇:一种显示设备数据更新方法及装置