[发明专利]一种标签自动提取方法和系统无效
申请号: | 201110440739.0 | 申请日: | 2011-12-23 |
公开(公告)号: | CN103177036A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 陈运文;宋海涛;刘作涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 自动 提取 方法 系统 | ||
1.一种标签自动提取方法,其特征在于,所述方法包括:
抓取中文词汇和训练网页,分别生成中文词典和训练样本库;
根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;
根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。
2.根据权利要求1所述的方法,其特征在于,所述抓取中文词汇和训练网页,分别生成中文词典和训练样本库为:
从网络中自动抓取中文热点词汇,生成中文词典;
根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
3.根据权利要求2所述的方法,其特征在于,所述根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页包括:
确定多个分类类别,为每一个分类类别设置网址索引作为训练样本的来源;
从所述网址索引中抽取训练样本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型为:
根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;
获取所述特征词汇的分类;
根据所述特征词汇的分类结果,生成训练分类模型。
5.根据权利要求4所述的方法,其特征在于,所述获取所述特征词汇的分类为:
利用最大熵分类模型获取所述特征词汇的分类。
6.根据权利要求1所述的方法,其特征在于,所述根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签包括:
根据所述中文词典,对待提取网页进行分词处理,获取特征词汇;
获取所述特征词汇的权重,将权重最高的结果作为第一标签;
根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签;
获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
7.根据权利要求6所述的方法,其特征在于,所述根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类包括:
根据训练分类模型获取每一个特征词汇所属的类别;
将所有特征词汇所属的类别进行累加,获取待提取网页所属的类别;
将所述分类结果作为第二标签为:
将分类结果大于设定阈值的类别作为第二标签。
8.一种标签自动提取系统,其特征在于,所述系统包括:
抓取模块,用于抓取中文词汇和训练网页,分别生成中文词典和训练样本库;
训练模块,用于根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;
标签提取模块,用于根据所述中文词典和所述训练分类模型对待提取网页进行标签提取,生成标签。
9.根据权利要求8所述的系统,其特征在于,所述抓取模块包括第一抓取模块和第二抓取模块,其中,
所述第一抓取模块用于自动抓取中文热点词汇,生成中文词典;
所述第二抓取模块用于根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
10.根据权利要求8所述的系统,其特征在于,所述训练模块包括:
第一分词单元,用于根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;
第一特征提取单元,用于获取所述特征词汇的分类;
分类模型生成单元,用于根据所述特征词汇的分类结果,生成训练分类模型。
11.根据权利要求8所述的系统,其特征在于,所述标签提取模块包括:
第二分词单元,根据所述中文词典,对待提取网页进行分词处理,获取特征词汇;
第一提取模块,用于获取所述特征词汇的权重,将权重最高的结果作为第一标签;
第二提取模块,用于根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签;
第三提取模块,用于获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
12.根据权利要求8所述的系统,其特征在于,所述系统还包括:
第一更新模块,用于抓取热点词汇,对所述中文词典进行更新;
第二更新模块,用于生成新的训练样本,与原有的训练样本进行合并,对所述训练样本库进行更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110440739.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安全钳和限速器的联动结构
- 下一篇:超薄型电梯显示器