[发明专利]一种标签自动提取方法和系统无效
申请号: | 201110440739.0 | 申请日: | 2011-12-23 |
公开(公告)号: | CN103177036A | 公开(公告)日: | 2013-06-26 |
发明(设计)人: | 陈运文;宋海涛;刘作涛 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标签 自动 提取 方法 系统 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种标签自动提取方法和系统。
背景技术
随着互联网的快速发展,互联网已经成为最重要的信息发布平台。为了有效的利用互联网存在的海量信息,人们使用标签(tag)来描述发布的内容。标签是对用户发表的内容的一种准确、概括的描述,人们通过文本标签可以快速的识别出所浏览的文档的主题。例如,用户在发表日志时,可以手动添加标签,所述标签一般为与文档内容密切相关的关键字。其他用户在浏览日志时,可以通过标签快速的识别出日志的主题。又如,用户在搜索相关信息时,可以通过文本添加的标签获取具有相同标签的一类文档,使得搜索结果更准确。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:一方面,用户往往不愿意主动为文档添加标签,而依赖网站编辑手动添加标签的方式,处理效率极低,且浪费了大量的人力。另一方面,由于标签是用户手工输入的,用户输入的标签各式各样,具有相同主题、内容的一类文档,标签可能完全不同,这就给具体的标签应用带来困难,例如无法对具有相同主题、内容的文档进行准确的聚类等。因此亟需一种文本标签自动提取系统,能够自动生成文本标签。
发明内容
为解决上述技术问题,本发明实施例提供了一种标签自动提取方法和系统,可以自动生成标签,处理效率高。
一方面,本发明实施例提供了一种标签自动提取方法,所述方法包括:
抓取中文词汇和训练网页,分别生成中文词典和训练样本库;
根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;
根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。
优选的,所述抓取中文词汇和训练网页,分别生成中文词典和训练样本库为:
从网络中自动抓取中文热点词汇,生成中文词典;
根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
优选的,所述根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页包括:
确定多个分类类别,为每一个分类类别设置网址索引作为训练样本的来源;
从所述网址索引中抽取训练样本。
优选的,所述根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型为:
根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;
获取所述特征词汇的分类;
根据所述特征词汇的分类结果,生成训练分类模型。
优选的,所述获取所述特征词汇的分类为:
利用最大熵分类模型获取所述特征词汇的分类。
优选的,所述根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签包括:
根据所述中文词典,对待提取网页进行分词处理,获取特征词汇;
获取所述特征词汇的权重,将权重最高的结果作为第一标签;
根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签;
获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
优选的,所述根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类包括:
根据训练分类模型获取每一个特征词汇所属的类别;
将所有特征词汇所属的类别进行累加,获取待提取网页所属的类别;
将所述分类结果作为第二标签为:
将分类结果大于设定阈值的类别作为第二标签。
另一方面,本发明实施例还提供了一种标签自动提取系统,所述系统包括:
抓取模块,用于抓取中文词汇和训练网页,分别生成中文词典和训练样本库;
训练模块,用于根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;
标签提取模块,用于根据所述中文词典和所述训练分类模型对待提取网页进行标签提取,生成标签。
优选的,所述抓取模块包括第一抓取模块和第二抓取模块,其中,
所述第一抓取模块用于自动抓取中文热点词汇,生成中文词典;
所述第二抓取模块用于根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
优选的,所述训练模块包括:
第一分词单元,用于根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;
第一特征提取单元,用于获取所述特征词汇的分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110440739.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安全钳和限速器的联动结构
- 下一篇:超薄型电梯显示器