[发明专利]一种文本智能提取标签的方法无效
申请号: | 201110279632.2 | 申请日: | 2011-09-20 |
公开(公告)号: | CN102289523A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 李军锋;吕福军;李跃海 | 申请(专利权)人: | 北京金和软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100093 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本智能提取标签的方法。该方法通过在内存中对文本字符串使用中文分词算法进行关键词拆分,然后根据词频、词长、词性等计算出词的权重,按词的权重进行倒序排序,取出指定数量的词作为结果输出。该方法的特点是,所有算法全部在内存中处理,算法设计简明、高效,在分析速度上得到了有效的保证。对于一段文本经过了分词、权重、组词、过滤、排序等一系列过程的加工后,在标签的准确性上达到了一定的效果。本发明可以进行算法的独立封装也可以进行组件封装,具有一定的通用性,可以应用于一切需求进行文本标签提取的产品中,在使用方面有一定的广泛性。 | ||
搜索关键词: | 一种 文本 智能 提取 标签 方法 | ||
【主权项】:
一种文本智能提取标签的方法,其特征在于,包括以下步骤:步骤一、接收待提取标签的文本字符串;步骤二、对所述文本字符串使用中文分词算法进行关键词拆分;步骤三、定义一个保存关键词的数据结构,里面包含词的多个特征属性,将步骤二中的每个关键词的各特征属性信息抽取出来,并进行数值化,形成属性值;步骤四、对词的各特征属性分别赋予权重值,通过权重值与属性值的乘积求和,计算出各关键词的权重值,排列权重值,建立一个临时的一级关键词字典;步骤五、将一级关键词字典里的每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,如果符合中文语法,则存储到建立起的组合词字典中,如果不符合中文语法,则跳转到对下一个组合词进行判断,重复这一过程,直到完成所有关键词之间的组合方式;步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和;步骤七、将组合词和关键词根据权重值的大小,联合排序;步骤八、按照权重值从大到小的顺序,取指定数量的组合词和/或关键词作为标签。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金和软件股份有限公司,未经北京金和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110279632.2/,转载请声明来源钻瓜专利网。
- 上一篇:基于节点信任的量子信任评估方法
- 下一篇:一种折-反射抛物面透镜接收元件