[发明专利]一种文本智能提取标签的方法无效
申请号: | 201110279632.2 | 申请日: | 2011-09-20 |
公开(公告)号: | CN102289523A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 李军锋;吕福军;李跃海 | 申请(专利权)人: | 北京金和软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 史霞 |
地址: | 100093 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 智能 提取 标签 方法 | ||
1.一种文本智能提取标签的方法,其特征在于,包括以下步骤:
步骤一、接收待提取标签的文本字符串;
步骤二、对所述文本字符串使用中文分词算法进行关键词拆分;
步骤三、定义一个保存关键词的数据结构,里面包含词的多个特征属性,将步骤二中的每个关键词的各特征属性信息抽取出来,并进行数值化,形成属性值;
步骤四、对词的各特征属性分别赋予权重值,通过权重值与属性值的乘积求和,计算出各关键词的权重值,排列权重值,建立一个临时的一级关键词字典;
步骤五、将一级关键词字典里的每个关键词进行词间组合,对形成的组合词进行中文语法算法判断,如果符合中文语法,则存储到建立起的组合词字典中,如果不符合中文语法,则跳转到对下一个组合词进行判断,重复这一过程,直到完成所有关键词之间的组合方式;
步骤六、将存储到组合词字典中的组合词的权重值设定为形成该组合词的关键词的权重值之和;
步骤七、将组合词和关键词根据权重值的大小,联合排序;
步骤八、按照权重值从大到小的顺序,取指定数量的组合词和/或关键词作为标签。
2.如权利要求1所述的文本智能提取标签的方法,其特征在于,所述多个特征属性包括词频、词性和词长。
3.如权利要求2所述的文本智能提取标签的方法,其特征在于,每个关键词的权重值计算如下:关键词权重值=1.5*词频+1.1*词性+0.9*词长,其中*代表乘号。
4.如权利要求3所述的文本智能提取标签的方法,其特征在于,将步骤四中的权重值进行升序排列,取排序前5%的关键词放入一级关键词字典。
5.如权利要求4所述的文本智能提取标签的方法,其特征在于,如果排序前5%的关键词的个数大于20,则取20个关键词;如果小于20,则选取所有的关键词。
6.如权利要求1所述的文本智能提取标签的方法,其特征在于,所述关键词的数据结构和所述组合词字典均保存在计算机内存中。
7.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤五中还要建立一个容器链表,存储所有的满足中文语法的组合词。
8.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤五和步骤六之间还包括遍历组合词容器链表,对于里面出现一次的词和重复词就行排除。
9.如权利要求1所述的文本智能提取标签的方法,其特征在于,在步骤四中还要建立一个一级关键词字典,其存储计算机内存中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金和软件股份有限公司,未经北京金和软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110279632.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于节点信任的量子信任评估方法
- 下一篇:一种折-反射抛物面透镜接收元件