[发明专利]一种基于逻辑和统计技术的数据元识别方法有效
申请号: | 201310330181.X | 申请日: | 2013-07-31 |
公开(公告)号: | CN104346379B | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 谭远华;朱平;杨雪 | 申请(专利权)人: | 克拉玛依红有软件有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京市盛峰律师事务所11337 | 代理人: | 赵建刚 |
地址: | 834000 新疆维*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及数据识别技术领域,具体公开了一种基于逻辑和统计技术的数据元识别方法;包括客户端提交待测试语料的数据处理请求,用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则,根据数据的长度特征对数据进行分类,分别总结不同分类下的数据元结构的词法规则,用词法分析工具对待测试语料中的数据进行分词及词性标注处理,并用长度特征和词法规则从测试语料中抽取出候选数据元;统计候选数据元在测试语料中的分布情况,将候选数据元逐步划分到数据元和非数据元两个类别;分别用过滤子串算法、短语搭配检验并结合词汇活跃度进行过滤,再计算领域相关度,再将短语按领域相关度从大到小排序。本发明解决了数据元识别自动化的问题。 | ||
搜索关键词: | 一种 基于 逻辑 统计 技术 数据 识别 方法 | ||
【主权项】:
一种基于逻辑和统计技术的数据元识别方法,其特征在于,包括:步骤一:数据元语言规则的获取:客户端提交待测试语料的数据处理请求,依据数据元库中的数据为基础,用计算机统计数据元库中数据的长度特征以及数据元结构的词法规则,根据所述统计的结果总结所述数据的长度特征,根据所述数据的所述长度特征对所述数据进行分类,然后分别总结不同分类下的数据元结构的词法规则,用词法分析工具对所述待测试语料中的所述数据进行分词及词性标注处理,并用所述长度特征和所述词法规则从测试语料中抽取出候选数据元;步骤二:概念数据元识别:统计所述候选数据元在所述测试语料中的分布情况,根据所述候选数据元的所述分布情况构造样本空间,基于FCM聚类算法的框架下,将所述候选数据元逐步划分到数据元和非数据元两个类别中,完成所述数据元的自动识别;步骤三:逻辑数据元和应用数据元识别:用过滤子串算法去除抽取的所述候选数据元中结构不完整的数据元候选项,用短语搭配检验,删除所述候选项中搭配不正确的词串,并结合词汇活跃度过滤包含活跃词汇的固定搭配,再计算领域相关度,将过滤后的短语按所述领域相关度从大到小进行排序,排序结果即为逻辑数据元和应用数据元识别的最终结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于克拉玛依红有软件有限责任公司,未经克拉玛依红有软件有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310330181.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种接地线防脱装置
- 下一篇:一种可降噪的电路板插接组件