[发明专利]知识库的构建方法及装置、存储介质、计算设备有效
申请号: | 201710706041.6 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107526795B | 公开(公告)日: | 2020-05-29 |
发明(设计)人: | 汤奇峰;齐炜 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 张振军;吴敏 |
地址: | 200072 上海市闸北区灵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识库 构建 方法 装置 存储 介质 计算 设备 | ||
一种知识库的构建方法及装置、存储介质、计算设备,所述方法包括:确定行业标准词库,以及与所述行业标准词库对应的有用词规则和停用词规则;基于所述有用词规则从原始短语中提取有用词语;对所述原始短语进行分词,以得到多个词语;如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语,那么将所述匹配的词语按照在所述原始短语中的位置关系组合,以得到组合词语;将所述组合词语与所述有用词语组合以得到第一新短语,并将所述第一新短语加入知识库。采用本发明技术方案能够将杂乱无序的文本数据处理为规范有序,具有结构化数据格式的行业知识库,方便后续数据处理,有利于提高行业信息和行业知识的准确率。
技术领域
本发明涉及信息处理领域,特别涉及一种知识库的构建方法及装置、存储介质、计算设备。
背景技术
现代大数据处理的信息大部分来自于互联网。互联网数据包括互联网上的公开数据或者爬虫爬取的数据等海量数据。互联网数据来源多样,格式多样;信息特征不明显、不规整、不易读,有很多干扰信息;数据存在冲突,甚至存在错误。这些冲突的或者错误的“脏数据”如果出现在统计结果中,不仅可能引起歧义,甚至也会得出错误的结论。因此,在基于互联网数据的大数据处理中,现有技术一般采用数据清洗技术处理脏数据。所谓数据清洗,是指发现并纠正数据文件中的错误,对数据进行审查和校验的过程。数据清洗的目的在于删除重复和冗余信息,纠正错误,获取一致性数据,方便后续的数据处理和分析。
但是,如何将杂乱无序的短语数据(也即原始短语)处理为规范有序,结构一致的行业知识库的问题,目前尚未提出有效的解决方案。
发明内容
本发明解决的技术问题是如何将杂乱无序的原始短语处理为规范有序,结构一致的行业知识库。
为解决上述技术问题,本发明实施例提供一种知识库的构建方法,包括:确定行业标准词库,以及与所述行业标准词库对应的有用词规则和停用词规则;基于所述有用词规则从原始短语中提取有用词语;对所述原始短语进行分词,以得到多个词语;如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语,那么将所述匹配的词语按照在所述原始短语中的位置关系组合,以得到组合词语;将所述组合词语与所述有用词语组合以得到第一新短语,并将所述第一新短语加入知识库。
可选的,所述的知识库的构建方法还包括:如果所述多个词语中不包含与所述行业标准词库中的标准词匹配的词语,那么基于所述停用词规则从所述原始短语中删除停用词语,以得到删除后词语;将所述删除后词语与所述有用词语组合以得到第二新短语,并将所述第二新短语加入所述知识库。
可选的,所述将所述删除后词语与所述有用词语组合以得到第二新短语包括:如果所述删除后词语与所述有用词语重复,那么删除重复的内容后进行组合,以得到所述第二新短语。
可选的,所述行业标准词库中的标准词包括:从公开数据和/或网络爬虫爬取的数据中获取的标准词。
可选的,所述有用词规则和所述停用词规则由正则表达式定义。
可选的,所述将所述组合词语与所述有用词语组合以得到第一新短语包括:如果所述组合词语中包含的匹配的词语与所述有用词语重复,那么删除重复的内容后进行组合,以得到所述第一新短语。
为解决上述技术问题,本发明实施例还提供一种知识库的构建装置,包括:确定模块,适于确定行业标准词库,以及与所述行业标准词库对应的有用词规则和停用词规则;提取模块,适于基于所述有用词规则从原始短语中提取有用词语;分词模块,适于对所述原始短语进行分词,以得到多个词语;第一词语组合模块,如果所述多个词语中包含与所述行业标准词库中的标准词匹配的词语,那么所述第一词语组合模块适于将所述匹配的词语按照在所述原始短语中的位置关系组合,以得到组合词语;第一封装模块,适于将所述组合词语与所述有用词语组合,以得到第一新短语,并将所述第一新短语加入知识库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710706041.6/2.html,转载请声明来源钻瓜专利网。