[发明专利]一种电网文本信息匹配的方法、系统和存储介质在审
申请号: | 201910430119.5 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110347820A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 单克;代江;王宁;陈恩黔;赵倩;田年杰 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/28;G06F16/245 |
代理公司: | 成都拓荒者知识产权代理有限公司 51254 | 代理人: | 邹广春 |
地址: | 550000 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本信息 电网 文本 匹配 检索文本 信息库 关联表 相似度 构建 文档 相似度计算 采集数据 垂直搜索 存储介质 分类存储 工作效率 聚类结果 聚类中心 匹配结果 权重计算 数据仓库 文本序列 信息检索 信息匹配 校验 权重表 分词 聚类 排序 检索 数据库 关联 返回 中文 | ||
1.一种电网文本信息匹配方法,其特征在于,包括:
采集电网文本信息数据进行预处理,得到原始电网文本信息库;
将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;
输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;
根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。
2.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,所述电网文本信息数据进行预处理包括:数据的析取、数据的剔除、数据的过滤。
3.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,将切出词与文档进行关联后分别进行关联规则计算和权重计算,后得到得到文档中每个词语的权重值和基于关键词的关联规则,将关联规则中的前件后件写到关联表中,基于小文本的相似度计算,计算出电网信息文本的相似度,然后执行聚类算法,将所有电网信息文本根据聚类结果分类存储于电网文本信息数据库。
4.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,所述电网文本信息数据库中的文本信息的结构包括:文本编号ID、设备编号Setid、句子Sentence、若干文本关键词。
5.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,对待输入文本的校验通过预设的检索违禁字典库完成,所述检索违禁字典库由禁止检索主题的关键词组成。
6.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,对输入的检索文本校验后进行分词得到若干个检索词,分别对若干检索词进行权重计算。
7.根据权利要求6所的一种电网文本信息匹配方法,其特征在于,输入的检索文本的每一个检索词均得到一个文本序列,每个文本序列中的文本均对应一个文本编号ID,由所述文本序列组成索引记录表,提取索引记录表中检索词关对应文本编号的交集编号,并将交集编号对应的的文本信息作为最终的匹配结果反返回给用户。
8.根据权利要求1所的一种电网文本信息匹配方法,其特征在于,当根据预设的关联表和权重表得出待检索文本与当前电网文本信息数据库中各聚类中心的距离大于预设值时,表示电网文本信息数据库无相关文本信息,将当前输入的待检索文本信息作为无解问题,存放到无解问题库,等待信息扩充更新后解答。
9.一种基于数据仓库与垂直搜索的电网文本信息匹配的系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括电网文本信息匹配方法程序,所述电网文本信息匹配方法程序被所述处理器执行时实现如下步骤:
采集电网文本信息数据进行预处理,得到原始电网文本信息库;
将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;
输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;
根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top-n对应的文本组成文本序列作为匹配结果返回。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括电网文本信息匹配方法程序,所述电网文本信息匹配方法程序被处理器执行时,实现如权利要求1至8中任一项所述的电网文本信息匹配方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910430119.5/1.html,转载请声明来源钻瓜专利网。