[发明专利]一种电网文本信息匹配的方法、系统和存储介质在审
申请号: | 201910430119.5 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110347820A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 单克;代江;王宁;陈恩黔;赵倩;田年杰 | 申请(专利权)人: | 贵州电网有限责任公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F16/28;G06F16/245 |
代理公司: | 成都拓荒者知识产权代理有限公司 51254 | 代理人: | 邹广春 |
地址: | 550000 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种电网文本信息匹配方法、系统和介质,其中方法包括:采集数据构建原始电网文本信息库;将原始电网文本信息库的文档的主题切词和关联,计算得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;对输入检索的文本校验后分词和权重计算;计算输入检索文本与各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top‑n对应的文本组成文本序列作为匹配结果返回。本发明通过基于电网文本信息构建数据仓库,提高了信息匹配的效率,降低使用成本;利用垂直搜索,提高信息检索匹配的精确度和工作效率。 | ||
搜索关键词: | 文本信息 电网 文本 匹配 检索文本 信息库 关联表 相似度 构建 文档 相似度计算 采集数据 垂直搜索 存储介质 分类存储 工作效率 聚类结果 聚类中心 匹配结果 权重计算 数据仓库 文本序列 信息检索 信息匹配 校验 权重表 分词 聚类 排序 检索 数据库 关联 返回 中文 | ||
【主权项】:
1.一种电网文本信息匹配方法,其特征在于,包括:采集电网文本信息数据进行预处理,得到原始电网文本信息库;将原始电网文本信息库的每一份文档的主题进行切词,将切出词与文档进行关联后分别进行关联规则计算和权重计算,得到关联表和权重表,基于关联表进行相似度计算和聚类计算得到每一文档的聚类结果并分类存储电网文本信息数据库;输入待检索的文本,对输入的检索文本校验后进行分词和权重计算;根据预设的关联表和权重表得到输入的检索文本与当前电网文本信息数据库中各聚类中心的距离,分别计算输入的检索文本与相似度最大的类中文本的相似度并排序,将相似度度序列的top‑n对应的文本组成文本序列作为匹配结果返回。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州电网有限责任公司,未经贵州电网有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910430119.5/,转载请声明来源钻瓜专利网。