[发明专利]一种配网实体相关的语义搜索方法在审
申请号: | 202010864615.4 | 申请日: | 2020-08-25 |
公开(公告)号: | CN112036178A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 王鑫;张淑娟;汪玉;赵龙;胡世骏;秦丹丹;郑高峰;刘丽;李龙跃;高博;徐斌;袁方;李金中;王潇;孙伟;李博;卞真旭;金雨楠;钱光超;仇茹嘉 | 申请(专利权)人: | 国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/33 |
代理公司: | 西安毅联专利代理有限公司 61225 | 代理人: | 杨燕珠 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 相关 语义 搜索 方法 | ||
本发明为一种配网实体相关的语义搜索方法,其特征在于包括:对配网实体中的文本进行基于词频统计的分词方法进行分词,得到词库;对配网实体中的文本进行模型分词,得到词库;合并基于词频的词库和基于模型的词库;对词库中分词错误的专有名词进行标注;用标注的词语对配网实体中的文本进行大量的训练,得到词库;合并上述的三个词库,是基于Jieba分词包;所述Jieba分词包可以添加自己标注的专业词语;对词库进行大量的训练之前先将换行符、句号、逗号等分隔符将全文分成短句;基于词频统计分词是统计任意两个字同时出现的频率。
技术领域
本发明一种配网实体相关的语义搜索方法,涉及图数据库和语义搜索。
背景技术
对于拓扑数据实体的搜索一方面需要通过业务人员协助定位到具体的系统和物理表,另一方面还需要数据管理人员编写固定的查询语句在数据库中进行关联检索。这种数据资源检索方式不仅费时费力,而且方法的可拓展性差,对不同类别的实体进行搜索时,需要业务人员和数据管理人员重新进行处理,难以覆盖到全业务统一数据中心中所有的配网拓扑数据实体。
为克服现有搜索引擎搜索内容局限于关键字段、搜索效率较低、查询结果无序且单一等问题,本项目以知识图谱、自然语言处理等技术为基础,分析信息搜索特征,开展基于语义的配网数据资源智能搜索工作。首先,通过配网实体名称识别模型训练,使其能够精确识别电网领域内专有实体名称,其次通过词法分析、语法分析、语义识别等自然语言处理技术,对用户输入的自然语言问题进行语义解析;再利用倒排索引技术,对知识图谱中文本信息构建索引,为快速对搜索目标进行定位提供技术支撑;最后,对结果列表进行相关性计算,将相关性最高的结果返回给用户。
发明内容
本发明的目的在于解决配网实体中语义搜索的问题。
实现本发明的技术方案如下:
本发明为一种配网实体相关的语义搜索方法,包括步骤1:对配网实体中的文本进行分词;
S1、对配网实体中的文本基于词频的方法得到第一词库;
S2、使用配网实体名称识别模型对配网实体中的文本进行分词,得到第二词库;
S3、合并第一词库和第二词库得到合并词库;
S4、人工对合并词库中分词错误的词语进行删除,并在配网实体中的文本中标注出对应分词错误的正确词语,得到标注文本;
S5、使用配网实体名称识别模型对标注文本再次分词,得到第三词库;
S6、重复S2~S5,直至得到最终词库;
优选的,步骤S1基于词频的方法是基于Jieba分词包的一种处理方式;
优先的,在进行所述步骤S1之前,先以换行符、句号、逗号等分隔符将全文分成短句;
优选的,步骤S2配网实体名称识别模型是BiLSTM-CRF的模型;
优选的,步骤S6重复S2~S5,重复的次数至少一次;
一种配网实体相关的语义搜索方法,,包括以下步骤:
步骤1:对配网实体中的文本进行分词,并将分词分解成单个的字符形式,得到字符表和词组表;
步骤2:将步骤1中的字符表中的字符进行向量化,得到字符向量;
步骤3:将步骤1中的词组表中的词组利用模型训练得到词向量;
步骤4:将步骤2中得到的字符向量和词向量进行合并,得到上下文信息向量;
步骤5:将步骤4中得到上下文信息向量信息传入双向LSTM进行训练,得到输入文本的语义信息特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院,未经国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010864615.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种TCP热备架构中TCP流备份和平滑的方法和设备
- 下一篇:一种链板转弯机