[发明专利]一种配网实体相关的语义搜索方法在审
申请号: | 202010864615.4 | 申请日: | 2020-08-25 |
公开(公告)号: | CN112036178A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 王鑫;张淑娟;汪玉;赵龙;胡世骏;秦丹丹;郑高峰;刘丽;李龙跃;高博;徐斌;袁方;李金中;王潇;孙伟;李博;卞真旭;金雨楠;钱光超;仇茹嘉 | 申请(专利权)人: | 国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/33 |
代理公司: | 西安毅联专利代理有限公司 61225 | 代理人: | 杨燕珠 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 相关 语义 搜索 方法 | ||
1.一种配网实体相关的语义搜索方法,其特征在于,包括步骤1:对配网实体中的文本进行分词;
所述对配网实体中的文本进行分词,包括:
S1、对配网实体中的文本基于词频的方法得到第一词库;
S2、使用配网实体名称识别模型对配网实体中的文本进行分词,得到第二词库;
S3、合并第一词库和第二词库得到合并词库;
S4、人工对合并词库中分词错误的词语进行删除,并在配网实体中的文本中标注出对应分词错误的正确词语,得到标注文本;
S5、使用配网实体名称识别模型对标注文本再次分词,得到第三词库;
S6、重复S2~S5,直至得到最终词库。
2.根据权利要求1所述的一种配网实体相关的语义搜索方法,其特征在于,所述S1基于词频的方法是基于Jieba分词包的一种处理方式。
3.根据权利要求1所述的一种配网实体相关的语义搜索方法,其特征在于,步骤S1在进行之前,先以换行符、句号、逗号等分隔符将配网实体中的文本分成短句。
4.根据权利要求1所述的一种配网实体相关的语义搜索方法,其特征在于,步骤S2配网实体名称识别模型是BiLSTM-CRF的模型。
5.根据权利要求1所述的一种配网实体相关的语义搜索方法,其特征在于,步骤S6中重复S2~S5,具体的为重复步骤S2~S5的至少一次。
6.一种配网实体相关的语义搜索方法,其特征在于,包括以下步骤:
步骤1:对配网实体中的文本进行分词,并将分词分解成单个的字符形式,得到字符表和词组表;
步骤2:将步骤1中的字符表中的字符进行向量化,得到字符向量;
步骤3:将步骤1中的词组表中的词组利用模型训练得到词向量;
步骤4:将步骤2中得到的字符向量和词向量进行合并,得到上下文信息向量;
步骤5:将步骤4中得到上下文信息向量信息传入双向LSTM进行训练,得到输入配网实体中的文本的语义信息特征;
步骤6:将步骤五中双向LSTM的输出输入条件随机场,计算输入词对应的最优标签序列,以最大概率的序列作为词组最后的类别标签。
7.根据权利要求6所述的一种配网实体相关的语义搜索方法,其特征在于,所述步骤3中的模型为glove模型。
8.根据权利要求6所述的一种配网实体相关的语义搜索方法,其特征在于,所述步骤3中的词向量,每个词向量代表一个词组,且词向量的维度可以进行调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院,未经国家电网有限公司;国网安徽省电力有限公司;国网安徽省电力有限公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010864615.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种TCP热备架构中TCP流备份和平滑的方法和设备
- 下一篇:一种链板转弯机