[发明专利]一种基于深度学习的在线中医文本命名实体识别方法在审
申请号: | 201710003685.9 | 申请日: | 2017-01-04 |
公开(公告)号: | CN106682220A | 公开(公告)日: | 2017-05-17 |
发明(设计)人: | 文贵华;陈佳浩 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62;G06N3/04 |
代理公司: | 广州市华学知识产权代理有限公司44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于深度学习的在线中医文本命名实体识别方法,包括:通过网络爬虫获取在线中医文本数据,利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;将在线中医文本数据进行分词,通过查找词汇表,将词语转化为固定长度词向量作为卷积神经网络的输入,当句子长度不足时以空白符填充;将卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果。本发明的方法相比于使用传统方法进行命名实体识别,减少了特征提取的复杂性和工作量,简化了处理过程,显著提高了识别效率。 | ||
搜索关键词: | 一种 基于 深度 学习 在线 中医 文本 命名 实体 识别 方法 | ||
【主权项】:
一种基于深度学习的在线中医文本命名实体识别方法,其特征在于:所述方法包括以下步骤:1)通过网络爬虫获取在线中医文本数据,对在线中医文本数据进行包含编码转换、无关信息去除的预处理操作,再利用已有的专业词典及人工辅助对获取的在线中医文本数据中的命名实体进行标注;2)利用word2vec工具在大规模的无标注语料上进行学习,获取固定长度的词向量并组成相应的词汇表;3)将步骤1)中标注过的在线中医文本数据进行分词,对于每个句子,通过查找步骤2)的词汇表,将词语转化为固定长度词向量,将固定长度词向量转化为向量矩阵作为卷积神经网络的输入,其中,当句子长度不足时以空白符填充;4)将多个连续时刻的步骤3)中卷积神经网络的输出作为双向长短时记忆循环神经网络的输入,输出待识别的在线中医文本数据词语的识别结果,其中,双向长短时记忆循环神经网络隐含层的神经元输入还包括上一时刻隐含层的输出及识别结果向量化的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710003685.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种DCPD树脂转运装置
- 下一篇:一种可移动式化盐系统