[发明专利]一种面向中医古籍文献的命名实体识别方法和装置在审
申请号: | 201910340359.6 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110321550A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 谢永红;夏超;张德政;阿孜古丽;栗辉;杨石兵 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施例公开一种面向中医古籍文献的命名实体识别方法和装置,所述方法包括:整理至少一种实体类型的实体词语,得到一个包含待识别的实体类型的第一中医领域词表;使用AutoPhrase自动短语挖掘技术,从中医古文语料中进行短语挖掘,得到第二中医领域词表;根据预定的回标策略,标注出所述中医古文语料中出现的实体;得到中医古文语料的标注数据;生成训练数据集、验证数据集、测试数据集,将训练数据集输出到训练文件中,验证数据集和测试数据集输出到测试文件中;从所述训练文件、测试文件中读入数据,根据所述读入数据训练自动命名实体识别模型,对所述中医古文语料进行预测,得到识别的结果;根据结果得到识别的实体。 | ||
搜索关键词: | 中医 语料 命名实体 词表 测试数据集 方法和装置 训练数据集 短语 测试文件 实体类型 验证数据 中医古籍 读入 标注 输出 数据训练 挖掘 词语 预测 | ||
【主权项】:
1.一种面向中医古籍文献的命名实体识别方法,其特征在于,包括:S1、整理至少一种实体类型的实体词语,得到一个包含待识别的实体类型的第一中医领域词表;所述第一中医领域词表包括实体词语和对应的实体类型;S2、使用AutoPhrase自动短语挖掘技术,从中医古文语料中进行短语挖掘,得到所有可能的实体词语,得到第二中医领域词表,所述第二中医领域词表包括实体词语;S3、结合所述第一中医领域词表和所述第二中医领域词表,根据预定的回标策略,标注出所述中医古文语料中出现的实体;S4、结合所述中医古文语料的回标结果和tie/break连接/断开标注模式,得到中医古文语料的标注数据;S5、结合所述标注数据和根据所述中医古文语料训练得到的预训练模型Word Embedding词嵌入,生成训练数据集、验证数据集、测试数据集,将训练数据集输出到训练文件中,验证数据集和测试数据集输出到测试文件中;S6、从所述训练文件、测试文件中读入数据,根据所述读入数据训练AutoNER自动命名实体识别模型,并使用训练得到的所述AutoNER自动命名实体识别模型,对所述中医古文语料进行预测,得到识别的结果;根据结果得到识别的实体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910340359.6/,转载请声明来源钻瓜专利网。