[发明专利]一种面向中医古籍文献的命名实体识别方法和装置在审
申请号: | 201910340359.6 | 申请日: | 2019-04-25 |
公开(公告)号: | CN110321550A | 公开(公告)日: | 2019-10-11 |
发明(设计)人: | 谢永红;夏超;张德政;阿孜古丽;栗辉;杨石兵 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中医 语料 命名实体 词表 测试数据集 方法和装置 训练数据集 短语 测试文件 实体类型 验证数据 中医古籍 读入 标注 输出 数据训练 挖掘 词语 预测 | ||
1.一种面向中医古籍文献的命名实体识别方法,其特征在于,包括:
S1、整理至少一种实体类型的实体词语,得到一个包含待识别的实体类型的第一中医领域词表;所述第一中医领域词表包括实体词语和对应的实体类型;
S2、使用AutoPhrase自动短语挖掘技术,从中医古文语料中进行短语挖掘,得到所有可能的实体词语,得到第二中医领域词表,所述第二中医领域词表包括实体词语;
S3、结合所述第一中医领域词表和所述第二中医领域词表,根据预定的回标策略,标注出所述中医古文语料中出现的实体;
S4、结合所述中医古文语料的回标结果和tie/break连接/断开标注模式,得到中医古文语料的标注数据;
S5、结合所述标注数据和根据所述中医古文语料训练得到的预训练模型WordEmbedding词嵌入,生成训练数据集、验证数据集、测试数据集,将训练数据集输出到训练文件中,验证数据集和测试数据集输出到测试文件中;
S6、从所述训练文件、测试文件中读入数据,根据所述读入数据训练AutoNER自动命名实体识别模型,并使用训练得到的所述AutoNER自动命名实体识别模型,对所述中医古文语料进行预测,得到识别的结果;根据结果得到识别的实体。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1包括:
S101、整理至少一种实体类型的实体词语,所述整理包括:对实体进行清理,删除空格、标点符号;
S102、删除现有词表中有歧义性的实体,并对同类型的实体进行去重的操作,得到待识别的类型的实体组成的第一中医领域词表。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
S201、设置AutoPhrase自动短语挖掘脚本中的输入输出路径、短语挖掘的词频以及程序运行的线程数;
S202、根据所述中医古文语料,对中文的停用词表进行维护,添加需要过滤的字和词;
S203、在词表中添加中医古文语料中的中医专业术语以提升短语挖掘的质量,然后进行短语挖掘,生成第二中医领域词表,所述第二中医领域词表为根据短语质量分数从高到低排序的词表。
4.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
301、合并所述第一中医领域词表和所述第二中医领域词表;对于所述第一中医领域词表,将实体以及对应的类型读入;
S302、对所述第二中医领域词表进行清理,删除前后空格、换行符,并且过滤掉单字的实体;设置两个可信阈值,分别对于单词和多词组成的实体进行筛选,超过所述可信阈值,则合并进最终词表,在合并时保存实体词语,对应的实体类型设为NULL;
S303、根据回标策略,对于中医古文中的每一句,返回其中可能出现的实体以及对应的实体类型;
所述回标策略包括:
对于一个长词包含至少两个短词情况,采用长词优先的策略,并且标注词语对应的实体类型;对于长词由至少两个短词组成情况,将所述长词的每个短词的实体类型标注为NULL;对于至少两个词交集冲突的情况,将所述两个词的实体类型都标注为NULL。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910340359.6/1.html,转载请声明来源钻瓜专利网。