[发明专利]一种文本实体标注方法、装置、设备及存储介质在审
申请号: | 202210242288.8 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114692644A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 谢育涛;俞声;夏俊;袁正 | 申请(专利权)人: | 粤港澳大湾区数字经济研究院(福田);清华大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/216;G06F16/35 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 李可 |
地址: | 518045 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 标注 方法 装置 设备 存储 介质 | ||
本发明涉及文本数据处理技术领域,具体是涉及一种文本实体标注方法、装置、设备及存储介质。本发明首先标记出待标注文本中的目标实体,然后再通过语义类型标注器对有标记的目标实体标注语义类型,最后语义类型标注器输出含有标注语义类型的目标实体。一方面,本发明采用语义类型标注器对待标注文本进行标注而不是人工标注,提高了标注的准确性。另一方面,本发明对目标实体进行了标记,以此使得语义类型标注器在标注时只要根据标记就能准确找到目标实体以对其进行标注,从而防止语义类型标注器对非目标实体也进行标注,在提高了语义类型标注器对待标注文本的标注速度的同时也进一步提高了标注的准确性。
技术领域
本发明涉及文本数据处理技术领域,具体是涉及一种文本实体标注方法、装置、设备及存储介质。
背景技术
文本中包含有英文单词、中文词语这些实体以及标点符号等,在对文本进行实体标注时,需要先找出文本中有用的实体(目标实体),然后再对目标实体标注语义类型,语义类型用于区分各个目标实体所属的类型。
比如,在生物医学信息领域,NER(命名实体识别)系统可以被应用于发现医学文本中的生物医学实体。而NER系统是基于深度学习(Deep Learning)的方法构建的,深度学习模型在构建NER系统时需要大量的标注实体文本数据进行模型的训练,而大量的标注实体文本数据又是来源于人工手动对医学文本中的生物医学实体进行标注,从而导致标注的准确性较低。
综上所述,现有的文本实体标注方法降低了标注的准确性。
因此,现有技术还有待改进和提高。
发明内容
为解决上述技术问题,本发明提供了一种文本实体标注方法、装置、设备及存储介质,解决了现有的文本实体标注方法降低了标注准确性的问题。
为实现上述目的,本发明采用了以下技术方案:
第一方面,本发明提供一种文本实体标注方法,其中,包括:
获取待标注文本;
标记出所述待标注文本中所包含的目标实体,所述目标实体与所述待标注文本的特征相对应;
将标记出所述目标实体的所述待标注文本输入到已训练的语义类型标注器,通过已训练的所述语义类型标注器对标记出的所述目标实体进行语义类型标注,得到已标注文本,所述语义类型与所述目标实体所属类别相对应。
在一种实现方式中,所述标记出所述待标注文本中所包含的目标实体,包括:
获取所述原始实体库;
依据所述原始实体库,得到所述原始实体库所属信息领域;
依据所述信息领域,构建与所述信息领域所匹配的白名单字符域;
依据所述白名单字符域,清洗所述原始实体库中的实体,得到清洗之后的所述原始实体库;
对所述待标注文本进行切词处理;
通过清洗之后的所述原始实体库对切词后的所述待标注文本进行标记,以标记出所述待标注文本中的目标实体。
在一种实现方式中,已训练的所述语义类型标注器的训练方法包括:
获取原始实体库和样本文本;
通过所述原始实体库标记出所述样本文本所包含的样本实体;
对标记出所述样本实体的所述样本文本针对所述样本实体标注语义样本类型,得到已标注样本文本;
通过所述已标注样本文本对语义类型标注器进行训练,得到已训练的所述语义类型标注器。
在一种实现方式中,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区数字经济研究院(福田);清华大学,未经粤港澳大湾区数字经济研究院(福田);清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210242288.8/2.html,转载请声明来源钻瓜专利网。