[发明专利]一种文本实体标注方法、装置、设备及存储介质在审

申请号：	202210242288.8	申请日：	2022-03-11
公开（公告）号：	CN114692644A	公开（公告）日：	2022-07-01
发明（设计）人：	谢育涛;俞声;夏俊;袁正	申请（专利权）人：	粤港澳大湾区数字经济研究院（福田）;清华大学
主分类号：	G06F40/30	分类号：	G06F40/30;G06F40/295;G06F40/216;G06F16/35
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	李可
地址：	518045 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本实体标注方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及文本数据处理技术领域，具体是涉及一种文本实体标注方法、装置、设备及存储介质。本发明首先标记出待标注文本中的目标实体，然后再通过语义类型标注器对有标记的目标实体标注语义类型，最后语义类型标注器输出含有标注语义类型的目标实体。一方面，本发明采用语义类型标注器对待标注文本进行标注而不是人工标注，提高了标注的准确性。另一方面，本发明对目标实体进行了标记，以此使得语义类型标注器在标注时只要根据标记就能准确找到目标实体以对其进行标注，从而防止语义类型标注器对非目标实体也进行标注，在提高了语义类型标注器对待标注文本的标注速度的同时也进一步提高了标注的准确性。

技术领域

本发明涉及文本数据处理技术领域，具体是涉及一种文本实体标注方法、装置、设备及存储介质。

背景技术

文本中包含有英文单词、中文词语这些实体以及标点符号等，在对文本进行实体标注时，需要先找出文本中有用的实体(目标实体)，然后再对目标实体标注语义类型，语义类型用于区分各个目标实体所属的类型。

比如，在生物医学信息领域，NER(命名实体识别)系统可以被应用于发现医学文本中的生物医学实体。而NER系统是基于深度学习(Deep Learning)的方法构建的，深度学习模型在构建NER系统时需要大量的标注实体文本数据进行模型的训练，而大量的标注实体文本数据又是来源于人工手动对医学文本中的生物医学实体进行标注，从而导致标注的准确性较低。

综上所述，现有的文本实体标注方法降低了标注的准确性。

因此，现有技术还有待改进和提高。

发明内容

为解决上述技术问题，本发明提供了一种文本实体标注方法、装置、设备及存储介质，解决了现有的文本实体标注方法降低了标注准确性的问题。

为实现上述目的，本发明采用了以下技术方案：

第一方面，本发明提供一种文本实体标注方法，其中，包括：

获取待标注文本；

标记出所述待标注文本中所包含的目标实体，所述目标实体与所述待标注文本的特征相对应；

将标记出所述目标实体的所述待标注文本输入到已训练的语义类型标注器，通过已训练的所述语义类型标注器对标记出的所述目标实体进行语义类型标注，得到已标注文本，所述语义类型与所述目标实体所属类别相对应。

在一种实现方式中，所述标记出所述待标注文本中所包含的目标实体，包括：

获取所述原始实体库；

依据所述原始实体库，得到所述原始实体库所属信息领域；