[发明专利]一种文本实体标注方法、装置、设备及存储介质在审
申请号: | 202210242288.8 | 申请日: | 2022-03-11 |
公开(公告)号: | CN114692644A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 谢育涛;俞声;夏俊;袁正 | 申请(专利权)人: | 粤港澳大湾区数字经济研究院(福田);清华大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/295;G06F40/216;G06F16/35 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 李可 |
地址: | 518045 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 实体 标注 方法 装置 设备 存储 介质 | ||
1.一种文本实体标注方法,其特征在于,包括:
获取待标注文本;
标记出所述待标注文本中所包含的目标实体;
将标记出所述目标实体的所述待标注文本输入到已训练的语义类型标注器,通过已训练的所述语义类型标注器对标记出的所述目标实体进行语义类型标注,得到已标注文本。
2.如权利要求1所述的文本实体标注方法,其特征在于,所述标记出所述待标注文本中所包含的目标实体,包括:
获取所述原始实体库;
依据所述原始实体库,得到所述原始实体库所属信息领域;
依据所述信息领域,构建与所述信息领域所匹配的白名单字符域;
依据所述白名单字符域,清洗所述原始实体库中的实体,得到清洗之后的所述原始实体库;
对所述待标注文本进行切词处理;
通过清洗之后的所述原始实体库对切词后的所述待标注文本进行标记,以标记出所述待标注文本中的目标实体。
3.如权利要求1所述的文本实体标注方法,其特征在于,已训练的所述语义类型标注器的训练方式包括:
获取原始实体库和样本文本;
通过所述原始实体库标记出所述样本文本所包含的样本实体;
对所述样本文本中的所述样本实体标注语义样本类型,得到已标注样本文本;
通过所述已标注样本文本对语义类型标注器进行训练,得到已训练的所述语义类型标注器。
4.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:
依据所述原始实体库,得到所述原始实体库所属信息领域;
依据所述信息领域,构建与所述信息领域所匹配的白名单字符域;
依据所述白名单字符域,清洗所述原始实体库中的实体,得到清洗之后的所述原始实体库;
依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。
5.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:
依据所述原始实体库,得到所述原始实体库所包含的括号;
依据所述括号所对应的信息,清洗含有所述括号的实体,得到清洗之后的所述原始实体库;
依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。
6.如权利要求3所述的文本实体标注方法,其特征在于,所述通过所述原始实体库标记出所述样本文本所包含的样本实体,包括:
依据所述原始实体库,得到所述原始实体库所包含的无意义实体和/或含有异常首尾字符的实体,所述无意义实体为无实际含义的实体,所述异常首尾字符的实体为首尾字符与实体所属语种不匹配的实体;
从所述原始实体库中清洗掉所述无意义实体和/或含有异常首尾字符的实体,得到清洗之后的所述原始实体库;
依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体。
7.如权利要求4或5或6任一项所述的文本实体标注方法,其特征在于,所述依据清洗之后的所述原始实体库标记出所述样本文本所包含的样本实体,包括:
对所述样本文本进行单词独立切分处理,得到单词独立切分处理之后的所述样本文本;
依据清洗之后的所述原始实体库标记出单词独立切分处理之后的所述样本文本所包含的样本实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区数字经济研究院(福田);清华大学,未经粤港澳大湾区数字经济研究院(福田);清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210242288.8/1.html,转载请声明来源钻瓜专利网。