[发明专利]专业百科命名实体识别方法、系统及电子设备有效

申请号：	202110525518.7	申请日：	2021-05-12
公开（公告）号：	CN113065355B	公开（公告）日：	2022-08-26
发明（设计）人：	江瑞;傅卓然;闾海荣;张学工;王维笑	申请（专利权）人：	清华大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F16/36
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	袁文婷;张娓娓
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	专业百科命名实体识别方法系统电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种人工智能，揭露一种专业百科命名实体识别方法，包括：通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示，以形成种子词集合；将所述种子词集合中的各个实体类别的向量求平均，以获取所述实体类别的向量化表示，作为所述种子词集合中的实体类别的标签向量；根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量，通过余弦相似度对比确定所述候选专业实体所属的类别。利用本发明，能够克服现有的监督学习实体识别方法中由于标注中专业语料的缺失以及人工标注文本所需的极高人力成本的缺陷，有效提高百科类文本信息抽取和实体识别的效率。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种专业百科命名实体识别方法、系统及电子设备。

背景技术

知识库在提高人工智能算法的性能中充当着重要角色，而知识库的构建技术则是衡量知识库性能不可或缺的考量指标。知识库的构建基本由信息抽取任务转化而来，即从非结构化及半结构化文本数据中抽取信息而后转化为知识并存入数据库。信息抽取是自然语言理解中的重要一环，而命名实体识别则是任务抽取中的一项基本任务。

命名实体识别是指在目标文本中识别出特定领域具有特定含义的词语或短语。在专业领域譬如医学领域中通常可包括疾病、检查、症状、药物、愈后、解剖学、流行病学、手术治疗、其他治疗等在该领域具有特定含义的类别。命名实体识别意在抽取出文本中相关词语和短语，以便进一步的关系抽取并最终形成知识网络体系融入知识图谱。

作为医学类描述性文本，医学百科自然成为了一个良好的医学信息抽取的切入点。医学百科多以自然语言的形式出现，并多以通俗的语句对知识进行表述，所以此类文本当中所包含的信息密度相对较低，并且从这种非结构化数据中提取信息是非常困难的。此外，低信息量的文本标注相对于信息量高的病例文本需要耗费更多人力进行标注，造成投入产出不成正比。

基于此，亟需一种能够解决现有的百科类文本的信息抽取方式效率低的问题的技术。

发明内容

本发明提供一种专业百科命名实体识别方法、系统及电子设备，其主要目的在于解决现有技术中百科类文本的信息抽取方式效率低的问题。

为实现上述目的，本发明提供的一种专业百科命名实体识别方法，应用于电子装置，包括：

通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示，以形成种子词集合；

将所述种子词集合中的各个实体类别的向量求平均，以获取所述实体类别的向量化表示，作为所述种子词集合中的实体类别的标签向量；

根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量，通过余弦相似度对比确定所述候选专业实体所属的类别。

为了解决上述问题，本发明还提供一种专业百科命名实体识别系统，所述系统包括：

种子词集合获取单元，用于通过文档嵌入的方式对标准化词表中的专业词汇进行向量化表示，以形成种子词集合；

种子词集合向量化单元，用于将所述种子词集合中的各个实体类别的向量求平均，以获取所述实体类别的向量化表示，作为所述种子词集合中的实体类别的标签向量；

目标实体识别单元，用于根据目标文档中候选专业实体的标签向量和所述种子集合中的实体类别的标签向量，通过余弦相似度对比确定所述候选专业实体所属的类别。

为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的专业百科命名实体识别方法中的步骤。