[发明专利]基于混合拓展图谱的文本实体识别方法在审
申请号: | 202210894223.1 | 申请日: | 2022-07-27 |
公开(公告)号: | CN115935986A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 吴立 | 申请(专利权)人: | 北京中电博亚科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06F16/903;G06F16/36;G06F16/35 |
代理公司: | 北京共腾律师事务所 16031 | 代理人: | 李保民 |
地址: | 100089 北京市海淀区西小口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 拓展 图谱 文本 实体 识别 方法 | ||
1.基于混合拓展图谱的文本实体识别方法,其特征在于:包括以下步骤:
S1.通过私域流量或者公开数据进行大规模行业数据自动采集、更新与清洗,主要通过互联网数据采集工具对行业相关文本进行自动收集与清洗,本方法对文本类型精度要求不高,但应以长文本为主以提高后续对实体关联性计算的效果,采集到的文本应该进行相似去重以降低对后续实体与关系提取的干扰,对互联网文本,简单的字符串比较叠加SimDistance的方法能有效的祛除大量冗余内容;
S2.以计算机为主体,利用MI/CD统计模型从采集到的非结构化数据中进行新词挖掘和现有词权重的更新,实现词库的自动更新;从S1步骤中清洗完毕的内容中提取新词,MutualInformation与Context Dependency可以作为一种有效的中文n-gram新词提取方法,其中S1步骤与本步骤中主要依赖非监管系统进行,目的是对私有结构化数据的一个自动化补充;
S3.从非结构化数据中提取词库中实体,计算标注实体之间的关联关系与权重之间的距离;
S4.通过监管方式对行业实体信息建模并生成实例;其中S3与本步骤时通过知识图谱的搭建方法连接现有的结构化数据,这些结构化的数据通常存在于现有的业务的内部,缺点是离散化,通过Ontology的构建,可以在离散的结构化数据之间建立关联关系并统一行业知识图谱;
S5.通过对S3步骤与S4步骤中的两种数据的reconciliation实现图谱融合,建立可解释的拓展图谱;此步骤是对上述两种数据通过融合的手段互为补充,此步骤需要通过reconciliation的方法对非监管学习生成的n-gram图谱(Gn)与现有的行业图谱(KG)进行关联合并,更新(拓展)行业图谱(KG),Reconciliation的过程包括:
.搜寻Gn中未被映射到KG的节点(Ni);
.对每一个Ni,寻找其在Gn中的所有关联节点;
.通过图对比判定未标记节点Ni是否对应KG中已知节点;此步骤通过预定义的少量唯一标识属性或者属性组合进行,譬如游戏发行商+名称匹配,如果关联到已知节点则把Ni在Gn中的关联token带入拓展图谱作为点缀属性,拓展图谱与一般知识图谱的区别是,拓展图谱不仅包含实体节点信息,同时也包含与实体相关联的点缀属性与点缀节点,点缀节点与属性不属于实体节点,
.当点缀节点的出现频率Fi超过预设阈值T,可以对点缀节点通过人工判定的方法转换为实体节点,点缀节点在拓展图谱中与实体一样可以被唯一标示,与知识图谱类似,拓展图谱通过三元组方式做底层存储,但为了优化后续访问的效率,可以通过建立不同的视图进行加速;
S6.利用拓展图对进入系统的文本进行实体标注,输出实体以及相应的权重;此步骤是对前面建立的拓展图谱的应用,对输入的文本,通过利用含有拓展图谱所有节点的词库进行分词处理,分词过程中为提高召回,可以对同一个文本token分配多个可能的节点,然后通过聚类算法(譬如k-mean)对token在拓展图谱KG中进行聚类,Token之间的距离通过其对应节点在拓展图谱内的连接边数定义,具体计算方法可以是简单的hop count或者是加权距离,也可采用embedding方案后计算vector distance,然后在聚类子图中的实体节点作为该文本的标注实体,此类方法的另一个优点是,即使目标命名实体不在现有拓展图谱KG中,系统仍可以计算与目标命名实体最为相关的现有实体并输出结果,从而改善由传统知识图谱覆盖问题引起的召回问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电博亚科技有限公司,未经北京中电博亚科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210894223.1/1.html,转载请声明来源钻瓜专利网。