[发明专利]基于混合拓展图谱的文本实体识别方法在审
申请号: | 202210894223.1 | 申请日: | 2022-07-27 |
公开(公告)号: | CN115935986A | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 吴立 | 申请(专利权)人: | 北京中电博亚科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/194;G06F16/903;G06F16/36;G06F16/35 |
代理公司: | 北京共腾律师事务所 16031 | 代理人: | 李保民 |
地址: | 100089 北京市海淀区西小口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 拓展 图谱 文本 实体 识别 方法 | ||
本发明提供基于混合拓展图谱的文本实体识别方法,涉及文本识别方法技术领域。该基于混合拓展图谱的文本实体识别方法,包括以下步骤:S1.通过私域流量或者公开数据进行大规模行业数据自动采集、更新与清洗,主要通过互联网数据采集工具对行业相关文本进行自动收集与清洗,本方法对文本类型精度要求不高,但应以长文本为主以提高后续对实体关联性计算的效果,采集到的文本应该进行相似去重以降低对后续实体与关系提取的干扰,对互联网文本,简单的字符串比较叠加Sim Distance的方法能有效的祛除大量冗余内容。通过词库自动拓展与相关性计算实现拓展图谱实时更新,当实体缺失时能命中最为相关的类似实体,通过图节点的关联关系实现输出结果的可解释性。
技术领域
本发明涉及文本识别方法技术领域,具体为基于混合拓展图谱的文本实体识别方法。
背景技术
实体识别(Named Entity Recognition, NER)是对非结构化文本进行自然语言处理中的重要环节。NER目前采取的常用方法包括:
基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段。此类系统缺点是大多依赖于知识库和词典的建立。代价太大,系统建设周期长,新词反馈时间过长。
基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Mode,HMM)、最大熵(Maxmium Entropy)、支持向量机(Support Vector Machine, SVM)、条件随机场(Conditional Random Fields)。此类方法的特点是有较好的通用型,主要缺点是训练时间复杂性高,对垂直领域内知识的理解完全依赖于语料的采集。
基于神经网络的方法依赖于硬件能力的发展以及词的分布式表示(wordembedding)。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。神经网络主要通过将token从离散one-hot表示映射到低维空间中成为稠密的embedding。该类系统不依赖于特征工程,缺点是算法缺乏可解释性,依赖于参数设置,而且由于对token的处理是独立进行,不能直接利用上下文已经预测的标签。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了基于混合拓展图谱的文本实体识别方法,解决了现有系统建设时间长,训练时间复杂性高和缺乏可解释性依赖于参数设置的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:基于混合拓展图谱的文本实体识别方法,包括以下步骤:
S1.通过私域流量或者公开数据进行大规模行业数据自动采集、更新与清洗,主要通过互联网数据采集工具对行业相关文本进行自动收集与清洗,本方法对文本类型精度要求不高,但应以长文本为主以提高后续对实体关联性计算的效果,采集到的文本应该进行相似去重以降低对后续实体与关系提取的干扰,对互联网文本,简单的字符串比较叠加SimDistance的方法能有效的祛除大量冗余内容;
S2.以计算机为主体,利用MI/CD统计模型从采集到的非结构化数据中进行新词挖掘和现有词权重的更新,实现词库的自动更新;从S1步骤中清洗完毕的内容中提取新词,Mutual Information与Context Dependency可以作为一种有效的中文n-gram新词提取方法,其中S1步骤与本步骤中主要依赖非监管系统进行,目的是对私有结构化数据的一个自动化补充;
S3.从非结构化数据中提取词库中实体,计算标注实体之间的关联关系与权重之间的距离;
S4.通过监管方式对行业实体信息建模并生成实例;其中S3与本步骤时通过知识图谱的搭建方法连接现有的结构化数据,这些结构化的数据通常存在于现有的业务的内部,缺点是离散化,通过Ontology的构建,可以在离散的结构化数据之间建立关联关系并统一行业知识图谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中电博亚科技有限公司,未经北京中电博亚科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210894223.1/2.html,转载请声明来源钻瓜专利网。