[发明专利]一种考虑文本语义信息的实体识别方法及系统在审
申请号: | 202111116386.9 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113971403A | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 宗威;林松涛;李兵 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/31 |
代理公司: | 西安长和专利代理有限公司 61227 | 代理人: | 何畏 |
地址: | 710071 陕西省*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 考虑 文本 语义 信息 实体 识别 方法 系统 | ||
本发明属于数据清洗、数据集成应用技术领域,公开了一种考虑文本语义信息的实体识别方法及系统,对于待识别记录集合A与B,所述实体识别方法包括:数据读取与预处理;创建关于数据集的倒排索引;加载SBERT模型;计算数据集中词语的IDF值;生成待匹配记录对;计算记录相似性;处理与返回识别结果。本发明基于倒排索引与SBERT模型,通过倒排索引与计算数据源中单词的IDF值快速生成待匹配记录对,提高了识别效率;通过SBERT模型充分提取文本记录中的语义信息,利用余弦相似度计算记录间的相似性,提高识别准确性,由此达到高效准确的实体识别效果;相较于传统实体识别方法,本方法在论文数据集上实体识别结果的查全率提升了20%左右,查准率提升10%左右。
技术领域
本发明属于数据清洗、数据集成应用技术领域,尤其涉及一种考虑文本语义信息的实体识别方法及系统。
背景技术
目前,伴随着信息技术的高速发展与信息化建设的不断加快,各企业、单位对于数据的获取、存储能力不断获得提升。在各企事业信息系统中存储了大量的数据,这些数据具有极大的利用价值,想要获取到这些价值就需要借助数据清洗将海量的杂乱数据转变为具有一致性、准确性的高质量数据。
实体识别,又称为重复记录识别、记录链接等,是在数据集合中识别出哪些记录表示现实世界同一实体的过程。实体识别最早应用于医疗卫生、人口普查等领域,随着大数据时代到来,实体识别成为数据集成场景下提升数据质量的关键技术,其能够有效解决数据清洗中对重复记录的识别以及对相同实体描述内容的对应。实体识别技术应用场景主要可分为单一数据源下的重复记录检测与多数据源下的实体记录链接两大类。单一数据源中由于版本更替、信息删除不完全等问题存在数据冗余现象,在对信息系统的数据内容进行清洗与挖掘时会应用实体识别技术。多数据源中的实体记录链接多应用于数据集成场景中。
目前绝大多数实体识别方法采用“分块+比较”的策略,基于一定规则对数据集中记录进行分块,使得该规则下具有相似内容的记录出现在同一分块中。随后计算对应可能性较高记录间的相似度,通常会综合考虑记录的属性、结构特征等方面进行加权相似度计算。德国莱比锡大学的安德里斯·托尔(Andreas Thor)提出的基于多重映射及合并的实体识别算法就是典型的基于规则的加权实体识别计算方法。
相较于对所有记录之间进行两两相似度计算,这种“分块+比较”的方式一定程度上提升了计算效率但其依然存在一些问题。在对记录进行识别时排序规则的选取对最终识别效果影响较大,具体采用何种排序规则需要依靠具有一定经验的专业人员进行确定。此外在进行比较时分块大小是相对固定的,选取的分块过大会造成相关性极小的内容进行匹配计算增加了不必要的计算量,分块过小会使得相似的内容不能被完全包含进窗口之中,造成相似记录的遗漏。对于两条记录间相似度的计算需要对各个属性赋予不同的权重,权值的确定也需要人工参与。更加重要的一点是,现有方法对于文本中语义信息的利用并不充分,这些问题都给实体识别的实际应用与发展带来了极大的阻碍。伴随着自然语言处理技术的发展,结合文本语义信息进行实体识别的方法正成为新的领域。 2019年由NilsReimers和Iryna Gurevych提出SBERT模型便很好的将文本中的语义信息提取了出来,为本发明设计基于语义信息的实体识别方法开辟出新的思路。
因此,有鉴于传统方法识别效果差、识别效率低、通用性差、语义信息利用不充分的缺陷,亟需一种新的实体识别方法。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有采用“分块+比较”策略的实体识别方法,在对记录进行识别时排序规则的选取对最终识别效果影响较大,具体采用何种排序规则需要依靠具有一定经验的专业人员进行确定。
(2)现有实体识别方法在进行比较时分块大小相对固定,选取的分块过大会造成相关性极小的内容进行匹配计算增加了不必要的计算量,分块过小会使得相似的内容不能被完全包含进窗口之中,造成相似记录的遗漏。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111116386.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强度防腐抗裂中纤板
- 下一篇:一种新型切光灯
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置