[发明专利]基于嵌套命名实体识别技术的个人信用评估方法及系统在审
申请号: | 202210371908.8 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114462414A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 龙泉;林悦贤;姜辉;武广柱 | 申请(专利权)人: | 北京微聚未来科技有限公司;北京微聚智汇科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/33;G06F16/9536;G06Q50/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100193 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 嵌套 命名 实体 识别 技术 个人信用 评估 方法 系统 | ||
本发明公开的基于嵌套命名实体识别技术的个人信用评估方法及系统,属于个人信用评估技术领域,包括:清洗用户社交媒体文本数据,并对清洗后的数据进行嵌套命名实体识别,得到复合命名实体和简单命名实体;统计复合命名实体和简单命名实体的特征,并按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行建模,获取单条特征的信用贡献;根据信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。本发明最大限度利用用户社交媒体发布的文本数据,方便人工介入排查,不需要人工构建关键词库或规则库,降低了实现成本,利用更多信息,获得更高的效率。
技术领域
本发明涉及个人信用评估技术领域,特别涉及一种基于嵌套命名实体识别技术的个人信用评估方法及系统。
背景技术
传统的个人信用评分仅利用少量的数据,通过人工手段建立规则及审核,或者利用结构化数据建模,而对社交媒体文本数据的利用较少。随着互联网技术的发展,个人在互联网上的活动痕迹越发频繁,存在大量未被利用的社交媒体文本数据。社交媒体文本数据内涵丰富,不仅包含个人的生活细节、兴趣爱好、时事态度、语言习惯,而且还隐含了用户的受教育程度、消费状态、道德水平。针对海量社交媒体文本数据的信用建模,目前大多采用基于文本的向量化技术,建立文本评分模型,或者使用关键词提取技术,提取重要词汇进入规则审核。在利用社交媒体文本数据的技术方案中,基于黑盒模型建模的方案居多,信息抽取类的方案较少。基于黑盒模型的方案,通常是将词汇转化为词向量,利用历史数据训练模型,预测个人的信用分和逾期概率。基于信息抽取的方案,指的是以关键词提取、实体识别、句法分析为主,抽取模型中的关键词汇、关键实体或者关键结构,建立数据库或者词库进行匹配,根据匹配内容生成后续决策或者打分的方案,例如中国专利CN 109558592A和CN111753545A。由于文本数据,尤其是个人在社交媒体中产生的文本数据,具有紧跟时事、聚焦热点、语言灵活、语义变化等特点,因此个人社交媒体文本训练的模型往往不够稳定,具有离线表现尚可、线上在新话题下表现不佳、需要快速迭代等问题,如何对社交媒体文本数据建立具备可解释性的模型,依然是一项有挑战性的工作。
上述现有技术直接应用于个人信用评估,存在如下缺点:1、传统人工评估模式仅考虑少量的结构化数据,无法充分地利用互联网中的海量社交媒体文本信息,存在信用评估不全面的问题;2、在常见的社交媒体文本信息利用中,基于黑盒模型的方式直接对用户的表现进行建模,得出用户信用评分,但无法得知评分的依据,导致该方案的可解释性不强,不利于策略调整时的人工干预;3、基于信息抽取的个人信用评估模型,可解释性强,但需要创建及维护关键词库及规则库,而由于社交媒体文本具有多元、创新、自由、受时事热点驱动等特性,因此需要耗费大量的人工进行词库和规则的创建及维护,维护成本很高。
发明内容
为了解决传统个人信用评估对个人社交信息利用不充分、不易于人工调整及维护成本高等问题,本发明提供了一种基于嵌套命名实体识别技术的个人信用评估方法,包括:
清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
根据历史用户的文本数据、文本特征和逾期表现,对用户信用进行有监督的建模,获取单条特征的信用贡献;
根据各条特征的信用贡献,对用户个人信用进行评分,并生成各项特征的贡献值。
本发明还提供了一种基于嵌套命名实体识别技术的个人信用评估系统,包括:
清洗模块,用于清洗获取的用户社交媒体文本数据,并对清洗后的社交媒体文本数据进行嵌套命名实体识别,得到多种提及的复合命名实体和简单命名实体;
统计归一化模块,用于统计所述复合命名实体和简单命名实体的特征,并对统计结果按照时间先后顺序进行归一化处理,生成基于嵌套命名实体识别的历史用户文本特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京微聚未来科技有限公司;北京微聚智汇科技有限公司,未经北京微聚未来科技有限公司;北京微聚智汇科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210371908.8/2.html,转载请声明来源钻瓜专利网。