[发明专利]用户画像信息的处理方法、装置、设备和计算机存储介质在审

专利信息
申请号: 202110267542.5 申请日: 2021-03-11
公开(公告)号: CN115080753A 公开(公告)日: 2022-09-20
发明(设计)人: 马稼明;林海;谭成;郭汉龙;葛正荣;黄少琪;张琰琳;于亚茹;姜齐;陈家烁 申请(专利权)人: 中国电信股份有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/211;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 北京律智知识产权代理有限公司 11438 代理人: 孙宝海;袁礼君
地址: 100033 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用户 画像 信息 处理 方法 装置 设备 计算机 存储 介质
【说明书】:

本公开提供了一种用户画像信息的处理方法、装置、设备和计算机存储介质,涉及信息抽取技术领域。其中,处理方法包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息;通过机器学习模型对结构化用户数据进行实体抽取和标注,以生成结构化用户数据的三元组信息;通过实体链接技术对非结构化用户数据的三元组信息和结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建用户数据对应的用户画像知识图谱。通过本公开的技术方案,生成的用户画像知识图谱比较全面,精确率高,模型鲁棒性强,提高了用户画像的打标效率。

技术领域

本公开涉及信息抽取技术领域,尤其涉及一种用户画像信息的处理方法、装置、设备和计算机存储介质。

背景技术

知识图谱是一种海量知识表征形式,表达了各类实体及其之间的各种语义关系,具有更为丰富的语义关系,更高的实体、概念覆盖率,以及较高的数据质量等优点,可以改善用户画像的数据不全、不准等问题,因此,基于知识图谱的用户画像越来越引起人们的关注。

相关技术中,在用户画像知识图谱的构建过程中,信息抽取是用户画像知识图谱的构建的关键技术,其可以从非结构化的用户画像数据文本中提取出实体并识别它们的语义之间的关系。

传统的实体以及它们之间的关系抽取的方法主要是基于传统的管道抽取方式,虽然传统管道抽取方式易于实现,而且各个模块的灵活性比较强,但至少存在如下缺点:

(1)误差积累:实体抽取的错误会影响下一步关系抽取的性能。

(2)实体冗余:由于先对抽取的实体进行两两配对,然后再进行关系分类,没有关系的候选实体对所带来的冗余信息,会提升错误率、增加计算复杂度。

(3)交互缺失:忽略了这两个实体之间的内在联系和依赖关系。

(4)虽然实现了中文的端到端的实体关系联合抽取,但是没有考虑模型实体的多关系性,训练模型的效率和准确率也有待提高。

(5)在实际模型应用中,机器学习方法对数据样本非常敏感,导致训练模型不是很稳定,泛化能力不强,容易受样本微小波动的影响。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种用户画像信息的处理方法、装置、设备和计算机存储介质,至少在一定程度上克服相关技术中提取实体的冗余信息繁多的问题。

本公开的其他特性和优点将通过后续的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一个方面,提供一种用户画像信息的处理方法,包括:确定用户数据中的非结构化用户数据和结构化用户数据;通过ALBERT模型对非结构化用户数据进行实体抽取和标注,以生成非结构化用户数据的三元组信息;通过机器学习模型对结构化用户数据进行实体抽取和标注,以生成结构化用户数据的三元组信息;通过实体链接技术对非结构化用户数据的三元组信息和结构化用户数据的三元组信息进行融合处理;将融合处理后的三元组信息导入neo4j图数据库,以构建用户数据对应的用户画像知识图谱,其中,三元组信息包括用户实体数据、实体关系数据和实体标签数据。

在本公开的一个实施例中,确定用户数据中的非结构化用户数据和结构化用户数据包括:获取用户数据中的多源异构数据;采用文本预处理技术对多源异构数据进行处理,以获得非结构化用户数据和结构化用户数据,文本预处理技术包括语音识别技术、光学字符识别技术、数据挖掘技术和机器学习技术中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电信股份有限公司,未经中国电信股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110267542.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top