[发明专利]主题的提取方法、装置、设备及计算机可读存储介质在审
申请号: | 202010756727.8 | 申请日: | 2020-07-30 |
公开(公告)号: | CN111859148A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 姜迪 | 申请(专利权)人: | 深圳前海微众银行股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955;G06F40/30 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 晏波 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 提取 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明涉及金融科技技术领域,公开了一种主题的提取方法、装置、设备及计算机可读存储介质。主题的提取方法包括:获取搜索日志信息以及各个搜索语句;根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。本发明提高了主题提取的准确性。
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种主题的提取方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
搜索日志信息中隐含的主题可以用于搜索引擎的功能,例如,研究人员将隐含主题应用在搜索引擎中拼写更正和搜索个性化等功能当中,也即搜索日志信息是一个非常价值的改善搜索引擎的搜索效果的信息库。
然而,现有挖掘隐含主题的方案针对整个日志信息进行隐含主题的全局查找,但是日志信息中某些主题并不相关,导致主题提取的不够准确。
发明内容
本发明的主要目的在于提供一种主题的提取方法、装置、设备及计算机可读存储介质,旨在解决主题提取的不够准确的问题。
为实现上述目的,本发明提供一种主题的提取方法,所述主题的提取方法包括:
获取搜索日志信息以及各个搜索语句;
根据各个所述搜索语句在所述搜索日志信息中确定会话,其中,所述会话中的各个所述搜索语句语义关联;
通过主题模型确定所述会话的主题分布,并根据所述主题分布确定所述会话对应的统一资源定位符;
根据所述会话对应的统一资源定位符,在所述会话对应的各个主题中提取目标主题。
可选地,所述根据各个所述搜索语句在所述搜索日志信息中确定会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句对应的参考参数,所述参考参数包括相邻的搜索语句的关键词以及相邻的搜索语句的语义相似度中的至少一个;
根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,所述会话中的各个所述搜索语句依次相邻且语义关联。
可选地,所述根据满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话的步骤包括:
在所述搜索日志信息中,确定相邻的搜索语句的搜索时间点之间的间隔时长;
根据所述间隔时长以及满足语义条件的所述参考参数对应的相邻的搜索语句,在所述搜索日志信息中提取会话,其中,所述会话中的各个所述搜索语句依次相邻且语义关联,所述会话中相邻的搜索语句对应的间隔时长小于预设时长。
可选地,所述预设条件包括以下至少一种:
相邻的所述搜索语句的语义相似度大于预设相似度;
相邻的所述搜索语句中的关键词相同。
可选地,所述根据所述主题分布确定所述会话对应的统一资源定位符的步骤包括:
根据所述主题分布,确定所述会话中各个主题对应的边缘概率;
根据所述会话对应的边缘概率确定所述会话对应的统一资源定位符。
可选地,所述根据所述主题分布,确定所述会话中各个主题对应的边缘概率的步骤之前,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海微众银行股份有限公司,未经深圳前海微众银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010756727.8/2.html,转载请声明来源钻瓜专利网。