[发明专利]一种基于概率模型的短文本相似度计算方法有效

专利信息
申请号: 201910094429.4 申请日: 2019-01-30
公开(公告)号: CN109858028B 公开(公告)日: 2022-11-18
发明(设计)人: 李民;瞿晨非;黄元欣 申请(专利权)人: 神思电子技术股份有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/211;G06F40/216;G06F40/253;G06F40/289;G06F40/247
代理公司: 济南泉城专利商标事务所 37218 代理人: 赵玉凤
地址: 250000 山东省济南市*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种基于概率模型的短文本相似度计算方法,致力解决小样本条件下短文本相似度计算问题;相较于词嵌入模型,概率模型对样本数量以及质量要求不高,在实际生产实践中具有更好的实用性和适用性;相较于一般的概率模型,引入弱增量式设计降低概率模型的计算效复杂度,提高模型计算效率;相较于传统的向量空间模型,引入权重系数b用来控制文档长度对文本相似度的影响;引入权重系数k1控制调制不同词频对文本相似度的影响,提高了短文本相似度的准确度。
搜索关键词: 一种 基于 概率 模型 文本 相似 计算方法
【主权项】:
1.一种基于概率模型的短文本相似度计算方法,其特征在于:包括以下步骤:S01)、输入模组获取训练数据集或者测试样本,生成规范化文本;S02)、自然语言处理模组对规范化文本进行整理分析,完成业务的结构化、切片化以及多维度定义,生成结构化文本;S03)、概率计算模组对结构化文本进行训练和预测,训练过程完成训练集词语映射文档,以及每个词语对每个文档的权重计算,预测过程是当用户输入查询语句时计算与其余训练集每个问题的相关性得分,基于概率模型的训练过程为:S31)、根据结构化文本构建训练词语集合WordList;S32)、遍历计算WordList中每个词语wordi(1≤i≤n)对问题的权重,得到词语对文档权重集合WordIDF,S33)、遍历训练集合文档列表DocList,计算每个文档相对长度,首先计算每个文档的平均长度Avgl,然后计算文档平均长度与所有文档平均长度的比值,即文档的相对长度Ratl,得到文档相对长度集合DocLength,其中代表文档di的总长度,代表文档di句子的个数,N为训练集文档总数;S34)、基于BM25算法计算词语wordi和文档dj的相关性得分,相关性公式为b、k1、k2为调节因子,fi为词语wordi在文档dj中的出现频率;为文档dj的相对长度;qfi为词语wordi在查询文档中出现的频率,遍历WordList和DocList得到每个词语与每个文档的相关度集合WordDocCoef;S35)、输出结构化训练结果到初始化模组,包括b、k1、k2初始值、词语对文档权重集合WordIDF、文档相对长度集合DocLength以及每个词语与每个文档的相关度集合WordDocCoef;基于概率模型对用户查询进行预测的过程为:自然语言处理模组对用户查询语句进行结构化处理生成词语列表wordi(1≤i≤n),得到训练集中所有问题与每个wordi相关性得分后权重求和,从而得到查询问句与训练集中每个问题的相关性得分,公式为:其中wordi为查询问句Q的词语,n为查询问句中词语的个数;S04)、初始化模组管理结构化训练数据,一方面在进行预测分析初始阶段输出结构化训练数据到概率计算模组并完成初始化,另一方面可根据短文本相似度结果在初始化模组更新b、k1、k2的初始值,优化概率模型;S05)、相似度分析模组对概率计算模组输出的相似度列表进行分析,为概率模型优化提供建议。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910094429.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top