[发明专利]模型训练方法、主题推荐理由的获取方法及系统、电子设备在审
申请号: | 202110718988.5 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113407842A | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 孙知非;孙玉霞;何蜀波;邹宇 | 申请(专利权)人: | 携程旅游信息技术(上海)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9532;G06F40/30;G06F40/289 |
代理公司: | 上海弼兴律师事务所 31283 | 代理人: | 杨东明;罗朗 |
地址: | 201203 上海市浦东新*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 模型 训练 方法 主题 推荐 理由 获取 系统 电子设备 | ||
1.一种模型训练方法,其特征在于,所述模型训练方法包括:
获取与旅游景点主题相关的文本数据;
对所述文本数据按照与旅游景点主题的相关程度以及内容优质程度进行标注;
根据标注后的文本数据建立训练数据集;
利用所述训练数据集对主题匹配模型进行第一次训练;
通过数据增强方法进行数据增强,并将增强后的数据增加至所述训练数据集;
利用包括有增强数据的所述训练数据集对所述主题匹配模型进行第二次训练,训练完成的所述主题匹配模型用于接收输入的目标主题,生成与所述目标主题相对应的推荐理由。
2.如权利要求1所述的模型训练方法,其特征在于,所述数据增强方法包括数据回译增强方法、通用数据增强方法、欠拟合数据增强方法中的至少一种;
所述数据回译增强方法具体包括以下步骤:
利用机器翻译技术将标注后的文本数据进行多轮翻译,并将标注后的文本数据最终翻译成中文的结果增加至所述训练数据集;和/或,
所述通用数据增强方法具体包括以下步骤:
获取内容优质的文本数据,所述内容优质的文本数据包括官方渠道提供的文本数据、从数据库中获取的文本数据中的至少一种;
通过荣誉度模式匹配方法、词法分析方法和句法分析方法对所述文本数据进行数据增强,筛选出满足荣誉度模式匹配方法、词法分析方法和句法分析方法的文本数据并增加至所述训练数据集中;和/或,
所述欠拟合数据增强方法具体包括以下步骤:
对所述主题匹配模型第一次训练后的结果进行问题分析,总结常见的错误类型和模板;
基于所述常见的错误类型和模板,构建相应的正则表达式;
基于所述正则表达式对无标注数据进行批量抽取,随机挑选数量满足预设的第一阈值的所述无标注数据作为负样本增加至所述训练数据集中。
3.如权利要求2所述的模型训练方法,其特征在于,所述荣誉度模式匹配方法具体包括以下步骤:
根据期望的荣誉度模式配置相应的荣誉度正则表达式,通过计算所述文本数据匹配的荣誉度正则表达式的个数,根据匹配的荣誉度正则表达式的个数计算得出所述文本数据的荣誉度得分;
根据所述荣誉度得分筛选文本数据;
所述词法分析方法具体包括以下步骤:
通过词法分析工具对所述文本数据进行词语切分和词性标注;
基于词语切分和词性标注的结果,筛选出所述文本数据中的形容词、动词及名词部分,并利用word2vec无监督语义匹配过滤掉与旅游景点主题相关度差的所述文本数据;
判断过滤后的所述文本数据中包含的形容词数量是否少于设定的第二阈值,若少于,则剔除所述文本数据;
按照预先统计的词语IDF值,对筛选后的词语的TF进行加权求和,并输出所述词语的分数,并根据分数筛选文本数据;
所述句法分析方法具体包括以下步骤:
通过句法分析工具对所述文本数据进行句法结构解析,判断所述文本数据的主谓结构是否完整,若不完整,则剔除所述文本数据。
4.一种主题推荐理由的获取方法,其特征在于,所述获取方法包括以下步骤:
获取旅游主题的目标关键词;
通过主题匹配模型获取与所述目标关键词相关的原始文本数据,所述主题匹配模型通过如权利要求1-3任意一项所述的模型训练方法训练得到;
基于筛选方法对所述原始文本数据进行第一次筛选,筛选出情感正向的文本数据;
根据第一次筛选后的文本数据建立主题推荐理由的候选数据集;
基于word2vec对所述候选数据集进行第二次筛选,并计算所述文本数据与所述旅游主题下的标准文本数据的余弦相似度得分,剔除余弦相似度得分低于第三阈值的文本数据;
利用所述主题匹配模型对第二次筛选后的所述候选数据集进行模型预测,筛选出所述旅游主题下分数大于第四阈值的文本数据;
通过分数加权匹配方法对模型预测后的候选数据集进行分数加权,将分数排名靠前的文本数据作为所述旅游主题的推荐理由。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于携程旅游信息技术(上海)有限公司,未经携程旅游信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110718988.5/1.html,转载请声明来源钻瓜专利网。