[发明专利]一种基于梯度提升算法的黑导游检测方法在审
申请号: | 201911173486.8 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110909545A | 公开(公告)日: | 2020-03-24 |
发明(设计)人: | 詹瑾瑜;余佳雨;江维;李响;杨瑞;刘昌澍;李博智;蔡玉舒;周巧瑜 | 申请(专利权)人: | 电子科技大学;中电科大数据研究院有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/951;G06F16/955;G06K9/62;G06N3/04;G06N3/08;G06Q50/14 |
代理公司: | 成都虹盛汇泉专利代理有限公司 51268 | 代理人: | 王伟 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 梯度 提升 算法 导游 检测 方法 | ||
1.一种基于梯度提升算法的黑导游检测方法,其特征在于,包括:
A、获取网站新闻URL数据,并基于词嵌入训练得到词向量模型;
B、基于步骤A的词向量模型,采用梯度提升算法训练得到黑导游类别预测模型;
C、向步骤B得到的黑导游类别预测模型输入投诉文本,得到预测类型。
2.根据权利要求1所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A包括以下分步骤:
A1、旅游新闻网发起请求,获取新闻URL数据;
A2、对新闻URL数据进行爬取新闻内容;
A3、对步骤A2得到的新闻内容进行分词,获得分词语料;
A4、根据分词语料训练得到词向量模型。
3.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A1具体为:用Postman模拟HTTP请求,设置请求参数为获取所有结果,设置文档类型为application/x-www-form-urlencoded,解析返回结果,并把每天的新闻URL数据按行进行存储。
4.根据权利要求2所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤A2具体为:读取新闻URL发起HTTP请求,对返回的HTML格式的内容进行解析,分别获取标题标签中的内容和正文标签中的内容,对于标题内容直接保存为一行,对于正文内容先按句号切分开,再按行写入文件。
5.根据权利要求1所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤B包括以下分步骤:
B1、获取投诉文本,将投诉文本中的一部分作为训练集;
B2、读取本地词向量模型文件,按行进行解析,将一个词作为键,其对应的词向量作为值,保存在词典变量中,从而得到词嵌入词典;
B3、使用词嵌入词典将训练集的每一句分别转换为训练句向量;
B4、根据训练句向量,使用梯度提升算法训练,生成黑导游类别预测模型。
6.根据权利要求5所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,所述训练集中的数据位所获取投诉文本的70%。
7.根据权利要求1所述的一种基于梯度提升算法的黑导游检测方法,其特征在于,步骤C包括以下分步骤:
C1、读取本地词向量模型文件,按行进行解析,将一个词作为键,其对应的词向量作为值,保存在词典变量中,从而得到词嵌入词典;
C2、使用词嵌入词典将输入文本转换为句向量;
C3、将步骤C2的句向量输入步骤B训练得到的黑导游类别预测模型,输出得到预测类别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;中电科大数据研究院有限公司,未经电子科技大学;中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911173486.8/1.html,转载请声明来源钻瓜专利网。