[发明专利]农产品价格趋势预测方法有效
申请号: | 201310551702.4 | 申请日: | 2013-11-08 |
公开(公告)号: | CN103577581B | 公开(公告)日: | 2016-09-28 |
发明(设计)人: | 张伟;欧吉顺;周楚新 | 申请(专利权)人: | 南京绿色科技研究院有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210061 江苏省南京市高*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种农产品价格趋势预测方法,其特征在于,包括如下步骤:步骤一:通过计算机采集与农产品价格相关的且带有专家预测性观点的文章;步骤二:对采集的文章进行去重;步骤三:提取并保存文章要素;步骤四:对文章中描述的农产品所属区域进行识别;步骤五:利用文本挖掘技术分析出专家对农产品的预测性观点,并将所述预测性观点进行量化和保存;步骤六:根据文章发表时间、农产品所属区域、农产品种类以及量化的趋势预测观点进行计算机建模,利用建立的模型对农产品价格进行趋势预测。本发明相较于现有技术来说,数据搜集周期更短,收集成本几乎为零,能够对未来一段时间的农产品价格的整体趋势进行预测,预测的准确性和可靠性更高。 | ||
搜索关键词: | 农产品 价格 趋势 预测 方法 | ||
【主权项】:
农产品价格趋势预测方法,其特征在于,包括如下步骤:步骤一:通过计算机自动采集程序从互联网网站定时采集与农产品价格相关的且带有专家预测性观点的文章;所述步骤一包括:步骤1a:设置采集定时器;步骤1b:设定要采集的互联网网站所对应的入口URL,并将入口URL进行保存,根据采集定时器为所述入口URL分配定时采集任务;步骤1c:对设定要采集的互联网网站所对应的入口URL进行网页内容下载;步骤1d:根据网页内容中的HTML标签,定位需要采集的文章对应的URL;步骤1e:根据需要采集的文章对应的URL,对文章对应的网页内容进行下载并保存;步骤二:对采集的文章进行去重;所述步骤二包括:步骤2a:对每一篇文章对应的URL字符串利用MD5算法进行加密,计算得到所述文章对应的URL的信息指纹;步骤2b:进行指纹比对,对于信息指纹相同的文章,只保留其中的一篇;步骤2c:对步骤2b处理后保留的文章按照发表时间的先后进行排序,选择时间最靠前的文章作为基点文章,将基点文章和剩余的文章分别进行两两比对,依次计算基点文章与剩余的文章之间的标题相似度;如果标题相似度大于阈值,则认为二者标题相似,赋予该篇文章与基点文章相同的相似度标识,否则,取其余剩余文章继续与基点文章进行比较,直到剩余全部文章与基点文章比较结束;步骤2d:比较结束后,若还有未赋予相似度标识的文章,则选择时间最靠前的文章为新的基点文章,并为该篇文章赋予新的相似度标识,剩余的未赋予相似度标识的文章依次与其进行比较;步骤2e:重复步骤2d,直至不存在未赋予相似度标识的文章;步骤2f:对于相似度标识相同的文章,只保留其中的一篇;步骤三:从去重后的文章中提取并保存文章要素,所述文章要素包括文章标题、文章正文内容、文章来源、文章发表时间、文章中带有专家预测性观点的语句;步骤四:根据文章标题和文章正文内容对文章中描述的农产品所属区域进行识别;步骤五:根据文章中带有专家预测性观点的语句,利用文本挖掘技术分析出专家对农产品的预测性观点,并将所述预测性观点进行量化和保存;所述步骤五包括:步骤5a:读取文章中带有专家预测性观点的语句;步骤5b:利用文本挖掘技术中的成分句法分析方法对文章中带有专家预测性观点的语句进行分析;步骤5c:读取农产品种类关键词和趋势关键词;步骤5d:根据文章中带有专家预测性观点的语句中句子的成分、农产品种类关键词、趋势关键词分析出文章中带有专家预测性观点的语句所描述的农产品种类及专家对农产品的预测性观点;步骤5e:根据趋势映射规则将专家对农产品的预测性观点进行量化;步骤5f:保存农产品种类及专家对农产品的预测性观点;步骤六:根据文章发表时间、农产品所属区域、农产品种类以及量化的趋势预测观点进行计算机建模,利用建立的模型对农产品价格进行趋势预测;设对于某区域某农产品种类所对应的待预测样本为x,对样本x的最终趋势做出如下预测:![]()
为了表示时间因素对预测结果的影响程度,为不同的时间范围设定了不同的权重,对应的权重集合W表示为{W1,W2,...WI},I=3;x可以描述为一个三元组:location、type、prediction,其中,location是农产品所属的区域,type是农产品的种类,prediction是农产品价格的预测趋势;prediction对应的预测趋势集合C表示为{C1,C2,...,CL},L=3,对应的量化数据为{1,2,3},即C1=1,C2=2,C3=3,分别表示预测趋势看涨、看平及看跌三种情况;取最近一个月的文章,按照时间范围将其划分为三组:最近10天的文章为第一组,最近20天到最近10天的文章为第二组,最近一个月到最近20天的文章为第三组;上述时间范围构成的集合T表示为{T1,T2,...,TI},I=3;对于x,定义如下二进制函数:![]()
公式中,Cij(x)表示在Ti时间范围内的第j篇文章对应的x样本的趋势预测函数;Cl表示趋势预测结果;该公式表示在某时间范围内有某篇文章对x做出了某种趋势的预测,则样本x关于该种趋势的二进制函数结果为1,否则为0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京绿色科技研究院有限公司,未经南京绿色科技研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310551702.4/,转载请声明来源钻瓜专利网。