[发明专利]基于网页文本语义特征的在线零售额计算方法在审

专利信息
申请号: 201310575302.7 申请日: 2013-11-15
公开(公告)号: CN103605724A 公开(公告)日: 2014-02-26
发明(设计)人: 柴跃廷;孙骁 申请(专利权)人: 清华大学
主分类号: G06F17/30 分类号: G06F17/30;G06Q30/00
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张大威
地址: 100084 北京*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 网页 文本 语义 特征 在线 零售额 计算方法
【权利要求书】:

1.一种基于网页文本语义特征的在线零售额计算方法,其特征在于,包括如下步骤:对网民总体进行分层抽样得到样本;

实时监测样本成员的上网行为,基于网页语义特征发现所述样本成员的网络购物下达的订单,并基于网页语义特征从所述订单中抓取订单金额;

对样本网络购物信息进行实时汇总及统计,得到所述在线零售额,其中,所述样本网络购物信息包括所述订单以及所述订单金额。

2.根据权利要求1所述的方法,其特征在于,所述基于网页语义特征发现所述样本成员网络购物下达的订单具体包括以下步骤:

获得当前网页源代码;

过滤出网页源代码内的中文;

检测网页中文文本内是否含有网页文本特征,得到网页特征向量;

根据网页特征向量计算网页特征数值;

若所述网页特征数值大于网页特征数值阈值,则所述网页是订单页面,否则是非订单页面。

3.根据权利要求2所述的方法,其特征在于,根据网页特征向量计算网页特征数值的计算公式为:

P1=eΣ0nθixi1+eΣ0nθixi]]>

其中,n是提取所述网页文本特征的个数,xi是所述网页特征向量X的第i个分量,θi是第一参数向量θ的第i个分量,p1是所述网页特征数值,其中所述第一参数向量θ为已知的。

4.根据权利要求3所述的方法,其特征在于,所述第一参数向量θ是采用逻辑斯蒂回归得到的。

5.根据权利要求1所述的方法,其特征在于,所述从所述订单中抓取订单金额具体包括以下步骤:

获得订单页面网页源代码;

过滤出符合预定结构的所有字段;

依次检测每一个字段是否含有字段文本特征,得到字段特征向量;

对各个字段根据字段特征向量计算字段特征数值,选取所有字段中所述字段特征数值最大者,若该字段的所述字段特征数值大于字段特征阈值,则该字段被确定为订单金额所在字段;

从所述订单金额所在字段提取出数字,作为最终的所述订单金额。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310575302.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top