[发明专利]一种违规在线产品信息的智能判断方法与系统无效
申请号: | 200910045619.3 | 申请日: | 2009-01-20 |
公开(公告)号: | CN101782998A | 公开(公告)日: | 2010-07-21 |
发明(设计)人: | 李银胜;郑骁庆;吴晓彦;沈元一;顾轶灵;王海栋 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F17/30 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 吴桂琴 |
地址: | 200032*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 违规 在线 产品信息 智能 判断 方法 系统 | ||
技术领域
本发明属计算机技术及系统领域,具体涉及搜索引擎和在线产品信息的智能判断方法和计算机系统实现方法。
背景技术
搜索引擎由搜索系统、索引系统和检索系统构成。搜索引擎提供出现某些关键词的相关链接或参考信息,例如,国外医药搜索引擎有https://www.cleopsa.com、https://pharmocracy.com、http://www.pharmacysearchengine.com。国内医药搜索引擎有http://www.yygoogle.com、http://info.100v1.com、http://drug.soouo.com等。这些网站关注的立足点大多是为公众提供公共卫生信息查询和药品使用指南,而不是关注于在线医药产品信息本身的合法性和规范性,因而不能用于对在线医药产品信息进行有效监管。语义分析技术方面,尽管语义技术在信息检索、互联网搜索引擎、电子商务产品比价、在线数据挖掘等领域开展了很多研究和尝试,有了良好的技术成果和应用效果。然而,现有的主流搜索引擎并没有系统使用语义技术与方法,搜索结果的精确度和完整性不能满足在线产品的监测和统计。
发明内容
本发明的目的在于提供一种违规在线产品信息的智能判断方法和计算机系统实现方法。本方法可以通过互联网,以电子邮件等方式,提供及时、精确、直观的特定产品监测结果报表,辅助互联网管理部门、电子商务监管部门等进行违规在线产品信息的跟踪和追查。
本发明的目的通过下述方法和步骤实现:
如图1和图2所示,本发明所述的基于语义的在线产品信息智能分析和抽取方法采用元搜索引擎思想,利用语义技术对各种电子商务网站和现有搜索引擎所提供的产品信息进行有效地抽取、转化、汇集、筛选、排序、索引和展现。
本发明所述的语义分析方法,对在线产品信息进行了细粒度的解析和抽取,包括产品的名称、价格、型号、品牌、产地、图片、性能指标等信息,极大地提高了收集信息的质量和查询的准确性。系统检索还支持逻辑匹配检索(如:AND和OR逻辑组合、*通配符、+和-词选项)和短语检索,部分具备了中文自然语言理解能力。本发明设计和构建了通用的在线产品语义字典,被应用于网页信息提取和户检索语句的分析。语义字典引入本体论的方法,使用较成熟的Protégé和Jena等工具来构建和维护在线产品的本体,从本体即可自动生成相应的语义字典。
本发明通过构建在线产品语义字典,使用网页结构分析和语义分析技术对产品信息发布页面进行智能分析和抽取。首先过滤掉类似FONT、I、B等格式控制标签,构建反映网页的逻辑结构的DOM树;然后利用语义字典所提供的词汇和语义关系信息定位目标信息(产品信息的属性,如价格、生产厂家、批准文号等),同时要求目标信息具有一定的聚集度,即目标信息在DOM树中有较近的共同父结点。满足上述条件的目标信息通过存储在语义字典中的模式进行匹配,抽取出产品信息的属性值。
语义字典由3个顶层类组成:商品、属性和地域,如图2所示。
商品:存储在线商品信息的各种属性,包括中文名称、英文名称、生产单位、规格、计量单位、价格、商标、描述、网址、特殊属性等。以药品类为例,特殊属性包括批准文号、批准日期、功能主治、主要成分、剂型、是否处方药。
属性:存储对在线商品属性进行抽取时所需的相关信息,包括属性的中文名称、英文名称、缩写、描述、同义词、标签、属性正则表达式、属性取值、属性值正则表达式。
地域:以分层方式存储了商品产地的行政区域信息,这些信息可用于对数据进行分区域统计。
在线产品语义字典的构建,采用了手动与自动相结合的方法。首先,对于产品标记和产品属性,采用人工方法进行语义提取,形成语义字典的静态部分。其次,对于电子商务产品涉及的概念,结合通用的产品分类体系进行手工语义提取与构建。最后,在手工构造的初级语义字典基础上,利用本体集成技术融入现有的通用语义字典,利用关联规则挖掘方法丰富和优化产品概念及其关系。
在线产品信息搜索和更新方面,系统面向互联网监管需求,利用不同领域、不同用途、不同结构的搜索引擎、产品比价网站、产品供求门户、电子商务网站索引等资源,采用元搜索的思想整合起来,提高系统的查全率和覆盖度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910045619.3/2.html,转载请声明来源钻瓜专利网。