[发明专利]一种从Web网页中获取汉语全称的方法在审

申请号：	201110253100.1	申请日：	2011-08-31
公开（公告）号：	CN102955818A	公开（公告）日：	2013-03-06
发明（设计）人：	王石;丁远钧;符建辉;王卫民	申请（专利权）人：	镇江诺尼基智能技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	南京知识律师事务所 32207	代理人：	汪旭东
地址：	212009 江苏省镇江市***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种从Web网页中获取汉语全称的方法，包括输入已知简称，选择查询模式来构造查询项，提交查询项到Google中获取锚文本，再从锚文本中获取全简称语料，最后利用提取算法提取候选全称，并利用优先级综合函数对候选全称进行排序；其中查询模式有两种，对应的提取全称的提取算法也有两种。本发明还定义了全简称关系的本体，包括一组约束公理和一组约束函数，其中约束公理定性地表示全称和简称之间的约束，约束函数集定量地表示了全称和简称之间的约束，并基于全简称本体提出了一种全称的验证方法和分类方法。本发明可实现全称的大规模、高准确率的获取，并探讨了用计算机实现全称的分类，为大规模知识的智能获取提供了有效的支撑。
搜索关键词：	一种 web 网页获取汉语全称方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种从Web网页中获取汉语全称的方法，其特征在于：包括一下步骤：步骤1、输入一个给定的汉语简称；步骤2、选择查询模式来构造查询项，将查询项提交到Google搜索引擎中搜索，保存前N项锚文本作为锚语料；步骤3、通过正则表达式，从锚语料中获取出包含查询项的关系的句子，保存下来作为全简称语料；步骤4、利用简称提取算法EFN从全简称语料中提取出候选全称，形成候选全称集合；步骤5、对候选全称集合进行基于全简称关系约束的验证，形成全称集合；步骤6、对全称集合进行基于全简称关系约束的分类，从而形成带有类别标注的全称集合。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于镇江诺尼基智能技术有限公司，未经镇江诺尼基智能技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110253100.1/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种从Web网页中获取汉语全称的方法在审

专利文献下载