[发明专利]基于语义本体的噪声数据清洗方法有效

申请号：	201010522038.7	申请日：	2010-10-28
公开（公告）号：	CN101986296A	公开（公告）日：	2011-03-16
发明（设计）人：	陈纯;卜佳俊;汪达舟;郑淼;张利军	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州天正专利事务所有限公司 33201	代理人：	王兵;黄美娟
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于语义本体的噪声数据清洗方法，包括建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合；引入知识网络的语义概念，获取每两个词的语义相似度；利用两个词的语义相似度作为距离度量，使用K-means算法，对词进行自动聚类，识别出噪声数据；在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中。本发明具有能够发现数据间语义的关联、能分辨同义词，保证在数据清洗中获得好性能的优点。
搜索关键词：	基于语义本体噪声数据清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于语义本体的噪声数据清洗方法，包括以下步骤：1）、建立一个存储不含噪声的干净数据的干净数据库；获取待清洗的文本数据，对待清洗数据进行预处理以获取结构化数据，所述的结构化数据组成文本数据的词的集合：（1.1）将待清洗数据进行分词，并将所有词转换为统一的编码形式；（1.2）将具有统一编码形式的数据根据数据字典消除不一致的数据、获得标准化数据；（1.3）对该标准化数据进行一致性校验，将内容上的明显错误进行修改；（1.4）将完全相同的词进行去重操作，从而获得结构化数据；2）、引入知识网络的语义概念，获取每两个词的语义相似度；（2.1）分别获取每个词所表达的概念、和描述每个概念的义原；（2.2）获取任意两个独立的词，分别计算两个词的每个概念下的义原之间的相似度，两个义原的相似度用他们的语义距离来衡量；寻找两个概念之间的最大义原相似度和最小义原相似度，两个概念之间的相似度为最大义原相似度和最小义原相似度的均值；寻找两个词之间的最大概念相似度，将最大概念相似度作为两个词的语义相似度；3）、利用两个词的语义相似度作为距离度量，使用K‑means算法，对词进行自动聚类，识别出噪声数据；4）、在噪声数据中寻找引起噪声的语义本体，对引起噪声的语义本体进行矫正、以获取干净数据，将干净数据存入干净数据库中。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010522038.7/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语义本体的噪声数据清洗方法有效

专利文献下载