[发明专利]基于语言实义单元数估计的短文本间文本距离的计算方法有效
申请号: | 201210012475.3 | 申请日: | 2012-01-16 |
公开(公告)号: | CN102622405A | 公开(公告)日: | 2012-08-01 |
发明(设计)人: | 杨震;王来涛;赖英旭;高凯明;张龙伯;段立娟;范科峰 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 楼艮基 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 单元 估计 文本 距离 计算方法 | ||
技术领域
本发明涉及一种基于语言实义单元估计的短文本文本距离计算方法与系统,属于文字信息处理领域。
背景技术
近年来,随着网络的普及以及信息技术的飞速发展,网络成为公众接触的最主要的媒介形式。Web2.0技术使互联网信息变得更加易于获取,使每个用户都可以成为信息的发布源,互联网上信息量也越来越多。通过对网络上的信息尤其是用户发布的内容进行分析,可以了解当前社会的热点话题以及人们对各种社会现象的观点和立场。
在线评论通常开始于某个公共事件或热点话题,尽管表达内容有很强的主观性,却反映出公众对事件的态度。其主要来源有:微博、论坛评论、新闻评论。随着微博以及论坛的兴起,在线评论成为公众表达观点最主要的方式。在线评论具有快速传播及影响广泛的特点,其不仅代表了评论者自身的观点,也会影响其他参与者的观点,所以对其进行分析研究是网络舆情分析的重要方面。政府通过对舆论进行监控,合理引导舆论,维护社会稳定;企业通过对产品评论进行分析,掌握产品的最新反馈。因此在线评论的分析研究,对于国家、社会以及企业都具有重要意义,引起了政府、学术界和产业界的高度重视。
短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般在100个汉字以内,我们称之为短文本(Short Text)。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(文本距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本发明在以后论述中不作区别,统称为文本距离。传统的短文本文本距离计算方法多从句法结构的角度去衡量句子间的差别,如基于语义依存、基于编辑距离的计算方法。由于传统的文本距离计算方法受文本长度影响较大,因此对于不同文本长度的文本的计算结果存在较大误差。为了缓解短文本长度差异对计算结果造成的误差,本发明引入了一种对文本长度进行惩罚的方式,克服了传统方法在短文本文本距离计算上存在的误差。
发明内容
本发明的目的在于针对网络上的短文本,提出一种短文本间文本距离的计算方法与系统。本发明在传统文本距离计算的基础上,引入一种有效地文本实义单元数(DistinctWords Length)估算方式,利用实义单元数对文本距离进行惩罚,克服了传统短文本距离计算方法中不对句长处理或利用原始句长进行惩罚所产生的误差。
基于语言实义单元数估计的短文本间文本距离的计算方法,其特征在于,是在计算机中依次按以下步骤实现的:
步骤(1)计算机初始化
输入:从网络获得的两类在线评论短文本,所述两类在线评论短文本各由若干数目的句子组成;
汉语词法分析系统ICTCLAS分词算法软件模块;
Matlab工具箱中的函数拟合工具Curve Fitting Tool;
步骤(2)文本预处理
步骤(2.1)去除所述两类在线评论短文本中包含的<html>、<body>、<div>等html网页标记;
步骤(2.2)把步骤(2.1)中去除了html网页标记的所述两类在线评论短文本做变异短文本处理:不规范的拼音文字、繁体字规范化,去除用于表示一个表情的不规范符号,对数字和标点符号的使用进行规范化;
步骤(3)按以下步骤计算由步骤(2)预处理过的所述两类在线评论短文本间的文本距离;
步骤(3.1)用ICTCLAS分词算法对步骤(3)中所述的经过预处理的所述两类在线评论短文本进行分词处理,将短文本句子转化为词语串;
步骤(3.2)以步骤(3.1)中两类在线评论短文本中的词语为单位,用编辑距离算法计算所述两类在线评论短文本间的编辑距离,并以此作为文本距离:把一个句子转换为另一个句子所需要的最少的词语编辑操作次数;计算两个句子的编辑距离计算矩阵,该矩阵的最右下角单元的值即为两个句子间的文本距离:dis(S1,S2)=3,“dis”表示文本距离,S1、S2表示所述两个句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210012475.3/2.html,转载请声明来源钻瓜专利网。