[发明专利]基于语言实义单元数估计的短文本间文本距离的计算方法有效

专利信息
申请号: 201210012475.3 申请日: 2012-01-16
公开(公告)号: CN102622405A 公开(公告)日: 2012-08-01
发明(设计)人: 杨震;王来涛;赖英旭;高凯明;张龙伯;段立娟;范科峰 申请(专利权)人: 北京工业大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 楼艮基
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 语言 单元 估计 文本 距离 计算方法
【权利要求书】:

1.基于语言实义单元数估计的短文本间文本距离的计算方法,其特征在于,是在计算机中依次按以下步骤实现的:

步骤(1)计算机初始化

输入:从网络获得的两类在线评论短文本,所述两类在线评论短文本各由若干数目的句子组成;

汉语词法分析系统ICTCLAS分词算法软件模块;

Matlab工具箱中的函数拟合工具Curve Fitting Tool;

步骤(2)文本预处理

步骤(2.1)去除所述两类在线评论短文本中包含的<html>、<body>、<div>等html网页标记;

步骤(2.2)把步骤(2.1)中去除了html网页标记的所述两类在线评论短文本做变异短文本处理:不规范的拼音文字、繁体字规范化,去除用于表示一个表情的不规范符号,对数字和标点符号的使用进行规范化;

步骤(3)按以下步骤计算由步骤(2)预处理过的所述两类在线评论短文本间的文本距离;

步骤(3.1)用ICTCLAS分词算法对步骤(3)中所述的经过预处理的所述两类在线评论短文本进行分词处理,将短文本句子转化为词语串;

步骤(3.2)以步骤(3.1)中两类在线评论短文本中的词语为单位,用编辑距离算法计算所述两类在线评论短文本间的编辑距离,并以此作为文本距离:把一个句子转换为另一个句子所需要的最少的词语编辑操作次数;计算两个句子的编辑距离计算矩阵,该矩阵的最右下角单元的值即为两个句子间的文本距离:dis(S1,S2)=3,“dis”表示文本距离,S1、S2表示所述两个句子;

步骤(4)依次按一下的步骤,用步骤(1)中所述的在线评论短文本中的实义单元数对步骤(3.2)得到的所述两个句子间的文本距离dis(S1,S2)进行惩罚,得到经过实义单元数惩罚的文本距离dis’(S1,S2);

步骤(4.1)对步骤(1)中所述的两类在线评论短文本中的词语进行词频统计,按照词语出现频率的降序进行排序,得到各自的词频降序表;

步骤(4.2)把所述两类在线评论短文本中各自的词频降序表导入所述的matlab工具箱中作为数据集,对照Zipf’s法则中的词频f与对应名次r的公式:

f(r)=fmax·r

其中,fmax为系数,大于0;α为Zipf指数,大于0;

选择Matlab工具箱中Power选项中的a·xb,以此作为数据拟合的目标函数,进行数据拟 合,得到b,b<0,得到所述两类在线评论短文本各自的Zipf指数α=|b|;

步骤(4.3)按下式得到所述两类在线评论短文本中每条句子各自的实义单元数N(t):

其中所述实义单元数是指所述两类在线评论短文本的每个句子中具有实义内容的内容数,其中不包括对表达文本内容没有贡献的文本信息;t为以词语为单位的所述两类在线评论文本中每个句子的长度;

步骤(4.4)比较步骤(3.2)得到的原始的文本距离dis(S1,S2)与步骤(4.3)得到的经过所述实义单元数惩罚过的文本距离dis’(S1,S2);

选择所述两类在线评论短文本中两个句子的实义单元数中较大的实义单元数max(N(t1),N(t2)),对所述dis(S1,S2)进行长度惩罚,得到最终文本距离dis’(S1,S2):

dis(S1,S2)=dis(S1,S2)/max(N(t1),N(t2)) 。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210012475.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top