[发明专利]一种文本处理方法及装置在审
申请号: | 201910269029.2 | 申请日: | 2019-04-04 |
公开(公告)号: | CN111858837A | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 王旭;陈坦访;王伟玮;李奘 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/20;G06F40/289 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 刘静 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 处理 方法 装置 | ||
1.一种文本处理方法,其特征在于,所述文本处理方法包括:
将获取到的中文文本进行分词处理,得到多个中文词语;
在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列;
根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;
从所述英文文本中抽取出多个英文关键短语;
根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。
2.根据权利要求1所述的文本处理方法,其特征在于,根据以下步骤建立所述中英文映射表:
获取中文词语库中所有的中文词语,分别对每个中文词语进行编号;
基于每个中文词语对应的编号,分别确定每个中文词语对应的英文字母序列;
按照每个中文词语、每个中文词语对应的编号及英文字母序列的相互对应关系,建立所述中英文映射表。
3.根据权利要求2所述的文本处理方法,其特征在于,所述基于每个中文词语对应的编号,分别确定每个中文词语对应的英文字母序列,包括:
将每个中文词语对应的编号与预设数值进行相除计算,并确定每个相除计算结果中的商值和余数;
根据每个中文词语对应的商值和余数,确定每个中文词语对应的英文字母序列。
4.根据权利要求1所述的文本处理方法,其特征在于,所述从所述英文文本中抽取出多个英文关键短语,包括:
对所述英文文本中至少两个连续的英文字母序列进行组合,确定出多个英文字母短语;
将所述多个英文字母短语和查找出的所述多个英文字母序列,确定为多个候选英文关键短语;
从所述多个候选英文关键短语中抽取出英文关键短语。
5.根据权利要求4所述的文本处理方法,其特征在于,所述从所述多个候选英文关键短语中抽取出英文关键短语,包括:
确定每个候选英文关键短语的受欢迎度、聚合度以及信息量;
根据每个候选英文关键短语的受欢迎度、聚合度以及信息量,对每个候选英文关键短语进行评分;
从所述多个候选英文关键短语中确定出预设数量的英文关键短语,其中,预设数量的每个英文关键短语的评分高于所述多个候选英文关键短语中除所述多个英文关键短语之外的每个候选英文关键短语的评分。
6.根据权利要求5所述的文本处理方法,其特征在于,根据以下步骤确定出每个候选英文关键短语的受欢迎度:
确定每个候选英文关键短语在所述英文文本中出现的次数,与所述英文文本中包含的全部英文字母序列的数量之间的第一比值,并将每个候选英文关键短语对应的第一比值确定为每个候选英文关键短语的受欢迎度的数值。
7.根据权利要求5所述的文本处理方法,其特征在于,根据以下步骤确定出每个候选英文关键短语的聚合度:
确定每个候选英文关键短语在所述英文文本中出现的第一概率,与构成每个候选英文关键短语的至少两个连续的英文字母序列中每个英文字母序列分别在所述英文文本中出现的第二概率的乘积之间的比值,并将每个候选英文关键短语对应的比值确定为每个候选英文关键短语的聚合度的数值。
8.根据权利要求7所述的文本处理方法,其特征在于,根据以下步骤确定所述第一概率:
确定每个候选英文关键短语在所述英文文本中出现的次数,与所述英文文本中包含的全部英文字母序列的数量之间的第二比值,并将每个候选英文关键短语对应的第二比值确定为每个候选英文关键短语的所述第一概率。
9.根据权利要求7所述的文本处理方法,其特征在于,根据以下步骤确定所述第二概率:
确定构成每个候选英文关键短语的至少两个连续的英文字母序列中每个英文字母序列在所述英文文本中出现的次数,与所述英文文本中包含的全部英文字母序列的数量之间的比值,并将每个候选英文关键短语对应的比值确定为每个英文字母序列的所述第二概率。
10.一种文本处理装置,其特征在于,所述文本处理装置包括:
处理模块,用于将获取到的中文文本进行分词处理,得到多个中文词语;
查找模块,用于在预设好的中英文映射表中查找出与每个中文词语分别对应的英文字母序列;
转化模块,用于根据查找出的多个英文字母序列,将所述中文文本转化为对应的英文文本;
抽取模块,用于从所述英文文本中抽取出多个英文关键短语;
所述转化模块,还用于根据所述中英文映射表,分别将每个英文关键短语转化为中文关键短语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910269029.2/1.html,转载请声明来源钻瓜专利网。