[发明专利]一种计算机拆分汉语句子的方法有效

专利信息
申请号: 201410818409.4 申请日: 2014-12-25
公开(公告)号: CN104598441B 公开(公告)日: 2019-06-28
发明(设计)人: 牟孝金;洪紫洲;李维良 申请(专利权)人: 上海科阅信息技术有限公司
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 上海宏京知识产权代理事务所(普通合伙) 31297 代理人: 邓文武
地址: 200233 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种计算机拆分汉语句子的方法,其包括以下步骤:步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;步骤S3,将步骤S2中拆分得到的词进行词性分类处理;步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。本发明将通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
搜索关键词: 句子 汉语 基础数据库 分类处理 词库 词性 化学元素分析 计算机软件 单个汉字 基础保证 句子分析 匹配比对 顺序原则 优先原则 重新组合 短语 计算机 运算量 组词 数据库 汉字 分析
【主权项】:
1.一种计算机拆分汉语句子的方法,其特征在于,其包括以下步骤:步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词,具体的拆分过程为:步骤S21,首先,依次使用基础词库中尺度为9至1的汉字词遍历需要被拆分的汉语句子;步骤S22,将上述需要被拆分的汉语句子中遍历出来的汉字词的首个汉字和最后一个汉字分别运用汉字组词优先原则判断数据库进行判断对比;该判断对比的过程为:如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,且该汉字词的最后一个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的最后一个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配正确;如果该汉字词的首个汉字与在需要被拆分汉语句子中位于其后的组词能力弱于该汉字词的首个汉字与在需要被拆分汉语句子中位于其前的组词能力,或者该汉字词的最后一个汉字与在需要被拆分汉语句子中位于其后的组词能力强于该汉字词的最后一个汉字与在需要被拆分汉语句子中位于其前的组词能力,则认为该次匹配不正确,同时将匹配不正确的汉字词拆开重新遍历基础词库直至所有的拆分出来的汉字词都判断为匹配正确;步骤S3,将步骤S2中拆分得到的词进行词性分类处理:将拆分得到的词分别分为汉字词、英文字母串、数字串和其它符号串;所述汉字词分类处理为中心词、前修饰词、后修饰词;所述中心词分为名词、动词和数词;前修饰词分为名词前修饰词和动词前修饰词;后修饰词分为名词后修饰词、动词后修饰词和量词;步骤S4,对经过词性分类处理后的词进行重新组合,形成汉语短语,重新组合的过程为:将英文字母串和其它符号串组合成独立的汉语短语;数字串组合成汉字词中的数词;并且将中心词分类组合成名词短语、动词短语和数词短语;即完成对被拆汉语句子的拆分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科阅信息技术有限公司,未经上海科阅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410818409.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top