[发明专利]一种计算机拆分汉语句子的方法有效
申请号: | 201410818409.4 | 申请日: | 2014-12-25 |
公开(公告)号: | CN104598441B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 牟孝金;洪紫洲;李维良 | 申请(专利权)人: | 上海科阅信息技术有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 邓文武 |
地址: | 200233 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句子 汉语 基础数据库 分类处理 词库 词性 化学元素分析 计算机软件 单个汉字 基础保证 句子分析 匹配比对 顺序原则 优先原则 重新组合 短语 计算机 运算量 组词 数据库 汉字 分析 | ||
本发明公开了一种计算机拆分汉语句子的方法,其包括以下步骤:步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;步骤S3,将步骤S2中拆分得到的词进行词性分类处理;步骤S4,对词性分类处理后的词进行重新组合成汉语短语;即完成对被拆汉语句子的拆分。本发明将通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现,对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效的基础保证。
技术领域
本发明属于计算机技术领域,尤其涉及一种计算机拆分汉语句子的方法。
背景技术
现代汉语句子是语言表达和信息交流的主要工具,而在计算机软件领域中,汉语句子的拆分一直是句子分析中的重点和难点。汉语句子的基本组成元素是单个汉字,而表达汉语基本意思的基本单位则是由若干个汉字组成的词,所以要对整个汉语句子进行分析,首先要能够对句子进行基本的汉字词拆分。由于单个的汉字大多具有多个意思,与不同的汉字组合在一起又构成了意思差别很大的不同的词,每个词也可能具有多重意思,因此,这给汉语句子的正确拆分带来了相当大的难度。
目前现有的句子拆分方法有很多,基本上都是基于词库检索遍历算法,有些还加上歧义解决算法等。这些方法在计算机软件实现时都普遍存算法复杂、运算量大,以及多义字词拆分不准确等缺点。
发明内容
为了解决现有技术中存在的上述问题,本发明提供一种将化学领域中的一些概念引入到汉语句子分析中,通过与化学元素分析类似的方法来分析句子,通过代码简单、运算量小的计算机软件实现对整个汉语句子进行准确、快速的拆分,为汉语句子分析提供有效基础保证的计算机拆分汉语句子的方法。
为实现上述发明目的,本发明提供的技术方案为:一种计算机拆分汉语句子的方法,其包括以下步骤:
步骤S1,建立基础数据库;所述基础数据库包括基础词库和可以判断单个汉字之间相互组合成词的优先顺序原则的汉字组词优先原则判断数据库;
步骤S2,将需要被拆分的汉语句子与步骤S1中建立的基础词库进行匹配比对,将需要被拆分的汉语句子拆分成词;
步骤S3,将步骤S2中拆分得到的词进行词性分类处理;
步骤S4,对经过词性分类处理后的词进行重新组合,形成汉语短语;即完成对被拆汉语句子的拆分。
所述步骤S1中建立的基础词库包括汉字词、英文字母、数字和其它汉语语句中使用的通用字符。
所述基础词库中的汉字词包括日常用语、诗词、网络常用词和特殊名称用词。
所述基础词库存储在计算机内的代码为unicode编码或者汉字国际GB码。
所述汉字组词优先原则判断数据库是根据日常生活中汉字的实际使用频率和使用惯例通过穷举法进行归纳总结而得出的优先组合词组。
所述步骤S1中建立的基础词库中词的尺度范围为1至9;其中基础词库中汉字词的尺度定义为汉字词中汉字的个数,英文字母的尺度定义为1,数字的尺度定义为1,其它汉语语句中使用的通用字符也定义为1。
所述步骤S2中将需要被拆分的汉语句子拆分成词的具体过程如下:
步骤S21,首先,依次使用基础词库中尺度为9至1的汉字词遍历需要被拆分的汉语句子;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海科阅信息技术有限公司,未经上海科阅信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410818409.4/2.html,转载请声明来源钻瓜专利网。