[发明专利]一种基于分词器的农业知识录入手持终端及其录入方法在审
申请号: | 201310698361.3 | 申请日: | 2013-12-10 |
公开(公告)号: | CN103631965A | 公开(公告)日: | 2014-03-12 |
发明(设计)人: | 方逵;丁德红;罗武;喻鹤翔 | 申请(专利权)人: | 湖南农业大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410128 湖南省长沙*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分词 农业知识 录入 手持 终端 及其 方法 | ||
技术领域
本发明涉及一种基于农业专业词汇分词器的农业知识录入手持终端及其录入方法。
背景技术
在中文表达习惯中,词和词之间不存在分隔符,词本身也缺乏明显的形态标记,因此,中文信息处理特有的问题就是将汉语字符串分割为合理的关键词序列,即中文分词。因此中文分词是中文语言理解和处理的重要环节,也是一个复杂和困难的问题。中文分词分为人工分词与机器自动分词两种。人工分词存在分词不一致和处理速度慢的缺点。对此,人们开始使用计算机代替人工分词,即自动分词。目前,中文自动分词主要有以下三大类的方法:基于词典的方法、基于统计的方法和混合方法。其中基于词典的方法易于实现,可以精确地分割出所有在词典中存在的词,缺点是匹配速度慢,存在交集型和组合型歧义切分问题;词本身没有一个标准的定义,没有统一标准的词集,不同词典产生的歧义也不同。基于统计的方法不受待处理文本的领域限制,不需要一个机器可读词典,只要有足够的训练文本就易于创建和使用;缺点是需要有大量预先分好词的语料作支撑,而且训练过程中时空开销极大。基于理解的中文分词又称之为知识分词,知识分词是一种理想的分词方法,它不存在上面的问题,但这类分词方案的算法复杂度高,其有效性与可行性尚需在 实际工作中进一步的验证。
发明内容
本发明所解决的技术问题在于提供一种基于分词器的农业知识录入手持终端及其录入方法,从而解决上述背景技术中的问题。
本发明公开了以下一种技术方案
一种基于分词器的农业知识录入系统,包括能够与服务器连接的手持终端设备与相应软件,所述手持终端设备使用锂电池供电,配备无线wifi和GPS定位模块,安装基于农业分词器的知识录入系统后,可实现野外即时的农业知识采集与上传。
本发明中,所述锂电池4.2V3500mAH电池,可使用DC-5V的电源适配器对它充电。
本发明中,所述无线网络设备为WIFI模块加天线,通过无线网络设备与服务器通信连接。
本发明中,所述GPS定位模块能使终端自动定位,精度3m-20m能达到农业自然区域划分的要求。
本发明中,所述输入模块能实现键盘输入、手写输入和语音输入。
一种基于分词器的农业知识录入手持终端的录入方法,包括如下步骤:
登录系统,手持终端通过互联网与服务器连接;
读取词典到内存;
知识插入数据库时,如果专家已经填写了关键词,则对关键词进行提取, 然后查找词典,判断该词是否存在,若不存在则添加到词典;
知识插入数据库时,如果已经填写了近义词(方言关键词),则对近义词(方言关键词)进行提取,然后查找词典,判断该词是否存在,若不存在则添加到词典;
知识插入数据库时,如果没有填写关键词字段,则对问题进行分词,依据词典中已有词汇提取关键词;
将提取的关键词保存到关键词字段是否完成录入。
本发明的方法中,所述的词典利用互联网免费词典为基础构建,汉字GB码使用GB2312(1980年)标准,比较适合本方法的要求。
本发明的方法中,所述的词典存储和查找方法为Hash函数,Hash函数设计原理是:设一个词条word去掉首字后还有n个字,而使用I[i][j]来表示第i个字的GB码的高位和低位,则该Hash函数可表示为:
本发明的方法中,词典存储于服务器磁盘中,在手持终端内存中调用,每一次录入都要运行查找调用词典。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南农业大学,未经湖南农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310698361.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有循环烘干功能的布匹烘干机
- 下一篇:一种管式加热炉