[发明专利]精确理解中文句意的方法在审
申请号: | 201910851929.8 | 申请日: | 2019-09-10 |
公开(公告)号: | CN110633469A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 陈绪平;余健;段建刚;刘琨 | 申请(专利权)人: | 陈绪平 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/36;G06F16/332 |
代理公司: | 11335 北京汇信合知识产权代理有限公司 | 代理人: | 昝美琪 |
地址: | 200122 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 句式结构 句意 实体字 构建 标注 中文 机器学习模型 计算机识别 专业领域 嵌入 图谱 自动化 积累 | ||
本发明涉及一种计算机识别中文句意的方法,特别涉及到,在某些专业领域内,精确识别中文句意。包括以下步骤:(1)选定某一领域,建立知识图谱,对领域内的实体字词进行标注;(2)建立句式结构,把以上标注好的实体字词嵌入到中文连接词和语序组成的位格中,构建能精确表达句意的句式结构;(3)由人工根据上述句式结构总结一定数量句式结构,并将上述总结的句式结构建立句式库;(4)构建一个简单实用的机器学习模型,让机器能自动化积累句式结构。
技术领域
本发明涉及一种计算机识别中文句意的方法,特别涉及到,在某些专业领域内,精确识别中文句意。
背景技术
目前主流的基于关键词匹配的搜索技术,限制了计算机在检索中的语义分析能力。其搜索返回的结果中,包含大量的无关信息,查准率低下,不能切中用户的真正意图。比如“买黑色的手机”,其中“买”字和“的”字都会对关键字搜索的结果造成影响,而且可能只要带有“黑色”字样的产品全都成为搜索结果,比如黑色的袜子、黑色的手机等。
显而易见,关键词搜索很难理解自然语言形式的一句话,比如“黑色的电脑”,“买安卓的手机”等。因为关键词索引是基于词库的,是词语的大杂汇,标注出的结果缺乏语义信息,缺乏知识的理解和推理能力。主流搜索技术的这些缺点,在移动互联网时代,就显得更为突出。在移动设备上, 由于屏幕比较小,所以对搜索结果有更精准的要求。此外,“语音输入”要比“打字”方便快 捷,从而对自然语言形式的搜索更为迫切。下面以实例来分析当前关键字搜索方法的局限性及不足之处。不足一 :复合关键字不能语义关联如搜索“浦东新区的健身会所”,某知名网站网上的结果中 :第一页给出的结果,没 有一家是“健身会所”。可以明显地看出关键字匹配的痕迹,即商家名称中只要有“的”字 的,全都算作搜索结果,地址中只要有“浦东新区”的全都算作搜索结果,没有语义化的理解 和关联。换成“找浦东新区的健身会所”,如果用这种更符合自然语义的交互方式来搜的 话,现行网站的结果是 :完全没有找到任何结果,搜索引擎没有自然语义的理解能力。再如“黑色的电脑”,某知名购物网站的结果 :第一页的结果只有两个“学生平板电脑”,其他的 20 多个产品,没有一个是电脑。 “找黑色的电脑”,用更符合自然语义的交互方式来搜, 某购物网的结果效果会更差,提示没有找到相关商品,只能给出“电脑”的结果,根本不能识别“黑 色”。不足二 :只有特定的“语义化”搜索,没有通用的语义化效果不足三 :勾选太复杂,不适应移动设备的小屏幕不足四 :现在的电商不能充份发挥移动设备语音的价值点现在的各大电商,都有手机客户端,而手机客户端都有一个功能就是接受“语音搜 索”。就算是电商主页的搜索框里面,都有一个小话筒,代表着语音输入。不管是手机也好,网站也好,他们接收来的语音,仅仅是变成了文字,然后进行了 一次传统的字符串匹配。效果跟我在前面举的关键字匹配例子是一样的。
发明内容
为避免上述缺陷,本发明提供一种在相关特定领域进行精确理解中文句意的方法,其主旨在于解决现有技术中分词不准,计算机难知道输入者意图的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于陈绪平,未经陈绪平许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910851929.8/2.html,转载请声明来源钻瓜专利网。