[发明专利]文本的专有名词处理方法、装置和计算机设备在审
申请号: | 201910311158.3 | 申请日: | 2019-04-18 |
公开(公告)号: | CN110134846A | 公开(公告)日: | 2019-08-16 |
发明(设计)人: | 许剑勇 | 申请(专利权)人: | 深圳壹账通智能科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F17/27 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;王宁 |
地址: | 518052 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 计算机设备 访问地址 名词标记 用户体验度 正则表达式 标记过程 存储介质 工作效率 解释内容 解释信息 请求获取 页面内容 用户参与 指令获取 终端触发 终端发送 专有词库 自动提取 自动完成 大数据 数据库 指令 终端 申请 分析 | ||
本申请涉及一种文本的专有名词处理方法、装置、计算机设备和存储介质,获取用户通过终端发送的专有名词标记指令,根据专有名词标记指令获取各待标记的文本,获取到各待标记的文本后,自动基于数据库中的通过大数据建立的专有词库对各待标记的文本进行分析,自动提取各待标记的文本的专有名词,自动完成对各待标记的文本的专有名词的标记,当接收到用户通过终端触发文本中标记的专有名词的解释请求时,根据解释请求获取访问地址;通过正则表达式对访问地址中的页面内容进行爬取,获得专有名词的解释信息。无需用户参与标记过程,从而提高了工作效率,并且通过终端点击专有名词,即可获得相应的解释内容,提高用户体验度。
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本的专有名词处理方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的不断发展,很多业务都是通过互联网完成。如:用户需要进行问卷调查时,如果调查问卷涉及专业问题,会包含有很多专业术语和名词的内容,用户不一定明白是什么意思,会导致用户答非所问。为了使用户在答题过程中能够清楚文本中的专业术语和名词,在用户答题之前,提前将文本中的专有名词通过人工的方式挑选出来,进行标记,通过人工的方式将专有名词的解释内容或链接与文本中的专有名词进行关联。这往往需要大量的人力来做人工标记和url的添加,工作效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高工作效率的文本的专有名词处理方法、装置、计算机设备和存储介质。
一种文本的专有名词处理方法,所述方法包括:
获取专有名词标记指令;
根据所述专有名词标记指令获取各待标记的文本;
基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词;
将各所述待标记的文本的专有名词进行标记;
当接收到用户通过终端触发文本中标记的所述专有名词的解释请求时,根据所述解释请求获取访问地址;
通过正则表达式对所述访问地址中的页面内容进行爬取,获得所述专有名词的解释信息。
在其中一个实施例中,所述基于数据库中的专有词库对各所述待标记的文本进行分析,提取各所述待标记的文本的专有名词的步骤,包括:
对所述待标记的文本进行分词处理,获取各词语;
获取各所述词语与所述专有词库中的专有名词的交集;
将交集中的词语确定为各所述待标记的文本中的专有名词。
在其中一个实施例中,所述专有词库的建立方式包括:
通过大数据获取与所述待标记的文本内容相关的文本;
对所述待标记的文本内容相关的文本中的内容进行分词处理,获得各待分析词语;
对各所述待分析词语进行分析,确定专有名词;
将各所述专有名词保存到专有词库中。
在其中一个实施例中,所述对各所述待分析词语进行分析,确定专有名词的步骤,包括:
获取搜索引擎的搜索数据;
获取根据搜索数据中的搜索词与各所述待分析词语的交集;
将交集中的各所述待分析词语确定为专有名词。
在其中一个实施例中,所述对各所述待分析词语进行分析,确定专有名词的步骤,还包括:
对未在交集中的所述搜索词进行分析,确定所述搜索词的搜索次数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳壹账通智能科技有限公司,未经深圳壹账通智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910311158.3/2.html,转载请声明来源钻瓜专利网。