中文文本纠错调研 前言文本纠错是一项自然语言处理的基础性工作,是搜索引擎,问答/对话系统,输入法等应用中必不可少的前置模块,纠错的质量对后续的处理非常重要。本文将对中文文本纠错进行系统调研,包括错误类型整理、工业界和学术界的常用方法以及还存在哪些问题。 任务定义系统/模型的输入为原始序列$X = (x_{1},x_{2},..,x_{n})$,输出为纠错后的序列 $Y = (y_{1},y_{2},..,y_{m 2021-05-26 NLP
基于预训练的中文seq2seq任务调研 前言目前基于BERT的预训练语言模型在中文的文本理解任务上已经有了非常完善的Benchmark、预训练模型以及工具,而基于预训练语言模型的文本生成任务,尤其是中文场景下的seq2seq预训练任务的研究相对而言还不够充分,本文将对此场景进行系统的调研和整理。 2021-05-24 NLP
基于FAQ的智能问答(三):精排篇 背景在上一篇<基于FAQ的智能问答(二):召回篇>中已经介绍了,给定一个用户的query如何从知识库中快速准确的召回一小批相关的问题,本篇将继续介绍如何对这一小批问题进行精排,最终构建出answer返回给用户。 2021-02-27 NLP
基于FAQ的智能问答(二):召回篇 背景基于FAQ的智能问答本质是一个信息检索的问题,所以可以简单划分成:召回+精排 两个步骤。召回的目标是从知识库中快速的召回一小批与query相关的候选集。所以召回模型的评价方法,主要侧重于响应时间和top@n的召回率两个方面。 本文将分享我们召回模型的逐步迭代过程,从最基础的“ES字面召回”到 “ES字面召回和向量召回”的双路召回模式。 2021-02-22 NLP
基于FAQ的智能问答(一):Elasticsearch的调教 背景对话领域是当前最热门的一个NLP的方向之一,无论在学术界还是在工业界。由此衍生出来的产品包括通用形态的苹果siri,微软小冰,小米的小爱同学等,以及各个行业领域的智能助手,智能客服等。 这些产品基本可以看成下一代人机自然语言交互的雏形。 具体而言人机对话又可以拆分为以下几种形式: (1)FAQ-Bot: 基于常见问答对的问答,也是运用最为广泛的智能问答技术,可以认为是最朴素的一种对话。抽象出来 2021-02-07 NLP
pandas笔记速查 检查空数据查看有空数据的行 1234# 指定列df[df['描述'].isna()# 任意列df[df.isna().any(axis=1)] 选取非空的数据 1234# 指定列df = df[df['描述'].notna()]# 任意列df.dropna() 删除某些列1df = df.drop(['col1','col2 2020-06-30 Python
Docker使用笔记 前言这篇笔记用来记录docker使用过程中一些有用的case. 使用docker免去sudoDocker守候进程绑定的是一个unix socket,而不是TCP端口。这个套接字默认的属主是root,其他是用户可以使用sudo命令来访问这个套接字文件。因为这个原因,docker服务进程都是以root帐号的身份运行的。 为了避免每次运行docker命令的时候都需要输入sudo,可以创建一个docke 2019-09-16 DevOps