TensorRT-LLM大模型部署速通

TensorRT-LLM是NVIDIA官方的大模型部署方案。本文是一个初步踩坑后的笔记总结。特性TensorRT-LLM包括以下一系列的特性，是当前大模型部署必备神器: 模型转换: 提供了常见大模型示例，包括LLaMA、ChatGLM，Baichuan，Bloom 算子优化: 对大模型中主要算子进行了优化，包括Attention，RoPE等模型量化: 支持不同级别的量化，包括fp16，bf

2023-12-01

NLP

大模型中的Scaling Law

在实际大模型的研发中，通常会有下面一些需求：计划训练一个10B的模型，想知道至少需要多大的数据？收集到了1T的数据，想知道能训练一个多大的模型？老板准备1个月后开发布会，能用的资源是100张A100，那应该用多少数据训一个多大模型最终效果最好？老板对现在10B的模型不满意，想知道扩大到100B模型的效果能提升到多少？以上这些问题都可以基于Scaling Law的理论进行回答。本文是阅

2023-11-21

NLP

开源的大模型训练语料

本文汇总了当前包括中英文开源的大规模预训练数据集。目前的核心观点是: 大规模高质量的网络数据 is All you Need，无需手工精心调配各种数据源，例如百科，书籍，代码等。

2023-11-21

NLP

RLHF实践-以baichuan为例

本文分享基于Baichuan的RLHF实践，包括reward模型训练，PPO和DPO的理论以及实际的调参经验。如果你也在做RLHF，欢迎私信一起交流。 RLHF的动机(1) reward模型很有必要 reward模型评估效果理论上能逼近于人工评估，并显著优于传统的BLUE等指标。所以从这个角度看，即使不做后面RL部分，获得一个靠谱的reward的模型也对业务有很大帮助。基于reward模型，可以评

2023-10-11

NLP

大模型基础组件 - MQA和GQA

传统Transformer中的Attnetion结构是Multi-Head Attention(MHA)，通过参见Attention部分的参数量可以直接提升模型的推理速度，本文将介绍 Multi-Query Attention (MQA)和 Grouped-Query Attention (GQA)两个方法。

2023-09-10

NLP

大模型基础组件 - LayerNorm

LayerNorm无论是BatchNorm还是LayerNorm，所做都是“减均值，除标准差”的操作，即两种归一化方法都是将数据转换为标准正态分布。 BatchNorm将不同样本相同维度的特征处理为相同的分布。以上述方法对一维数据进行归一化的操作非常常见。假设我们以身高和体重两个指标刻画一个人，即特征维度为2，我们采集了20个人的身高和体重数据，即样本数为20。要知道身高数据的表示可能是175cm

2023-09-10

NLP

大模型基础组件 - Position Encoding

位置编码(Position Encoding)是Transformer对”序列”进行建模的关键。本文将系统介绍Transformer架构中位置编码的演化路径以及优缺点，并手推各种位置编码的具体实现。

2023-09-02

NLP

垂直领域大模型的思考

相比能做很多事，但每件事都马马虎虎的通用大模型；只能做一两件事，但这一两件事都能做好，可被信赖的垂直大模型会更有价值。这样的垂直大模型能帮助我们真正解决问题，提高生产效率。本文将系统介绍如何做一个垂直领域的大模型，包括继续预训练，领域微调数据构建，减缓幻觉，知识召回多个方面。也会介绍整体的系统设计，并串讲一系列相关的论文和产品。

2023-08-26

NLP

大模型基础组件 - Tokenizer

Tokenizer分词算法是NLP大模型最基础的组件，基于Tokenizer可以将文本转换成独立的token列表，进而转换成输入的向量成为计算机可以理解的输入形式。本文将对分词器进行系统梳理，包括分词模型的演化路径，可用的工具，并手推每个tokenizer的具体实现。

2023-08-19

NLP

10个快问快答深度解析ChatGPT

ChatGPT是当前最为火爆的AI技术，可类比于人工智能领域的iPhone，各行各业也都在快速拥抱这项技术革命，但是你真的了解ChatGPT了吗？本文将通过10个快问快答，深度解析什么是ChatGPT？背后的技术原理是什么？可以帮我们做好哪些事情？还有哪些局限性？希望本文能帮助你在繁杂的舆论中不迷失，并开始真正利用ChatGPT来提高工作和学习效率！相信看完会有新收获！

2023-03-30

NLP