大模型基础组件 - MQA和GQA 传统Transformer中的Attnetion结构是Multi-Head Attention(MHA),通过参见Attention部分的参数量可以直接提升模型的推理速度,本文将介绍 Multi-Query Attention (MQA)和 Grouped-Query Attention (GQA)两个方法。 2023-09-10 NLP
大模型基础组件 - Position Encoding 位置编码(Position Encoding)是Transformer对”序列”进行建模的关键。本文将系统介绍Transformer架构中位置编码的演化路径以及优缺点,并手推各种位置编码的具体实现。 2023-09-02 NLP
垂直领域大模型的思考 相比能做很多事,但每件事都马马虎虎的通用大模型;只能做一两件事,但这一两件事都能做好,可被信赖的垂直大模型会更有价值。这样的垂直大模型能帮助我们真正解决问题,提高生产效率。 本文将系统介绍如何做一个垂直领域的大模型,包括继续预训练,领域微调数据构建,减缓幻觉,知识召回多个方面。也会介绍整体的系统设计,并串讲一系列相关的论文和产品。 2023-08-26 NLP
大模型基础组件 - Tokenizer Tokenizer分词算法是NLP大模型最基础的组件,基于Tokenizer可以将文本转换成独立的token列表,进而转换成输入的向量成为计算机可以理解的输入形式。本文将对分词器进行系统梳理,包括分词模型的演化路径,可用的工具,并手推每个tokenizer的具体实现。 2023-08-19 NLP
10个快问快答深度解析ChatGPT ChatGPT是当前最为火爆的AI技术,可类比于人工智能领域的iPhone,各行各业也都在快速拥抱这项技术革命,但是你真的了解ChatGPT了吗? 本文将通过10个快问快答,深度解析什么是ChatGPT?背后的技术原理是什么?可以帮我们做好哪些事情?还有哪些局限性?希望本文能帮助你在繁杂的舆论中不迷失,并开始真正利用ChatGPT来提高工作和学习效率!相信看完会有新收获! 2023-03-30 NLP
【读书笔记】月亮与六便士 月亮是理想,六便士是现实,一定会有冲突。专注理想不世俗的人是天才级的,但也是冷漠自私的。一本很短的经典小说,可以快速刷完。故事有点荒诞和狗血,仔细读完还是敬佩全意追逐理想的人,在发光。 2022-10-30 读书
【读书笔记】怪诞行为学 - 可预测的非理性 罗永浩推荐的一本书,行为经济学的入门书,行为经济学是从心理学的角度来解释人的行为。如果完全从经济学的角度(成本-收益)来看待世界,会发现真实世界存在很多不合理性的事件,但是存在即合理。这些非理性的现象就是因为人在叠加了感性的因素后作出的决策,更重要的是这些非理性的现象是可以被发现,验证,定量分析的。所以如果能已知我们身上非理性的一面,就可以更好的把控我们的生活。 2022-07-01 读书