🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/
一、项目意义
Datawhale 是一个专注于数据科学与 AI 领域的开源组织,汇集了众多领域院校和知名企业的优秀学习者,聚合了一群有开源精神和探索精神的团队成员。Datawhale 的小伙伴们一起制作了一份优质的中文教程:面向开发者的大模型手册 - LLM Cookbook
由吴恩达老师与 OpenAI 联合推出的官方教程,如 ChatGPT Prompt Engineering for Developers、LangChain for LLM Application Development 和 Building Systems with the ChatGPT API 等,预计将成为 LLM 的重要入门教程。然而,目前这些教程仅支持英文版,且国内访问受限。因此,创建中文版并确保国内流畅访问的教程具有重要意义。此外,考虑到 ChatGPT 对中文和英文的理解能力存在差异,贡献者在多次对比和实验后,确定了效果大致相当的中文 Prompts,以支持学习者研究如何提升 ChatGPT 在中文语境下的理解和生成能力。
这份教程为开发者提供了学习如何基于 LLM 搭建应用程序的实践路径。为了支持国内中文学习者,这份教程将该系列课程翻译为中文,复现了范例代码,并为一个视频增加了中文字幕。该项目还实现了与原文效果相当的中文 Prompts,以便国内学习者在中文语境下体验 LLM 的使用,并对比学习多语言环境下的 Prompts 设计与 LLM 开发。在未来,这个项目将进一步丰富本课程内容,加入更多提示工程的高级技巧,以帮助开发者掌握更多、更实用、更巧妙的提示工程技能!
二、项目简介
项目地址:https://github.com/datawhalechina/llm-cookbook/
这个项目是一本大模型手册,专为满足国内开发者的实际需求而设计,旨在全面引导开发者入门 LLM。该项目以吴恩达老师的大模型系列课程为基础,对课程内容进行筛选、翻译、复现和优化,涵盖了从 Prompt Engineering 到 RAG 开发、模型微调的全过程,以最适合国内学习者的方式,引导他们入门和实践 LLM 相关项目。
Datawhale 的小伙伴们根据吴恩达老师的 11 门大模型课程的不同特点进行了翻译和复现,并考虑到国内学习者的实际情况,对课程进行了分级和排序。初学者可以先系统地学习必修课程,掌握 LLM 的基础技能和概念,然后根据自己的兴趣选择性地学习选修课程,不断在感兴趣的方向上探索和学习。
如果有你非常喜欢的吴恩达老师的大模型课程,但课程还未进行复现,该项目欢迎每一位开发者参考已有课程的格式和风格,复现课程并提交 PR。一旦 PR 审核通过,项目负责人会根据课程内容进行分级并合并到课程中。非常欢迎每一位开发者的贡献!
其他相关材料:
三、学习指南
这份教程适合具备 Python 基础并希望入门 LLM 的开发者。如果您打算开始学习本教程,您需要具备以下条件:
至少熟悉一个 LLM API(推荐 OpenAI Python API library,如果您使用其他 API,可能需要参考相关教程修改 API 调用代码)。
熟练使用 Python Jupyter Notebook。
这份教程共包括 11 门课程,分为必修和选修两类。必修课程包含了入门 LLM 所需的所有基础技能和概念,这些课程非常适合初学者。该项目还为这些课程提供了在线阅读和 PDF 版本,并建议学习者按照这样的顺序进行学习。选修课程是对必修课程的进一步拓展,涵盖了 RAG 开发、模型微调、模型评估等多个方面,适合已掌握必修课程的学习者根据自己的兴趣选择学习。
必修类课程包括:
面向开发者的 Prompt Engineering 是基于吴恩达老师的 ChatGPT Prompt Engineering for Developers 课程打造的。这门课程面向入门 LLM 的开发者,深入浅出地介绍了如何构造 Prompt,并基于 OpenAI 提供的 API 实现包括总结、推断、转换等多种常用功能。这是入门 LLM 开发的第一步。
搭建基于 ChatGPT 的问答系统是基于吴恩达老师的 Building Systems with the ChatGPT API 课程打造的。这门课程指导开发者如何基于 ChatGPT 提供的 API 开发一个完整的、全面的智能问答系统。通过代码实践,我们可以实现基于 ChatGPT 开发问答系统的全流程,这是大模型开发的实践基础。
使用 LangChain 开发应用程序是基于吴恩达老师的 LangChain for LLM Application Development 课程打造的。这门课程对 LangChain 进行了深入的介绍,帮助学习者了解如何使用 LangChain,并基于 LangChain 开发完整的、具备强大能力的应用程序。
使用 LangChain 访问个人数据是基于吴恩达老师的 LangChain Chat with Your Data 课程打造的。这门课程深入拓展了 LangChain 提供的个人数据访问能力,指导开发者如何使用 LangChain 开发能够访问用户个人数据、提供个性化服务的大模型应用。
选修课程包括:
Building Generative AI Applications with Gradio 课程,由吴恩达老师主讲,教授如何使用 Gradio 和 Python 接口程序,快速且高效地为生成式 AI 构建用户界面。
Evaluating and Debugging Generative AI 课程,由吴恩达老师主讲,结合 wandb 工具,为开发者提供一套系统化的方法和工具,以有效地跟踪和调试生成式 AI 模型。
Finetuning Large Language Model 课程,由吴恩达老师主讲,结合 lamini 框架,教授如何在本地便捷且高效地使用个人数据微调开源大语言模型。
Large Language Models with Semantic Search 课程,由吴恩达老师主讲,专注于检索增强生成,介绍了多种高级检索技巧,以实现更准确且高效的检索增强 LLM 生成效果。
Advanced Retrieval for AI with Chroma 课程,由吴恩达老师主讲,介绍了基于 Chroma 的高级检索技术,旨在提升检索结果的准确性。
Building and Evaluating Advanced RAG Applications 课程,由吴恩达老师主讲,介绍了构建和实现高质量 RAG 系统所需的关键技术和评估框架。
Functions, Tools and Agents with LangChain 课程,由吴恩达老师主讲,介绍了如何基于 LangChain 的新语法构建 Agent。
Prompt 高级技巧。原创内容,正在创作中。
其他资料包括: