三月二十二日夜记AI

Paul • 2025年3月22日 pm10:40 • AI相关 • 41 阅读

机器学习

概念

让计算机从数据中学习，而无需明确的编程指令。它依赖数学和统计方法，通过模式识别来自动改进任务的执行。

深度学习

机器学习的子集，利用深度神经网络自动提取特征，用于复杂任务（图像识别，语音处理，自然语言处理）

我的理解是：机器学习是获取数据，你知道这个是什么，那个是什么，对人来说是一种你不会写字但是能听懂人说话的感觉。你从长辈，身边人那里知道了生活的常识。

深度学习是你在了解了之后，开始上学，由浅入深，一层层去学习，一开始会识字，再会写，再到写好。从常识去了解物理。这种是深度学习。

核心算法

人工神经网络由多个神经元（Neuron）组成，模拟生物神经网络；适用于基本的回归和分类任务
卷积神经网络图像处理通过卷积层提取空间特征
循环神经网络适用于时间序列数据（语音识别，翻译）可以处理序列依赖问题
变换器适用于自然语言处理（如 GPT、BERT）

强化学习

一种特殊的机器学习方法，它通过智能体（Agent）与环境（Environment）交互，学习如何在特定情境下采取最佳行动，以最大化累积奖励（Reward）。

没有看的太细，感觉是做好了有奖励，做不好就批评。小鼠走迷宫吧。

核心概念

状态（State, S）：智能体当前所处的环境状态
动作（Action, A）：智能体可以采取的行动
奖励（Reward, R）：环境对智能体行为的反馈
策略（Policy, π）：决定智能体如何选择行动
价值函数（Value Function, V）：衡量某个状态的长期回报

经典强化学习算法

Q-Learning
- 采用表格方式存储状态-行动值（Q 值）
- 适用于小规模问题
- 示例：迷宫寻路
深度 Q 网络（DQN, Deep Q-Network）
- 结合深度学习和强化学习，解决高维状态问题
- 例如：AlphaGo、Dota 2 AI
策略梯度方法（Policy Gradient）
- 直接优化策略（Policy）
- 适用于连续动作空间问题（如机器人控制）
A3C / PPO（Actor-Critic 方法）
- 结合策略优化和价值估计，提高稳定性
- 适用于游戏 AI 和自动驾驶

LLM应用技术

因为大模型上述的这些局限性，在生产环境的实践中，我们逐渐探索出

提示词工程（Prompt Engineering）

RAG（Retrieval-Augmented Generation）

Agent

等技术来弥补这些短板。

Prompt Engineering 能让大模型在回答前对需求有更精确的理解，降低“跑题”或“幻觉”等问题；
RAG 会在模型生成答案前检索外部知识库，以提供最新或更专业的参考信息，让模型有更广、更实时的知识背景；
Agent 则赋予模型自主决策和调用外部系统的能力，使之不仅能给出文本回答，还可以执行更复杂的任务流程；

这三者结合能大幅度提高大模型在实际业务场景中的应用效果。

语言模型

基础语言模型（Foundation Language Model）

基础语言模型是一种大规模的人工智能模型，经过海量文本数据训练，能够执行各种自然语言处理（NLP）任务，如文本生成、翻译、问答和摘要等。它们通常是深度神经网络，基于 Transformer 架构（如 GPT、BERT、T5 等），并且可以通过微调（fine-tuning）适应特定任务。

通过反复预测下一个词的训练方式进行训练，没有明确的目标导向。给一个任意的prompt，会开放式发挥；对于具体问题，会给出无关回答。

具体来说不是一个词，而是一个token。

对于一个句子，语言模型会先使用分词器将其拆分为一个个 token ，而不是原始的单词。对于生僻词，可能会拆分为多个 token 。这样可以大幅降低字典规模，提高模型训练和推断的效率。

指令微调的语言模型（Instruction Tuned LLM）

经过专门的训练，更好地理解问题并给出符合指令的回答。指令微调使语言模型更加适合任务导向的对话应用。它可以生成遵循指令的语义准确的回复，而非自由联想。因此，许多实际应用已经采用指令调优语言模型。

从基础语言模型到指令微调语言模型：进行指令微调

首先在大规模数据集进行无监督预训练，获得基础语言模型
使用包含指令以及对应回复示例的小数据集对基础模型进行有监督fine-tume（让原始模型学会按指令生成文本）
人类反馈强化学习（RLHF)：人为对回答进行打分，比如是否有用，真实，无害。使用强化学习让模型学会选择更好的回答
多任务学习模型在不同任务上同时微调，例如翻译、摘要、QA（QA的心碎了）、代码生成等，以提高泛化能力。

Helper function 辅助函数 (提问范式)

专门的提问格式，可以更好的发挥语言模型理解和回答问题的能力

这种提问格式区分了“系统消息”和“用户消息”两个部分。系统消息是我们向语言模型传达讯息的语句，用户消息则是模拟用户的问题

理解成java中的接口，抽象类。把一些标准的提问的格式进行封装，然后训练，和模型聊天的时候直接调用。

版权声明：
作者：Paul
链接：https://www.15ivyy.site/index.php/2025/03/22/rzdsdryjai/
来源：somethingFromPaul
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

对第五章的补充

< <上一篇

三月二十二日夜记AI

下一篇>>

搜索内容

三月二十二日夜记AI

机器学习

概念

分类

深度学习

核心算法

强化学习

核心概念

经典强化学习算法

LLM应用技术

语言模型

基础语言模型（Foundation Language Model）

指令微调的语言模型（Instruction Tuned LLM）

Helper function 辅助函数 (提问范式)

取消回复

共有 0 条评论

分类