三月二十二日夜记AI

机器学习

概念

让计算机从数据中学习,而无需明确的编程指令。它依赖数学和统计方法,通过模式识别来自动改进任务的执行

分类

主要分为三类:

  1. 监督学习 带有标签的训练数据,学习目标:学习输入数据与输出标签之间的映射关系

  2. 无监督学习 没有标签的训练数据 学习目标:发现数据的模式或结构

  3. 半监督学习&自监督学习 结合少量有标签数据大量无标签数据进行训练(两者兼备了属于是)

  4. 强化学习

深度学习

机器学习的子集,利用深度神经网络自动提取特征,用于复杂任务(图像识别,语音处理,自然语言处理)

我的理解是:机器学习是获取数据,你知道这个是什么,那个是什么,对人来说是一种你不会写字但是能听懂人说话的感觉。你从长辈,身边人那里知道了生活的常识。

深度学习是你在了解了之后,开始上学,由浅入深,一层层去学习,一开始会识字,再会写,再到写好。从常识去了解物理。这种是深度学习。

核心算法

  1. 人工神经网络 由多个神经元(Neuron)组成,模拟生物神经网络;适用于基本的回归和分类任务

  2. 卷积神经网络 图像处理 通过卷积层提取空间特征

  3. 循环神经网络 适用于时间序列数据(语音识别,翻译)可以处理序列依赖问题

  4. 变换器 适用于自然语言处理(如 GPT、BERT)

强化学习

一种特殊的机器学习方法,它通过智能体(Agent)环境(Environment)交互,学习如何在特定情境下采取最佳行动,以最大化累积奖励(Reward)。

没有看的太细,感觉是做好了有奖励,做不好就批评。小鼠走迷宫吧。

核心概念

  1. 状态(State, S):智能体当前所处的环境状态

  2. 动作(Action, A):智能体可以采取的行动

  3. 奖励(Reward, R):环境对智能体行为的反馈

  4. 策略(Policy, π):决定智能体如何选择行动

  5. 价值函数(Value Function, V):衡量某个状态的长期回报

经典强化学习算法

  1. Q-Learning

    • 采用表格方式存储状态-行动值(Q 值)

    • 适用于小规模问题

    • 示例:迷宫寻路

  2. 深度 Q 网络(DQN, Deep Q-Network)

    • 结合深度学习和强化学习,解决高维状态问题

    • 例如:AlphaGo、Dota 2 AI

  3. 策略梯度方法(Policy Gradient)

    • 直接优化策略(Policy)

    • 适用于连续动作空间问题(如机器人控制)

  4. A3C / PPO(Actor-Critic 方法)

    • 结合策略优化和价值估计,提高稳定性

    • 适用于游戏 AI 和自动驾驶

LLM应用技术

因为大模型上述的这些局限性,在生产环境的实践中,我们逐渐探索出

提示词工程(Prompt Engineering)

RAG(Retrieval-Augmented Generation)

Agent

等技术来弥补这些短板。

  • Prompt Engineering 能让大模型在回答前对需求有更精确的理解,降低“跑题”或“幻觉”等问题;

  • RAG 会在模型生成答案前检索外部知识库,以提供最新或更专业的参考信息,让模型有更广、更实时的知识背景;

  • Agent 则赋予模型自主决策和调用外部系统的能力,使之不仅能给出文本回答,还可以执行更复杂的任务流程;

这三者结合能大幅度提高大模型在实际业务场景中的应用效果。

语言模型

基础语言模型(Foundation Language Model)

基础语言模型是一种大规模的人工智能模型,经过海量文本数据训练,能够执行各种自然语言处理(NLP)任务,如文本生成、翻译、问答和摘要等。它们通常是深度神经网络,基于 Transformer 架构(如 GPT、BERT、T5 等),并且可以通过微调(fine-tuning)适应特定任务。

通过反复预测下一个词的训练方式进行训练,没有明确的目标导向。给一个任意的prompt,会开放式发挥;对于具体问题,会给出无关回答。

具体来说不是一个词,而是一个token

对于一个句子,语言模型会先使用分词器将其拆分为一个个 token ,而不是原始的单词。对于生僻词,可能会拆分为多个 token 。这样可以大幅降低字典规模,提高模型训练和推断的效率。

指令微调的语言模型(Instruction Tuned LLM)

经过专门的训练,更好地理解问题并给出符合指令的回答。指令微调使语言模型更加适合任务导向的对话应用。它可以生成遵循指令的语义准确的回复,而非自由联想。因此,许多实际应用已经采用指令调优语言模型。

从基础语言模型到指令微调语言模型:进行指令微调

  1. 首先在大规模数据集进行无监督预训练,获得基础语言模型

  2. 使用包含指令以及对应回复示例的小数据集对基础模型进行有监督fine-tume(让原始模型学会按指令生成文本)

  3. 人类反馈强化学习(RLHF):人为对回答进行打分,比如是否有用,真实,无害。使用强化学习让模型学会选择更好的回答

  4. 多任务学习 模型在不同任务上同时微调,例如翻译、摘要、QA(QA的心碎了)、代码生成等,以提高泛化能力。

Helper function 辅助函数 (提问范式)

专门的提问格式,可以更好的发挥语言模型理解和回答问题的能力

这种提问格式区分了“系统消息”和“用户消息”两个部分。系统消息是我们向语言模型传达讯息的语句,用户消息则是模拟用户的问题

理解成java中的接口,抽象类。把一些标准的提问的格式进行封装,然后训练,和模型聊天的时候直接调用。

版权声明:
作者:Paul
链接:https://www.15ivyy.site/index.php/2025/03/22/rzdsdryjai/
来源:somethingFromPaul
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>