三月二十二日夜记AI
概念
让计算机从数据中学习,而无需明确的编程指令。它依赖数学和统计方法,通过模式识别来自动改进任务的执行。
分类
主要分为三类:
-
监督学习 带有标签的训练数据,学习目标:学习输入数据与输出标签之间的映射关系
-
无监督学习 没有标签的训练数据 学习目标:发现数据的模式或结构
-
半监督学习&自监督学习 结合少量有标签数据和大量无标签数据进行训练(两者兼备了属于是)
-
强化学习
深度学习
机器学习的子集,利用深度神经网络自动提取特征,用于复杂任务(图像识别,语音处理,自然语言处理)
我的理解是:机器学习是获取数据,你知道这个是什么,那个是什么,对人来说是一种你不会写字但是能听懂人说话的感觉。你从长辈,身边人那里知道了生活的常识。
深度学习是你在了解了之后,开始上学,由浅入深,一层层去学习,一开始会识字,再会写,再到写好。从常识去了解物理。这种是深度学习。
核心算法
-
人工神经网络 由多个神经元(Neuron)组成,模拟生物神经网络;适用于基本的回归和分类任务
-
卷积神经网络 图像处理 通过卷积层提取空间特征
-
循环神经网络 适用于时间序列数据(语音识别,翻译)可以处理序列依赖问题
-
变换器 适用于自然语言处理(如 GPT、BERT)
强化学习
一种特殊的机器学习方法,它通过智能体(Agent)与环境(Environment)交互,学习如何在特定情境下采取最佳行动,以最大化累积奖励(Reward)。
没有看的太细,感觉是做好了有奖励,做不好就批评。小鼠走迷宫吧。
核心概念
-
状态(State, S):智能体当前所处的环境状态
-
动作(Action, A):智能体可以采取的行动
-
奖励(Reward, R):环境对智能体行为的反馈
-
策略(Policy, π):决定智能体如何选择行动
-
价值函数(Value Function, V):衡量某个状态的长期回报
经典强化学习算法
-
Q-Learning
-
采用表格方式存储状态-行动值(Q 值)
-
适用于小规模问题
-
示例:迷宫寻路
-
-
深度 Q 网络(DQN, Deep Q-Network)
-
结合深度学习和强化学习,解决高维状态问题
-
例如:AlphaGo、Dota 2 AI
-
-
策略梯度方法(Policy Gradient)
-
直接优化策略(Policy)
-
适用于连续动作空间问题(如机器人控制)
-
-
A3C / PPO(Actor-Critic 方法)
-
结合策略优化和价值估计,提高稳定性
-
适用于游戏 AI 和自动驾驶
-
LLM应用技术
因为大模型上述的这些局限性,在生产环境的实践中,我们逐渐探索出
提示词工程(Prompt Engineering)
RAG(Retrieval-Augmented Generation)
Agent
等技术来弥补这些短板。
-
Prompt Engineering 能让大模型在回答前对需求有更精确的理解,降低“跑题”或“幻觉”等问题;
-
RAG 会在模型生成答案前检索外部知识库,以提供最新或更专业的参考信息,让模型有更广、更实时的知识背景;
-
Agent 则赋予模型自主决策和调用外部系统的能力,使之不仅能给出文本回答,还可以执行更复杂的任务流程;
这三者结合能大幅度提高大模型在实际业务场景中的应用效果。
语言模型
基础语言模型(Foundation Language Model)
基础语言模型是一种大规模的人工智能模型,经过海量文本数据训练,能够执行各种自然语言处理(NLP)任务,如文本生成、翻译、问答和摘要等。它们通常是深度神经网络,基于 Transformer 架构(如 GPT、BERT、T5 等),并且可以通过微调(fine-tuning)适应特定任务。
通过反复预测下一个词的训练方式进行训练,没有明确的目标导向。给一个任意的prompt,会开放式发挥;对于具体问题,会给出无关回答。
具体来说不是一个词,而是一个token。
对于一个句子,语言模型会先使用分词器将其拆分为一个个 token ,而不是原始的单词。对于生僻词,可能会拆分为多个 token 。这样可以大幅降低字典规模,提高模型训练和推断的效率。
指令微调的语言模型(Instruction Tuned LLM)
经过专门的训练,更好地理解问题并给出符合指令的回答。指令微调使语言模型更加适合任务导向的对话应用。它可以生成遵循指令的语义准确的回复,而非自由联想。因此,许多实际应用已经采用指令调优语言模型。
从基础语言模型到指令微调语言模型:进行指令微调
-
首先在大规模数据集进行无监督预训练,获得基础语言模型
-
使用包含指令以及对应回复示例的小数据集对基础模型进行有监督fine-tume(让原始模型学会按指令生成文本)
-
人类反馈强化学习(RLHF):人为对回答进行打分,比如是否有用,真实,无害。使用强化学习让模型学会选择更好的回答
-
多任务学习 模型在不同任务上同时微调,例如翻译、摘要、QA(QA的心碎了)、代码生成等,以提高泛化能力。
Helper function 辅助函数 (提问范式)
专门的提问格式,可以更好的发挥语言模型理解和回答问题的能力
这种提问格式区分了“系统消息”和“用户消息”两个部分。系统消息是我们向语言模型传达讯息的语句,用户消息则是模拟用户的问题
版权声明:
作者:Paul
链接:https://www.15ivyy.site/index.php/2025/03/22/rzdsdryjai/
来源:somethingFromPaul
文章版权归作者所有,未经允许请勿转载。
共有 0 条评论