大模型涌现判定

16 阅读 0 评论 0 点赞

什么是大模型？

大模型：是“规模足够大，训练足够充分，出现了涌现”的深度学习系统；

大模型技术的革命性：延申了人的器官的功能，带来了生产效率量级提升，展现了AGI的可行路径；

大模型的三个关键能力（涌现的行为）：ICL(情景学习能力)，CoT（深度推理能力），LNI（自然指令学习）

大模型智能涌现现象：

数据型规模达到一定水平时，在新任务上的性能显著提高，超出平均水平。

大模型的尺度（scaling laws)：

大模型的泛化表现与学习质量、训练数据规模、参数规模呈指数率关系。

智能涌现：自然现象与多学科启示

智能涌现：由个体的相互作用（简单规则）导致非常智能（复杂而有序）的整体行为。

物理观点：对称性破缺是基础（Anderson，more is different，Science，1972）：尺度是根本要素：1）划分尺度 2）出现新的因果 3）选择最强因果性——因果涌现。

数学观点：极限所展示的行为（极限是开拓认知边界的利器）

$e= \sum_{n=0}^{\infty }\frac{1}{n!}=\lim_{x\rightarrow \infty }(1+\frac{1}{x})^{x}$

$\Pi =4\sum_{n=0}^{\infty }\frac{(-1)^{n}}{2n+1}$

$\sqrt{2} =\lim_{n\rightarrow \infty }x_{n},x_{n}=1+\frac{1}{1+x_{n}}$

大模型智能涌现与尺度率：数学建模

假设 $\varepsilon (N,P,\partial l)$ 是解决任务T的性态函数（如泛化性度量）大模型的智能行为能够通过性态函数反应。

$\varepsilon (N,P,\partial l)\rightarrow \varepsilon (\infty ,\infty ,0)$ (任何意义下)

由此推得

$\varepsilon (\infty ,\infty ,0)-\epsilon \leq inf_{N,P,\partial l} (\varepsilon (N,P,\partial l))\leq \varepsilon (\infty ,\infty ,0)+\epsilon$

大模型是否存在相变？ 存在性就意味着相变！

大模型能不能工作更好？ $\varepsilon (\infty ,\infty ,0)$ 度量了相变后行为！

大模型涌现的判定准则

大模型与极限架构：有限vs无限

模型架构：以“功能块+基块周期性重复”为结构的大规模深度神经网络（映射功能）

一个大模型架构由若干个功能块组成。固定一个功能块，假设该功能含k个基块，且第i个基块定义映射 $T_{i }$ ，则该功能可以表示为k个算子的复合，即

$f_{wp}=T_{w_{k}}\cdot T_{w_{K-1}}\cdot ...\cdot T_{w_{1}}:\chi \rightarrow y$

假设宽度有限，P是K个基块的参数总规模， $w_{p}= [w_{1}...w_{n}]$ 是功能块所有参数。

而无限维系统为

$f_{w}^{*}=\lim_{p\rightarrow \infty }f_{wp}$

本模型极限架构的存在性等价于算子无穷乘积的收敛性。

通过引入非线性Lipschitz算子及特征数（涉及泛函分析，此处不细讲）可以用于描述大模型涌现或尺度率的判定条件。

结论：涌现存在的条件

1）通常假设1和假设3作为A的前提假设，因而上述定理说明：如果大模型的权值能最优设置，而且其基块满足Lip $Lip(T_{i})\leq 1$ 且满足自映射条件，或 $m(A_{i})\geq 0$ 且满足极大单调性条件，则当模型规模，训练数据规模趋于无穷时，则大模型一定会出现涌现。

2) 极限架构行为即表现为涌现具体可刻画可通过选择特定的 $\varepsilon$ 形式（包括线性和损失函数）

结论：模型规模尺度率

模型规模尺度率为指数律或幂率，取决于模型基块的组装方式：A.模式（残差式）要求的条件m（A）>0，一般总是弱于T模式（堆叠式）条件 Lip(T) <1，但以收敛速度更慢为代价。

只剩下偏差（红线），即大模型的插值性将导致泛化性，大模型具有抗耐噪性

一些可以进一步深化的问题？

来自徐宗本院士的分享！

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

转载请注明出处：免费源码网-免费的源码资源网站 » 大模型涌现判定

点赞(0) 打赏

本文分类：文章资讯
本文标签：大模型涌现判定
浏览次数：16 次浏览
本文链接：https://freeymw.com/article/33091.html

上一篇 > 博科测试IPO上市丨为行业提供智能测试综合解决方案
下一篇 > c# .net switch用法

评论列表共有 0 条评论

暂无评论

发表评论取消回复

微信公众账号

微信扫一扫加关注

发表
评论返回
顶部