非 Transformer 架构 AI 模型 Liquid 问世
注意到,目前业界在深度学习和自然语言处理方面主要使用 Transformer架构,该架构主要利用自注意力机制捕捉序列中单词之间的关系,包括 OpenAI 的 GPT、Meta 的 BART 和谷歌的 T5 等模型,都是基于 Transformer 架构。
而Liquid AI 则反其道而行之,其 Liquid 基础模型号称对模型架构进行了“重新设想”,据称受到了“交通信号处理系统、数值线性代数”理念的深刻影响,主打“通用性”,能够针对特定类型的数据进行建模,同时支持对视频、音频、文本、时间序列和交通信号等内容进行处理。
Liquid AI 表示,与 Transformer 架构模型相比 LFM 模型的RAM用量更少,特别是在处理大量输入内容场景时,由于 Transformer 架构模型处理长输入时需要保存键值(KV)缓存,且缓存会随着序列长度的增加而增大,导致输入越长,占用的RAM越多。
而 LFM 模型则能够避免上述问题,系列模型能够有效对外界输入的数据进行压缩,降低对硬件资源的需求,在相同硬件条件下,这三款模型相对业界竞品能够处理更长的序列。
参考 Liquid AI 首批发布的三款模型,其中 LFM-1.3B 专为资源受限的环境设计,而 LFM-3.1B 针对边缘计算进行了优化,LFM-40.3B 则是一款“专家混合模型(MoE)”,该版本主要适用于数学计算、交通信号处理等场景。
这些模型在通用知识和专业知识的处理上表现较为突出,能够高效处理长文本任务,还能够处理数学和逻辑推理任务,目前该模型主要支持英语,不过也对中文、法语、德语、西班牙语、日语、韩语和阿拉伯语提供有限支持。
根据 Liquid AI 的说法,LFM-1.3B 在许多基准测试中击败了其他 1B 参数规模的领先模型,包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 以及 Stability 的 Stable LM 2,这标志着首次有非 GPT 架构的模型明显超越了 Transformer 模型。
而在 LFM-3.1B 方面,这款模型不仅能够超越了 3B 规模的各种 Transformer 模型、混合模型和 RNN 模型,甚至还在特定场景超越上一代的 7B 和 13B 规模模型,目前已战胜谷歌的 Gemma 2、苹果的 AFM Edge、Meta 的 Llama 3.2 和微软的 Phi-3.5 等。
LFM-40.3B 则强调在模型规模和输出质量之间的平衡,不过这款模型有所限制,虽然其拥有 400 亿个参数,但在推理时仅启用 120 亿个参数,Liquid AI 声称进行相关限制是因为模型出品质量已经足够,在这种情况下对相应参数进行限制“反而还能够提升模型效率、降低模型运行所需的硬件配置”。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
-
华为生日礼券有什么用
华为生辰礼券有什么用是大家比拟关注的,究竟华为作为比拟受大家喜爱的品牌,很多友友都在应用,而近期该品牌新上线的生辰礼品券成了很多友 [详细] -
华为生日礼券哪些城市可以到线下领取礼物
华为生辰礼券是你购置了华为的产品就可以享有的福利,但是吧由于不是每个处所都有兑换礼物的实体店,所以华为生辰礼券哪些城市可以到线下领 [详细] -
华为会员生日礼物必须去直营店才能领到吗
华为会员生辰礼物必需去直营店能力领到吗是当下大家最为关注的话题,究竟就某书友友们晒出的礼物照片,还是值得跑一趟的,但是吧由于线下华 [详细] -
北方冬天白天冷还是晚上冷2024
随着冬季的来临,我国大部分地域的的气温都开端骤降,也正是因为这样北方冬天白天冷还是傍晚冷成了日常生活中大家茶余饭后讨论的焦点,下面 [详细] -
别来沾边是什么综艺
别来沾边是gai在很早以前中国新说唱里的豪言壮语,作为rapper的语言都是给人很冲的感到,其实gai本人挺有趣的,近期在《中国说唱巅峰对决》 [详细]