3377体育

颁布于2026-06-04 10:49:10 来自高手此刻 ·

关注

山东滕州市监局传递“托管班用臭肉烂菜给孩子做饭”：已依法对涉事企业立案调查

雷霆以逸待劳轻取太阳这轮系列赛也是没悬想的？

导语：字节跳动最新颁布开源多模态模型 Lance，激活参数量只有 3B，是一款原生统一的图像、视频多模态模型。IT 之家? 5 月 22 日新闻，字节跳动最新颁布开源多模态模型 Lance，激活参数量只有 3B，是一款原生统一的图像、视频多模态模型。与把 " 理解 " 和 " 天生 " 拆成多个？樵倨唇拥某＜婊制，Lance 从训练起就把图像理解、视坡讽解、图像天生、视频天生和跨模态编纂放进统一系统，指标是让 1 个模型同时处置 X2T、X2I、X2V 3 类输出工作。IT 之家援引论文内容，理解工作依赖与说话对齐缜密的高层语义特点；天生工作则必要保留纹理、几何结构和时序动态的低层陆续暗示，而 Lance 则两全和平衡这两种相反的需要。Lance 为此选取共享高低文和能力解耦并行的设计：所有文本、图像、视频输入先转成统一交错序列，再交给双流专家架构别离掌治理解与天生。在具体结构上，文本象征来自 Qwen2.5-VL 嵌入层；偏理解的视觉输入由 Qwen2.5-VL 的 ViT 编码器提取语义视觉象征。偏天生的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成陆续潜在暗示，含 16 × 空间下采样和 4 × 功夫下采样。随后，模型在齐全高低文上使用广义 3D 因果把稳力，文本选取因果把稳力，视觉象搜索纳双向把稳力。Lance 还引入了 MaPE，即 Modality-Aware Rotary Positional Encoding（模态感知旋转地位编码）。它通过给分歧模态组增长固按功夫偏移，不粉碎图像和视频内部的空间结构与功夫挨次的前提下，解决统一序列中多类视觉象征天堑混合的问题。训练方面，Lance 分 4 个阶段推动：预训练阶段使用约 1B 图文对和 140M 视频文本对，总计 1.5T 象征；持续训练阶段引入编纂、主体驱动天生和多模态理解数据，规模约 300B 象征；监督微调阶段使用 72B 象征提升指令遵循和身份一致性；强化进建阶段选取 Group Relative Policy Optimization（组相对战术优化），并借助 PaddleOCR 作为嘉奖模型提升文字渲染与图文对齐。全数训练预算节造在最多 128 张 GPU 内；剂司窒允，Lance 在统一模型中阐发凸起：图像天生上，GenEval 总分 0.90，和 TUNA 并列前列；视频天生上，VBench 总分 85.11，高于 TUNA 的 84.06，也超过 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69；图像编纂上，GEdit-Bench 达 7.30；视坡讽解上，MVBench 达 62.0，高于 Show-o2（7B）的 55.7？床忝，Lance 选取 Apache 2.0 许可，权沉已在 Hugging Face 提供，推理环境要求 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。参考（文章为作者独立概想，不代表艾瑞网立。

热点排行

【网站地图】