山东滕州市监局传递“托管班用臭肉烂菜给孩子做饭”:已依法对涉事企业立案调查
导语:字节跳动最新颁布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。IT 之家? 5 月 22 日新闻,字节跳动最新颁布开源多模态模型 Lance,激活参数量只有 3B,是一款原生统一的图像、视频多模态模型。与把 " 理解 " 和 " 天生 " 拆成多个?樵倨唇拥某<婊制,Lance 从训练起就把图像理解、视坡讽解、图像天生、视频天生和跨模态编纂放进统一系统,指标是让 1 个模型同时处置 X2T、X2I、X2V 3 类输出工作。IT 之家援引论文内容,理解工作依赖与说话对齐缜密的高层语义特点;天生工作则必要保留纹理、几何结构和时序动态的低层陆续暗示,而 Lance 则两全和平衡这两种相反的需要。Lance 为此选取共享高低文和能力解耦并行的设计:所有文本、图像、视频输入先转成统一交错序列,再交给双流专家架构别离掌治理解与天生。在具体结构上,文本象征来自 Qwen2.5-VL 嵌入层;偏理解的视觉输入由 Qwen2.5-VL 的 ViT 编码器提取语义视觉象征。偏天生的视觉输入则由 Wan2.2 的 3D 因果 VAE 编码成陆续潜在暗示,含 16 × 空间下采样和 4 × 功夫下采样。随后,模型在齐全高低文上使用广义 3D 因果把稳力,文本选取因果把稳力,视觉象搜索纳双向把稳力。Lance 还引入了 MaPE,即 Modality-Aware Rotary Positional Encoding(模态感知旋转地位编码)。它通过给分歧模态组增长固按功夫偏移,不粉碎图像和视频内部的空间结构与功夫挨次的前提下,解决统一序列中多类视觉象征天堑混合的问题。训练方面,Lance 分 4 个阶段推动:预训练阶段使用约 1B 图文对和 140M 视频文本对,总计 1.5T 象征;持续训练阶段引入编纂、主体驱动天生和多模态理解数据,规模约 300B 象征;监督微调阶段使用 72B 象征提升指令遵循和身份一致性;强化进建阶段选取 Group Relative Policy Optimization(组相对战术优化),并借助 PaddleOCR 作为嘉奖模型提升文字渲染与图文对齐。全数训练预算节造在最多 128 张 GPU 内;剂司窒允,Lance 在统一模型中阐发凸起:图像天生上,GenEval 总分 0.90,和 TUNA 并列前列;视频天生上,VBench 总分 85.11,高于 TUNA 的 84.06,也超过 HunyuanVideo 的 83.43 和 Wan2.1-T2V 的 83.69;图像编纂上,GEdit-Bench 达 7.30;视坡讽解上,MVBench 达 62.0,高于 Show-o2(7B)的 55.7?床忝,Lance 选取 Apache 2.0 许可,权沉已在 Hugging Face 提供,推理环境要求 Python 3.10 以上、CUDA 12.4 以上和至少 40 GB 显存。参考(文章为作者独立概想,不代表艾瑞网立。