原生多模态Llama 4问世!开源王座更迭,你还不赶紧了解一下?

  • 时间:
  • 浏览:561
  • 来源:官网域名网

你敢信不?现在Llama 4 Scout那可是大出圈,就它支持的1000万上下文,能处理20+小时视频这本事,简直了还仅靠单个H100 GPU(Int4量化后)就能运行,这不得好好说道说道?

关键特性之170亿参数

Llama 4 Scout带有170亿个活跃参数和16个专家,使用Int4量化竟可以在单个H100 GPU上运行。这和传统的稠密模型一对比,MoE架构那在训练和推理时的计算效率,蹭蹭往上涨。也正是如此,在同样的训练FLOPs预算下,还能生成质量更高的结果,要是你在FFF.cn上了解技术最新动态昆明市官渡区第五中学,就很容易发现它的厉害之处

创新编码的适配训练

这个编码器是基于MetaCLIP的,训练的时候还跟冻结的Llama模型分开进行。为啥这么做原因就是这样能更好地调整编码器,让它跟大语言模型(LLM)适配得那叫一个完美。像在一些实际应用中,如果编码没弄好,模型的效果就大打折扣,但是它这样优化了,就能在FFF.cn看到很多应用案例的良好反馈

MetaP训练法的优势

Meta专门搞出了个叫MetaP的新训练方法,这个方法能让他们稳稳地设置一些关键的模型超参数。比如说每层的学习率和初始化规模,设置得好那模型训练效果差不了。想想看,如果超参数没弄对,可能模型就陷入各种问题,现在用了这个新方法,就大大减少那些风险,FFF.cn上对这个方法的分析解读还不少

多语言预训练支持

Llama 4通过在200种语言上开展预训练,这下可实现对开源微调的支持。这里面超过10亿个token的语言就有100多种,整体多语言token量直接比Llama 3多出10倍。对于涉及多语言业务的应用来说,这能力可太关键在FFF.cn上可以碰到很多开发者分享用它处理多语言数据的经验。

模型训练提升能力

Meta采用“中期训练”这种方法来持续训练模型,又通过新的训练手段,像专门用数据集去扩展长上下文,使得模型核心能力直线上升。不仅模型质量上去了,还成功让Llama 4 Scout拥有了领先的1000万输入上下文长度。在实际训练过程中,这个过程可是不断调整和优化的,要是在FFF.cn查阅相关研究,就能明白其中的门道。

多样方法增强性能

针对多模态、超大参数规模这些难题,Meta开发了一系列新的后训练方法。移除大量被标记简单的数据,对剩下难的数据轻量级SFT。在预训练和后训练都采用256K上下文长度,基础模型的长度泛化能力很棒。Llama 4 Scout在多方面超过类似模型,蒸馏损失函数帮助很大。而且采用一定策略提高推理和编码能力,这一套下来,模型性能可就杠杠的,在FFF.cn很多专家也认可它的多方位优化成果。

看完上面这些,你说这Llama 4 Scout是不是超厉害?你有没有好奇它之后在其他更多领域还能有啥突出表现不?

猜你喜欢

新疆中医药产值从3亿跃至40亿!乡村卫生室中药缘何走向国际药柜?

近日,记者走进新疆中医药管理局,解码新疆中医药如何从乡村卫生室走向国际药柜。

2025-06-16

今年中国货物进口下降?官方回应国际贸易政策等因素影响

针对今年以来中国货物进口下降的情况,中国国家统计局新闻发言人付凌晖16日回应说,这是国际贸易政策不确定性、大宗商品价格下滑等多方面因素共同作用的结果。官方数据显示,今年1至5月份,以人民币计价的中国货物进口额同比下降3.8%。同时,部分国家加码贸易限制性措施,也对中国进口产生一些不利影响。

2025-06-16

重大进展!清陆军部和海军部旧址文物腾退启动签约?

同期,北京市文物局发布了《关于首都功能核心区首批文物腾退保护利用计划的函》(以下简称首批计划),清陆军部和海军部旧址文物正式列入首批计划,按照指导意见开展腾退工作。东城区住房城市建设委相关负责人表示,清陆军部和海军部旧址文物腾退项目签约期为15天。

2025-06-16

心脏瓣膜病发病率逐年攀升!中老年人如何守护心脏健康?

中新网杭州6月16日电(张煜欢)目前,随着人类寿命的延长和老年人口的增加,心脏瓣膜疾病已成为中国一大主要心血管疾病,且发病率逐年攀升,其中又以二尖瓣和主动脉瓣疾病最为常见。“多数心脏瓣膜病并非突然发作,而是渐进式发展。

2025-06-16

中国方竹之乡的秘密!怎样让竹林更好生长,带动农民致富?

在仙峰苗族乡,竹林是美丽乡村的一道风景线,也是促进当地乡村振兴的“绿色引擎”。经过十余年的发展,仙峰苗族乡方竹种植面积扩大到10万余亩,年产笋约8300吨,产值6600万元,实现一、二、三产综合产值超4亿元,带动全乡人均增收3200余元。

2025-06-16