英伟达微调Llama3很强？来302竞技场跑跑分！

10月17日，英伟达（Nvidia）开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。

Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用稀奇数据集微调后的Llama3.1，旨在教导 LLM 生成的反应答用户查询的匡助性。

阐述官方Tech Report，Llama-3.1-Nemotron-70B-Instruct选用了东谈主类反馈强化学习（RLHF）智力，十分是 REINFORCE 算法，这使得模子在领路和推行提醒方面进展出色。它还选用了一种立异的羼杂锻真金不怕火智力，奥秘地将 Bradley-Terry 和 Regression 奖励模子王人集在一齐。

这一模子在多个基准测试中进展出色，举例在 Arena Hard 上得分为 85.0，在 AlpacaEval 2 LC 上得分为 57.6，在 GPT-4-Turbo MT-Bench 上得分为 8.98，截止 2024 年 10 月 1 日，在这些基准测试中进展最好，高出了 GPT-4o 和 Claude 3.5 Sonnet 等模子：

表面和数据天然热切，但更热切的是实质阁下中的示意，既然都在说Llama-3.1-Nemotron-70B-Instruct高出了GPT-4o和Claude 3.5 Sonnet模子，抱着“看淆乱不嫌事大”的作风，接下来，Yuki将通过302.AI的模子竞技场测试对比一下和其他闭源模子的真是进展。

302.AI的模子竞技场集成多种AI模子，用户不错选拔多个模子同期文书问题，大概更直不雅、明晰地对比不同模子的进展，何况302.AI提供了按需付费的使用面目，用户无需纪念月费和绑缚套餐，使得付费愈加纯真和经济。

领先，咱们投入302.AI的器具超市——工违法果——模子竞技场：

投入模子竞技场后，按需勾选模子，不错看到302.AI依然更新了“Llama-3.1-nemotron (Nvidia开源模子)”便是上文提到的Llama-3.1-Nemotron-70B-Instruct，按照Yuki的需求，一共勾选了四个模子，分辨是：o1-preview、GPT-4o、Claude 3.5 Sonnet和Llama-3.1-nemotron (Nvidia开源模子)：

先测试一下官方给出的草莓问题，从闭幕来看，只好Llama-3.1-Nemotron-70B-Instruct和o1-preview文书正确，不外Llama-3.1-Nemotron-70B-Instruct更详备的数了出来：

再来测试一个“煮鸡蛋和煎饼问题”：

题目：煮1个鸡蛋需要5分钟，煎一块饼的一面需要3分钟，饼需要翻面两次才能熟。煮锅和煎锅不错同期开火，煎锅一次最多只可放两块饼，那么我思要煮3个鸡蛋和3块饼，最快一共需要几分钟？

看下在这一问题上三个模子的进展奈何样：

先给公共望望轨范谜底，来自老一又友GPT-4o，其实这谈题的难点在于题目问的是“最快需要几分钟”，这锻真金不怕火了对技艺最优化的领路和臆测打算，不错看到GPT-4o的文书给出了最优最详备的决策：

再来望望Claude 3.5 Sonnet，虽然懂得把3个鸡蛋放一齐煮，然则在煎饼的时候并莫得找到真是的最优智力，仅仅照旧例的面目按公法进行煎饼：

o1-preview的谜底虽然很长很详备，但照旧错的：

临了是今天的主角Llama-3.1-Nemotron-70B-Instruct，Llama-3.1-Nemotron-70B-Instruct给出的谜底有点难领路，统统这个词逻辑有点绕，按照文书前部分的内容，即使第二轮运转时第一轮依然完毕，破耗的技艺亦然18分钟，不知谈9分钟是若何得来的：

临了，在302.AI的API超市中也同步更新了Llama-3.1-Nemotron-70B-Instruct的API，用户不错快速快速领路和集成API，接济在线调试，大概检朴技艺并教导了工违法果：

虽然Llama-3.1-Nemotron-70B-Instruct在一些基准测试中进展出色，但在特定实质阁下场景中的优化和进展似乎还有相比大的纠正空间。具体而言，在这类时序优化问题上，该模子在逻辑推理能力和文书准确性方面可能仍不如GPT-4o那么熟识。尽管如斯，Llama-3.1-Nemotron-70B-Instruct的出现，展示了高质地的稀奇数据微调后劲。

有计划昔日，咱们302.AI会合手续更新更多最新、最强的模子，竭力于知足用户日益增长的需乞降期待，接待公共来302.AI体验！

参考著作：

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct

https://mp.weixin.qq.com/s/ebJkBkGAn8QS-_xVK__MMw

让建站和SEO变得简单

你的位置：凤凰新闻观察 > 时政解析 >

英伟达微调Llama3很强？来302竞技场跑跑分！

热点资讯

相关资讯