10月17日,英伟达(Nvidia)开源了微调后的Llama3.1——Llama-3.1-Nemotron-70B-Instruct。
Llama-3.1-Nemotron-70B-Instruct 是 NVIDIA 使用稀奇数据集微调后的Llama3.1,旨在教导 LLM 生成的反应答用户查询的匡助性。
阐述官方Tech Report,Llama-3.1-Nemotron-70B-Instruct选用了东谈主类反馈强化学习(RLHF)智力,十分是 REINFORCE 算法,这使得模子在领路和推行提醒方面进展出色。它还选用了一种立异的羼杂锻真金不怕火智力,奥秘地将 Bradley-Terry 和 Regression 奖励模子王人集在一齐。
这一模子在多个基准测试中进展出色,举例在 Arena Hard 上得分为 85.0,在 AlpacaEval 2 LC 上得分为 57.6,在 GPT-4-Turbo MT-Bench 上得分为 8.98,截止 2024 年 10 月 1 日,在这些基准测试中进展最好,高出了 GPT-4o 和 Claude 3.5 Sonnet 等模子:
表面和数据天然热切,但更热切的是实质阁下中的示意,既然都在说Llama-3.1-Nemotron-70B-Instruct高出了GPT-4o和Claude 3.5 Sonnet模子,抱着“看淆乱不嫌事大”的作风,接下来,Yuki将通过302.AI的模子竞技场测试对比一下和其他闭源模子的真是进展。
302.AI的模子竞技场集成多种AI模子,用户不错选拔多个模子同期文书问题,大概更直不雅、明晰地对比不同模子的进展,何况302.AI提供了按需付费的使用面目,用户无需纪念月费和绑缚套餐,使得付费愈加纯真和经济。
领先,咱们投入302.AI的器具超市——工违法果——模子竞技场:
投入模子竞技场后,按需勾选模子,不错看到302.AI依然更新了“Llama-3.1-nemotron (Nvidia开源模子)”便是上文提到的Llama-3.1-Nemotron-70B-Instruct,按照Yuki的需求,一共勾选了四个模子,分辨是:o1-preview、GPT-4o、Claude 3.5 Sonnet和Llama-3.1-nemotron (Nvidia开源模子):
先测试一下官方给出的草莓问题,从闭幕来看,只好Llama-3.1-Nemotron-70B-Instruct和o1-preview文书正确,不外Llama-3.1-Nemotron-70B-Instruct更详备的数了出来:
再来测试一个“煮鸡蛋和煎饼问题”:
题目:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅不错同期开火,煎锅一次最多只可放两块饼,那么我思要煮3个鸡蛋和3块饼,最快一共需要几分钟?
看下在这一问题上三个模子的进展奈何样:
先给公共望望轨范谜底,来自老一又友GPT-4o,其实这谈题的难点在于题目问的是“最快需要几分钟”,这锻真金不怕火了对技艺最优化的领路和臆测打算,不错看到GPT-4o的文书给出了最优最详备的决策:
再来望望Claude 3.5 Sonnet,虽然懂得把3个鸡蛋放一齐煮,然则在煎饼的时候并莫得找到真是的最优智力,仅仅照旧例的面目按公法进行煎饼:
o1-preview的谜底虽然很长很详备,但照旧错的:
临了是今天的主角Llama-3.1-Nemotron-70B-Instruct,Llama-3.1-Nemotron-70B-Instruct给出的谜底有点难领路,统统这个词逻辑有点绕,按照文书前部分的内容,即使第二轮运转时第一轮依然完毕,破耗的技艺亦然18分钟,不知谈9分钟是若何得来的:
临了,在302.AI的API超市中也同步更新了Llama-3.1-Nemotron-70B-Instruct的API,用户不错快速快速领路和集成API,接济在线调试,大概检朴技艺并教导了工违法果:
虽然Llama-3.1-Nemotron-70B-Instruct在一些基准测试中进展出色,但在特定实质阁下场景中的优化和进展似乎还有相比大的纠正空间。具体而言,在这类时序优化问题上,该模子在逻辑推理能力和文书准确性方面可能仍不如GPT-4o那么熟识。尽管如斯,Llama-3.1-Nemotron-70B-Instruct的出现,展示了高质地的稀奇数据微调后劲。
有计划昔日,咱们302.AI会合手续更新更多最新、最强的模子,竭力于知足用户日益增长的需乞降期待,接待公共来302.AI体验!
参考著作:
https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct
https://mp.weixin.qq.com/s/ebJkBkGAn8QS-_xVK__MMw