准备开挂？普通人有望成为科研专家？

创作者俱乐部成员

今天凌晨，Day 2准时开启。还是个4人座谈会。没有山姆，由OpenAI高管MarK领衔同事John Allerton 、Julie Wong、和一位研究员Justin Reese出镜。时长20分钟。

直播的重点内容—强化微调（Reinforcement Fine-Tuning，简称RFT）。这是个只需要一点点数据样本就能AI更聪明的技术，所以我感觉这项技术可以让普通人开挂了，大家只要能通过少量样本训练出专家级别的AI模型，解决专业领域的难题。

什么是强化微调

o1不同于常规大语言模型，会先推理再总结，更像是Agent,所以不同于常规大模型的微调，在o1上的微调使用了更先进的微调技术：强化微调（RFT）,可以让更小的数据更（有时仅需几十个样本）也能实现显著性能提升。

使用强化微调前需要准备训练数据集和验证数据集，训练数据集会告诉AI什么样的回答是正确的。然后，验证数据集来检查AI是否真正学会了。在这个过程中，还会用到一个评分器，它会根据AI的回答给出一个分数，帮助AI知道它做得好不好。

效果如何

罕见遗传病研究人员，使用强化微调训练GPT o1 Mini模型。这个模型学会了有效推理罕见疾病的成因，并在性能上超越了更大的GPT o1模型

个人用户能用吗？

目前，这项技术还处于Alpha测试阶段，主要是面向那些和专家团队一起处理复杂任务的组织。别说个人用户了，就是专业人士可能需要等到明年才能用上。

个人看法

这是个很牛的技术，它不仅能让AI在特定领域变得更加专业，而且还能大幅减少训练所需的数据量。在回答博士级科学问题(GPQA Diamond)的对比上，GPT-4o、人类专家、o1的准确率分别是56.1%、69.7%、78%，已经证明o1在处理复杂内容的水平已经达到博士生水平了，现在再通过强化微调技术加强专业化的训练，别说科学家了，如果你是个普通人对某个领域想研究，收集训练数据集和验证数据集，就可以经行尝试了。不过具体使用效果还需要看明年发布后了。尽管现在还不会出现重大技术突破（如GPT-5），但在迭代改进方面将持续取得进展。不难想象未来到来的速度会更快

作者简介

Oscar，金山办公最有价值专家KVP，WPS创作者俱乐部成员，23年8月、11月月度优质作者

专注WPS AI 的文字功能，链接我，请点击个人主页

个人社区经历→【百帖里程碑】23年我在WPS社区的成长回顾

2024-12-07 11:55:15 浙江省

6 +1