准备开挂?普通人有望成为科研专家?
创作者俱乐部成员
今天凌晨,Day 2准时开启。还是个4人座谈会。没有山姆,由OpenAI高管MarK领衔同事John Allerton 、Julie Wong、 和一位研究员Justin Reese出镜。时长20分钟。
直播的重点内容—强化微调(Reinforcement Fine-Tuning,简称RFT)。这是个只需要一点点数据样本就能AI更聪明的技术,所以我感觉这项技术可以让普通人开挂了,大家只要能通过少量样本训练出专家级别的AI模型,解决专业领域的难题。
什么是强化微调
o1不同于常规大语言模型,会先推理再总结,更像是Agent,所以不同于常规大模型的微调,在o1上的微调使用了更先进的微调技术:强化微调(RFT),可以让更小的数据更(有时仅需几十个样本)也能实现显著性能提升。
使用强化微调前需要准备训练数据集和验证数据集,训练数据集会告诉AI什么样的回答是正确的。然后,验证数据集来检查AI是否真正学会了。在这个过程中,还会用到一个评分器,它会根据AI的回答给出一个分数,帮助AI知道它做得好不好。
效果如何
罕见遗传病研究人员,使用强化微调训练GPT o1 Mini模型。这个模型学会了有效推理罕见疾病的成因,并在性能上超越了更大的GPT o1模型
个人用户能用吗?
目前,这项技术还处于Alpha测试阶段,主要是面向那些和专家团队一起处理复杂任务的组织。别说个人用户了,就是专业人士可能需要等到明年才能用上。
个人看法
这是个很牛的技术,它不仅能让AI在特定领域变得更加专业,而且还能大幅减少训练所需的数据量。在回答博士级科学问题(GPQA Diamond)的对比上,GPT-4o、人类专家、o1的准确率分别是56.1%、69.7%、78%,已经证明o1在处理复杂内容的水平已经达到博士生水平了,现在再通过强化微调技术加强专业化的训练,别说科学家了,如果你是个普通人对某个领域想研究,收集训练数据集和验证数据集,就可以经行尝试了。不过具体使用效果还需要看明年发布后了。尽管现在还不会出现重大技术突破(如GPT-5),但在迭代改进方面将持续取得进展。不难想象未来到来的速度会更快
作者简介
Oscar,金山办公最有价值专家KVP,WPS创作者俱乐部成员,23年8月、11月月度优质作者
专注WPS AI 的文字功能,链接我,请点击个人主页
个人社区经历→【百帖里程碑】23年我在WPS社区的成长回顾