计算机行业点评报告：OpenAI day2更新发布，强化微调计划扩展-华鑫证券-20241224-每日投研

　　事件

　　当地时间12月4日，人工智能头部公司OpenAI宣布，从当地时间12月5日开始，将在12天内进行12场发布会直播，期间将展示公司的新产品、新技术和新功能。直播第二日，OpenAI发布了强化微调技术，并邀请机构、学校和企业参与研究计划。

　　投资要点

　　强化微调技术发布，内测结果出色

　　12月7日，在发布会的第二场直播上，OpenAI发布强化微调（Reinforcement Fine-Tuning）技术，强化微调是一种模型定制技术，能够帮助开发人员、研究人员及机器工程师利用强化学习创建在特定领域完成任务的专家模型。

　　微调技术迭代更新，模型自主强化学习。OpenAI在去年年初曾推出过监督微调，即让模型模仿输入的文本或图像的特征，可用于修改模型的语气、样式或响应格式等。最新推出的强化微调则更进一步，不仅可以模仿输入，更是教会模型以新的方式在自定义领域中进行推理，强化正确答案的思维路径，抑制错误答案的思路。具体而言，开发人员可以使用数十到数千个高质量任务来定制模型，并根据提供的参考答案对模型的响应进行评分。这项技术强化了模型如何推理类似问题，并提高其在该领域特定任务上的准确性。

　　实例测试强化微调，输出结果表现出色。发布会上，研究人员通过罕见遗传病的预测展示了强化微调技术的强大功能。向o1-mini提供一份约1100个示例的数据集，其中的病例报告包含了患者症状描述和非该病症的症状列表，向模型输入指令（输出可能导致该遗传病的基因及原因），并提供一份正确答案（训练时不向模型展示，用于检查模型输出答案的正确性），最后对模型结果进行评分。从测试结果可以看到，在推理遗传病基因任务的top@1指标上，经过强化微调的o1-mini准确率能够达到31%，超出初始o1-mini的17%和o1的25%，在top@5、top@max指标上依旧表现优异。

　　强化微调研究计划助力开发人员处理特定任务

　　强化微调技术将于明年正式推出，OpenAI正在扩展强化微调研究计划，致力于使开发人员和机器学习工程师能够创建经过微调的专家模型，以处理特定领域的复杂任务。OpenAI已向研究机构、大学和企业发出邀请，特别鼓励那些目前由专家领导执行复杂任务，并将从AI协助中受益的企业申请该项研究计划。这项计划预计在法律、保险、医疗保健、金融和工程等领域有积极结果，因为强化微调擅长那些结果为大多数专家所认同的客观“正确”的任务。

　　投资建议

　　OpenAI发布活动显示技术更新迅速。我们认为，随着强化微调的进一步推进与应用，AI技术的深度整合预计将带动部分科技公司的长期增长。

　　此外，科技巨头在AI及云计算领域的领先地位有望助力其在未来信息产业中的稳步增长，可继续关注谷歌（GOOGL.0）和微软（MSFT.0）。

　　风险提示

　　宏观经济波动导致市场需求不足预期；未来AI研发进展不及预期；端侧AI产品销售业绩不及预期。

声明：1、本站部分资源来自于网络，如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。
2、如遇本站资源无法下载、无法查看，请计时联系我们，站长将第一时间修复。

行业研报

相关文章