百度360必应搜狗淘宝本站头条
当前位置:网站首页 > IT技术 > 正文

编程革命彻底爆发!刚刚,OpenAI最强智能体上线ChatGPT

wptr33 2025-05-26 19:22 20 浏览

编辑:编辑部 YXH

【新智元导读】OpenAI最强AI编程智能体真的来了!Codex震撼上线,由o3优化版codex-1加持,多任务并行,半小时干完数天软件工程任务。


从今天起,AI编程正式开启新时代!

刚刚,Greg Brockman带队与OpenAI六人团队开启线上直播,震撼发布了一款云端AI编程智能体——Codex。

用奥特曼的话来说就是,一个人就能打造无数爆款应用的时代来了!

Codex由新模型codex-1加持,这是o3的一个特调版本,专为软件工程量身打造。

它不仅能在云端沙盒环境中安全地并行处理多项任务,而且通过与GitHub无缝集成,还可以直接调用你的代码库。

它不仅仅是一款工具,更是一位「10x工程师」,能够同时做到:

  • 快速构建功能模块
  • 深入解答代码库问题
  • 精准修复代码漏洞
  • 提交PR
  • 自动执行测试验证

过去,这些任务或许耗费开发者数小时乃至数日,如今Codex最多在30分钟内高效完成。

点击ChatGPT侧边栏,输入提示后,直接点击「代码」分配任务,或「提问」咨询代码库相关问题

通过强化学习,Codex基于真实世界的编码任务和多样化环境训练,生成的代码不仅符合人类偏好,还能无缝融入标准工作流。

基准测试显示,codex-1在SWE-bench上拿下72.1%的高分,一举击败了Claude 3.7以及o3-high。

今天起,Codex将向全球ChatGPT Pro、Enterprise和Team用户正式开放,Plus和Edu用户很快就能上手了。

可以说,AI编程智能体Codex的横空出世,或将重塑软件开发的底层逻辑,彻底点燃了编程革命的火种。

Codex多任务并行,AI编程超级加速器

早在2021年,OpenAI首次发布了CodeX模型,开启了「氛围编程」(vibe coding)的时代。

这种编程方式让开发者与AI协同工作,代码生产变得更加直观、高效。

几周前,OpenAI又推出了CodeX CLI,一款可在本地终端运行的智能体。

但这只是开始!

OpenAI今天推出全新的Codex智能体,再次将软件工程推向一个全新的高度。

接下来,一睹Codex编码的惊艳表现吧。

连接GitHub账户后,OpenAI研究员Thibault Sottiaux选择了一个开源仓库preparedness repo。

然后,他收到了三个任务:

  • 第一个是提问:让代码智能体Codex解释代码库,说明整体结构
  • 第二个是代码任务:要求在代码库中查找并修复某个地方bug
  • 第三个任务是提问:遍历代码库,主动提出自己可以执行的任务建议

接下来演示中,Thibault向Codex下达多个任务,比如拼写和语法纠错、智能任务委派、多仓库适配。

在纠错方面,他故意在指令中加入拼写错误,Codex不仅理解了意图,还主动找出了代码库中的拼写和语法问题并修复,细致到令人惊叹。

当Thibault提出希望代码库「易维护、无bug」的目标时,Codex遍历代码库后,主动发现了可变默认值、不一致的超时设置等问题,并自行生成了修复任务。

这种「自我委派」能力,堪称智能体的巅峰表现。

值得注意的是,Codex智能体运行在OpenAI计算基础设施上,与强化学习共享同一套久经考验的系统。

每个任务都在独立的虚拟沙盒中运行,配备专属的文件系统、CPU、内存、和网络策略,确保了高效安全。

除了preparedness仓库,Codex还无缝处理了CodeX CLI库,展现其在不同项目中的泛化能力。

不论是开源项目,还是内部代码库,Codex都游刃有余。

Codex接收到了用户反馈的bug,因为特殊字符文件名导致了diff命令报错。

在解决过程中,它不仅能复现问题,还可以编写测试脚本、运行linter检查,并生成PR,整个过程仅需几分钟。

Thibault直言,「这原本可能花费我30分钟,甚至几个小时完成」。

此外,OpenAI研究员Katy Shi演示中强调,Codex的PR包含了详细的摘要,清晰说明了修改内容和引用的代码,测试结果一目了然。

一番演示下来,Greg表示,Codex让自己深刻感受到了AGI!

对齐人类偏好

实战4个开源库

OpenAI训练codex-1的一个主要目标,是确保其输出能高度符合人类的编码偏好与标准。

与OpenAI o3相比,codex-1能稳定生成更为简洁的代码修改补丁,可以直接供人工审查并集成到标准工作流程中。

为了体现Codex生成代码的简洁和高效,OpenAI提供了Codex和o3对比的4个开源库实战实例:

astropy

astropy是一个用于天文学的Python开源库。

第一个问题是astropy/astropy的仓库中,Modeling模块中的separability_matrix无法正确计算嵌套CompoundModels的可分离性。

可以看到,在修改前后的代码版本对比中,使用Codex修改生成了十分简洁的代码。

相比之下,o3修改的代码就显得有些冗长了,甚至还将一些「不必要」的注释加入了源代码中。

matplotlib


Matplotlib是一个用于创建静态、动画和交互式可视化的Python综合性库。

这次问题是修复Bug:在mlab._spectral_helper中的窗口校正(windows correction)不正确。

同样可以看到,Codex修改代码的过程更为简洁。

django


Django是基于Python的Web框架,这个问题是修复仅包含duration(时长)的表达式在SQLite和MySQL上无法正常工作。

Codex的修复过程依然优雅,并且相比o3,还首先补上了缺少的依赖调用。

expensify


expensify是一个围绕聊天的财务协作的开源软件。

OpenAI给出的问题是「dd [HOLD for payment 2024-10-14] [$250] LHN - 删除缓存后,成员聊天室名称在LHN中未更新」。

同样可以看到Codex的问题定位和修改更为精准和有效,o3甚至进行了一次无效的代码的修改。

OpenAI团队已经用上了

OpenAI的技术团队已经开始将Codex作为他们日常工具包的一部分。

OpenAI的工程师最常使用Codex来执行重复且范围明确的任务,如重构、重命名和编写测试,这些任务会打断他们的专注。

它同样适用于搭建新功能、连接组件、修复错误和起草文档。

团队正在围绕Codex建立新的习惯:处理值班问题、在一天开始时规划任务,以及执行后台工作以保持进度。

通过减少上下文切换和提醒被遗忘的待办事项,Codex帮助工程师更快地交付并专注于最重要的事情。

在正式发布前,OpenAI与少数外部测试者合作,评估Codex在不同代码库、开发流程与团队环境中的实际表现:

  • Cisco作为早期设计合作伙伴,探索Codex在加速工程团队构思落地方面的潜力,并通过评估真实用例向OpenAI提供反馈,助力模型优化。
  • Temporal借助Codex实现功能开发、问题调试、测试编写与执行的加速,并用于重构大型代码库。Codex还能在后台处理复杂任务,帮助工程师保持专注与高效迭代。
  • Superhuman利用Codex自动处理小型重复任务,如提高测试覆盖率和修复集成故障;还使产品经理能够无需工程介入(除代码审查外)完成轻量级代码更改,提升配对效率。
  • Kodiak在Codex支持下加速调试工具开发、测试覆盖和代码重构,推进其自动驾驶系统Kodiak Driver的研发。Codex也作为参考工具,帮助工程师理解陌生代码栈,提供相关上下文与历史更改。

根据目前的使用经验来看,OpenAI建议:可同时向多个代理分配边界清晰的任务,并尝试多种任务类型与提示方式,以更全面地发掘模型能力。

模型系统消息


通过以下系统消息,开发者可以了解codex-1的默认行为,并针对自己的工作流进行调整。

例如,系统消息会引导Codex运行AGENTS.md文件中提到的所有测试,但如果时间紧张,就可以要求Codex跳过这些测试。

# Instructions
- The user will provide a task.
- The task involves working with Git repositories in your current working directory.
- Wait for all terminal commands to be completed (or terminate them) before finishing.


# Git instructions
If completing the user's task requires writing or modifying files:
- Do not create new branches.
- Use git to commit your changes.
- If pre-commit fails, fix issues and retry.
- Check git status to confirm your commit. You must leave your worktree in a clean state.
- Only committed code will be evaluated.
- Do not modify or amend existing commits.


# AGENTS.md spec
- Containers often contain AGENTS.md files. These files can appear anywhere in the container's filesystem. Typical locations include `/`, `~`, and in various places inside of Git repos.
- These files are a way for humans to give you (the agent) instructions or tips for working within the container.
- Some examples might be: coding conventions, info about how code is organized, or instructions for how to run or test code.
- AGENTS.md files may provide instructions about PR messages (messages attached to a GitHub Pull Request produced by the agent, describing the PR). These instructions should be respected.
- Instructions in AGENTS.md files:
  - The scope of an AGENTS.md file is the entire directory tree rooted at the folder that contains it.
  - For every file you touch in the final patch, you must obey instructions in any AGENTS.md file whose scope includes that file.
  - Instructions about code style, structure, naming, etc. apply only to code within the AGENTS.md file's scope, unless the file states otherwise.
  - More-deeply-nested AGENTS.md files take precedence in the case of conflicting instructions.
  - Direct system/developer/user instructions (as part of a prompt) take precedence over AGENTS.md instructions.
- AGENTS.md files need not live only in Git repos. For example, you may find one in your home directory.
- If the AGENTS.md includes programmatic checks to verify your work, you MUST run all of them and make a best effort to validate that the checks pass AFTER all code changes have been made.
  - This applies even for changes that appear simple, i.e. documentation. You still must run all of the programmatic checks.


# Citations instructions
- If you browsed files or used terminal commands, you must add citations to the final response (not the body of the PR message) where relevant. Citations reference file paths and terminal outputs with the following formats:
  1) `【F:<file_path>+L<line_start>(-L<line_end>)?】`
  - File path citations must start with `F:`. `file_path` is the exact file path of the file relative to the root of the repository that contains the relevant text.
  -`line_start` is the 1-indexed start line number of the relevant output within that file.
  2) `【<chunk_id>+L<line_start>(-L<line_end>)?】`
  - Where `chunk_id` is the chunk_id of the terminal output, `line_start` and `line_end` are the 1-indexed start and end line numbers of the relevant output within that chunk.
- Line ends are optional, and if not provided, line end is the same as line start, so only 1 line is cited.
- Ensure that the line numbers are correct, and that the cited file paths or terminal outputs are directly relevant to the word or clause before the citation.
- Do not cite completely empty lines inside the chunk, only cite lines that have content.
- Only cite from file paths and terminal outputs, DO NOT cite from previous pr diffs and comments, nor cite git hashes as chunk ids.
- Use file path citations that reference any code changes, documentation or files, and use terminal citations only for relevant terminal output.
- Prefer file citations over terminal citations unless the terminal output is directly relevant to the clauses before the citation, i.e. clauses on test results.
  - For PR creation tasks, use file citations when referring to code changes in the summary section of your final response, and terminal citations in the testing section.
  - For question-answering tasks, you should only use terminal citations if you need to programmatically verify an answer (i.e. counting lines of code). Otherwise, use file citations.

Codex CLI更新

上个月,OpenAI推出了一款轻量级开源工具——Codex CLI,可以让o3和o4-mini等强大模型直接运行在本地终端中,帮助开发者更快完成任务。

这一次,OpenAI同时发布了专为Codex CLI优化的小模型版本——codex-1的o4-mini版本

它具备低延迟、强指令理解力和代码编辑能力,现已成为Codex CLI的默认模型,同时也可通过API使用(名称为codex-mini-latest),并将持续迭代更新。

此外,Codex CLI的登录方式也简化了,开发者现在可以直接用ChatGPT账户登录,选择API组织,系统将自动生成并配置API密钥。

为了鼓励使用,从今天起30天内,使用ChatGPT账户登录Codex CLI的用户将获得免费额度:Plus用户获得5美元API使用额度;Pro用户获得50美元。

Codex贵不贵

在接下来的几周内,所有用户可以「量大管饱」的试用Codex功能。

随后,OpenAI将引入限流机制和灵活定价,支持按需购买额外使用量。

对于开发者,codex-mini-latest模型已在Responses API上提供,价格为:

  • 每百万输入Token:$1.50
  • 每百万输出Token:$6.00
  • 并享有75%的提示缓存折扣

Codex当前仍处于研究预览阶段,尚不支持图像输入等前端能力,也暂不具备在任务执行中进行实时纠正的能力。

此外,委派任务给Codex智能体的响应时间较长,用户可能需要适应这类异步协作的工作方式。

随着模型能力不断提升,Codex将能处理更复杂、更持久的开发任务,逐步成为更像「远程开发伙伴」的存在。

下一步是什么

OpenAI的目标是开发者专注自己擅长的工作,其余任务交由AI代理处理,从而提升效率与生产力。

Codex将支持实时协作异步任务委托,两种工作模式将逐步融合。

Codex CLI等工具已经成为开发者加速编码的标配,而由ChatGPT中的Codex引领的异步、多智能体协作流程,有望成为工程师高效产出高质量代码的新范式。

未来,开发者将能在IDE和日常工具中与AI协同工作——提问、获取建议、委派复杂任务,所有操作整合在一个统一的工作流程中。

OpenAI计划进一步提升交互性和灵活性:

  • 支持任务中途提供指导
  • 与AI协作实施策略
  • 接收主动进度更新
  • 与常用工具(如GitHub、CLI、问题跟踪器、CI系统)深度集成,便捷分配任务

软件工程正成为首批因AI而大幅提效的行业之一,将全面释放个人与小团队的巨大潜力。

与此同时,OpenAI也正与合作伙伴共同研究智能体的广泛应用将如何影响开发流程、技能发展和全球人才分布。

相关推荐

redis的八种使用场景

前言:redis是我们工作开发中,经常要打交道的,下面对redis的使用场景做总结介绍也是对redis举报的功能做梳理。缓存Redis最常见的用途是作为缓存,用于加速应用程序的响应速度。...

基于Redis的3种分布式ID生成策略

在分布式系统设计中,全局唯一ID是一个基础而关键的组件。随着业务规模扩大和系统架构向微服务演进,传统的单机自增ID已无法满足需求。高并发、高可用的分布式ID生成方案成为构建可靠分布式系统的必要条件。R...

基于OpenWrt系统路由器的模式切换与网页设计

摘要:目前商用WiFi路由器已应用到多个领域,商家通过给用户提供一个稳定免费WiFi热点达到吸引客户、提升服务的目标。传统路由器自带的Luci界面提供了工厂模式的Web界面,用户可通过该界面配置路...

这篇文章教你看明白 nginx-ingress 控制器

主机nginx一般nginx做主机反向代理(网关)有以下配置...

如何用redis实现注册中心

一句话总结使用Redis实现注册中心:服务注册...

爱可可老师24小时热门分享(2020.5.10)

No1.看自己以前写的代码是种什么体验?No2.DooM-chip!国外网友SylvainLefebvre自制的无CPU、无操作码、无指令计数器...No3.我认为CS学位可以更好,如...

Apportable:拯救程序员,IOS一秒变安卓

摘要:还在为了跨平台使用cocos2d-x吗,拯救objc程序员的奇葩来了,ApportableSDK:FreeAndroidsupportforcocos2d-iPhone。App...

JAVA实现超买超卖方案汇总,那个最适合你,一篇文章彻底讲透

以下是几种Java实现超买超卖问题的核心解决方案及代码示例,针对高并发场景下的库存扣减问题:方案一:Redis原子操作+Lua脚本(推荐)//使用Redis+Lua保证原子性publicbo...

3月26日更新 快速施法自动施法可独立设置

2016年3月26日DOTA2有一个79.6MB的更新主要是针对自动施法和快速施法的调整本来内容不多不少朋友都有自动施法和快速施法的困扰英文更新日志一些视觉BUG修复就不翻译了主要翻译自动施...

Redis 是如何提供服务的

在刚刚接触Redis的时候,最想要知道的是一个’setnameJhon’命令到达Redis服务器的时候,它是如何返回’OK’的?里面命令处理的流程如何,具体细节怎么样?你一定有问过自己...

lua _G、_VERSION使用

到这里我们已经把lua基础库中的函数介绍完了,除了函数外基础库中还有两个常量,一个是_G,另一个是_VERSION。_G是基础库本身,指向自己,这个变量很有意思,可以无限引用自己,最后得到的还是自己,...

China&#39;s top diplomat to chair third China-Pacific Island countries foreign ministers&#39; meeting

BEIJING,May21(Xinhua)--ChineseForeignMinisterWangYi,alsoamemberofthePoliticalBureau...

移动工作交流工具Lua推出Insights数据分析产品

Lua是一个适用于各种职业人士的移动交流平台,它在今天推出了一项叫做Insights的全新功能。Insights是一个数据平台,客户可以在上面实时看到员工之间的交流情况,并分析这些情况对公司发展的影响...

Redis 7新武器:用Redis Stack实现向量搜索的极限压测

当传统关系型数据库还在为向量相似度搜索的性能挣扎时,Redis7的RedisStack...

Nginx/OpenResty详解,Nginx Lua编程,重定向与内部子请求

重定向与内部子请求Nginx的rewrite指令不仅可以在Nginx内部的server、location之间进行跳转,还可以进行外部链接的重定向。通过ngx_lua模块的Lua函数除了能实现Nginx...