OPEN AI创始人之一karpathy:对AI革命分歧巨大,大家误以为AI蠢,是因为没有付费买聪明的
karpathy:从我的时间线来看,人们对人工智能能力的理解存在越来越大的差距。我认为第一个问题在于使用时间的长短和使用层级。很多人去年可能试用过ChatGPT的免费版本,并因此对人工智能产生了过分的认知。他们纷纷嘲笑模型的各种怪癖、幻觉等等。没错,我也看过OpenAI高级语音模式的病毒式传播视频,它连“我应该开车还是走路去洗车”这种简单的问题都回答不好。问题在于,这些免费的、老旧的模型并不能反映今年最新一批最先进的智能体模型的能力,尤其是OpenAI Codex和Claude Code。但这引出了第二个问题。即使人们每月支付200美元来使用这些最先进的模型,它们的能力也大多集中在一些高度技术领域,存在一定的“峰值”。搜索、写作、建议等典型查询领域,并非人工智能能力进步最显著、最迅猛的领域。部分原因在于强化学习的技术细节及其对可验证奖励的使用。但部分原因也在于,这些用例在公司进行技术攀登时并未得到足够的重视,因为它们带来的经济价值并不高。真正的金矿在别处,关注点自然也随之转移。这就引出了第二类人群,他们既 1) 付费使用最先进的前沿智能体模型(OpenAI Codex / Claude Code),又 2) 在编程、数学和研究等技术领域从事专业工作。这类人群最容易患上“人工智能综合症”,因为今年以来这些领域的进步可谓惊人。当你把电脑终端交给这些模型时,你现在就能看到它们轻松解决那些通常需要花费数天甚至数周才能完成的编程难题。正是第二类人更加重视这些能力、发展趋势以及各种网络安全相关的后果。简而言之,这两类人之间存在着沟通障碍。OpenAI 免费且我认为有点被冷落的“高级语音模式”确实会连你在 Instagram 短视频里问的最愚蠢的问题都答不上来,但与此同时,OpenAI 最高级别的付费 Codex 模型却能在短短一小时内,系统地重构整个代码库,或者发现并利用计算机系统中的漏洞。这部分之所以行之有效并取得了显著进展,是因为有两个特性:1)这些领域提供了可验证的明确奖励函数,这意味着它们很容易进行强化学习训练(例如,单元测试通过与否,这与编写代码相比,编写代码很难明确判断);2)它们在 B2B 环境中更有价值。这意味着团队中大部分人都致力于改进这些问题。所以,我们现在的情况就是这样。
人工智能
