横轴是人类完成任务的时间,代表任务难度,纵轴是成功率
AI的成功率随着人类完成时间指数下降。
这是不是说杨立昆是对的?LLM 完成率指数下降,不是真正智能?
跟智能不智能的没啥关系,需要memory和attention在长窗口下的进一步提升
人类完成时间为什么代表任务难度
算十万遍1+1不也是花时间
应该指的是合理需要所花时间
就和程序运行时间O(n)一个道理吧
On a diverse set of multi-step software and reasoning tasks, we record the time needed to complete the task for humans with appropriate expertise.