Model Update2026-05-14
VentureBeat
新网站按人类智商标准为AI模型评分
一个名为AI IQ的新初创项目正在科技界引起轰动,它将一种以人类为中心的衡量标准——智商测试——应用于人工智能。该平台为全球50多个最强大的语言模型分配了估计的智商分数,按照传统用于人类认知能力的标准对它们进行排名。
结果已经引发了意见分歧。一些模型得分出人意料地高,甚至超过或达到人类平均智商水平,而另一些则表现不佳。该项目的创建者认为,使用像智商这样熟悉的指标,使AI能力对公众来说更易理解和接受。用户不再需要理解像“参数数量”或“困惑度分数”这样的技术术语,而是可以看到一个简单的数字,表明模型有多“聪明”。
然而,这种方法受到了AI研究人员的尖锐批评。许多人认为,人类智商测试衡量的是特定的认知能力,如逻辑推理、空间意识和语言理解——这些特质可能无法直接转化为AI性能。一个擅长数学推理的AI可能在智商测试中得分很高,但在需要常识或情商的任务上却表现糟糕。
批评者还指出,AI模型与人类思维根本不同。它们不以人类的方式“思考”或“理解”;它们处理数据中的模式。将它们的能力简化为一个单一数字可能会产生误导,并助长对AI能做什么和不能做什么的不切实际的期望。
AI IQ的支持者反驳说,任何衡量标准都比没有好。他们认为该项目引发了关于在机器时代如何定义智能的重要讨论。智能是解决问题的能力吗?是快速学习的能力吗?是适应新环境的能力吗?这场辩论远未结束。
无论立场如何,AI IQ在一件事上取得了成功:让人们批判性地思考我们如何评估人工智能。随着AI变得越来越融入日常生活,如何衡量其能力的问题只会变得更加重要。
