Model Update2026-05-14
VentureBeat
新網站以人類智商量表為AI模型評分
一個名為「AI IQ」的新創專案,透過將以人類為中心的衡量標準——智商測試——應用於人工智慧,攪動了科技界。該平台已為全球超過50個最強大的語言模型估算出智力商數,並在傳統上用於人類認知能力的量表上進行排名。
結果已經引發了意見分歧。有些模型得分出奇地高,可與人類平均智商分數匹敵甚至超越,而其他模型則表現不佳。該專案的創作者主張,使用像智商這樣熟悉的指標,能讓一般大眾更容易理解AI的能力。與其使用「參數數量」或「困惑度分數」等技術術語,用戶現在可以看到一個簡單的數字,暗示該模型有多「聰明」。
然而,該方法論已招致AI研究人員的嚴厲批評。許多人認為,人類智商測試衡量的是特定的認知能力,如邏輯推理、空間意識和語言理解——這些特質可能無法直接轉化為AI的表現。一個擅長數學推理的AI可能在智商測試中獲得高分,但在需要常識或情緒智商的任務上卻可能徹底失敗。
批評者也指出,AI模型與人類心智在本質上是不同的。它們並非以人類的意義進行「思考」或「理解」;它們處理的是資料中的模式。將其能力簡化為單一數字可能會產生誤導,並助長對AI能做與不能做之事抱持不切實際的期望。
AI IQ的支持者則反駁說,任何衡量標準都比沒有好。他們認為,該專案引發了關於在機器時代我們如何定義智慧的重要對話。智慧是解決問題的能力嗎?是快速學習的能力嗎?是適應新情境的能力嗎?這場辯論遠未塵埃落定。
無論個人立場為何,AI IQ在一件事上已經成功了:它讓人們批判性地思考我們如何評估人工智慧。隨著AI變得越來越融入日常生活,這個問題只會變得更加重要。
