新網站以人類智商量表為AI模型評分

一個名為「AI IQ」的新創專案，透過將以人類為中心的衡量標準——智商測試——應用於人工智慧，攪動了科技界。該平台已為全球超過50個最強大的語言模型估算出智力商數，並在傳統上用於人類認知能力的量表上進行排名。結果已經引發了意見分歧。有些模型得分出奇地高，可與人類平均智商分數匹敵甚至超越，而其他模型則表現不佳。該專案的創作者主張，使用像智商這樣熟悉的指標，能讓一般大眾更容易理解AI的能力。與其使用「參數數量」或「困惑度分數」等技術術語，用戶現在可以看到一個簡單的數字，暗示該模型有多「聰明」。然而，該方法論已招致AI研究人員的嚴厲批評。許多人認為，人類智商測試衡量的是特定的認知能力，如邏輯推理、空間意識和語言理解——這些特質可能無法直接轉化為AI的表現。一個擅長數學推理的AI可能在智商測試中獲得高分，但在需要常識或情緒智商的任務上卻可能徹底失敗。批評者也指出，AI模型與人類心智在本質上是不同的。它們並非以人類的意義進行「思考」或「理解」；它們處理的是資料中的模式。將其能力簡化為單一數字可能會產生誤導，並助長對AI能做與不能做之事抱持不切實際的期望。 AI IQ的支持者則反駁說，任何衡量標準都比沒有好。他們認為，該專案引發了關於在機器時代我們如何定義智慧的重要對話。智慧是解決問題的能力嗎？是快速學習的能力嗎？是適應新情境的能力嗎？這場辯論遠未塵埃落定。無論個人立場為何，AI IQ在一件事上已經成功了：它讓人們批判性地思考我們如何評估人工智慧。隨著AI變得越來越融入日常生活，這個問題只會變得更加重要。

新網站以人類智商量表為AI模型評分

相关资讯