$OneMillion-Bench：價值百萬美金的專家級白領任務，AI 已經能做大半了

2026-03-10 11:33:31 消費快報網

評論

　　如果有價值 $100 萬美金的頂級專家任務，AI 能完成其中多少？

　　答案是 48 萬美金，而只需要 100 美元的 Token 費用。

　　這個數字怎么來的？Humanlaya Data Lab 聯合北京通用人工智能研究院（BIGAI）、xbench、M-A-P，招募來自 Morgan Stanley、世達（Skadden）、協和醫院、國家電網、清華大學等頂級機構或學府的 100+ 位資深專家，耗時 2000+ 小時，構建了等價于人類專家工作價值百萬美元級評測基準 —— $OneMillion-Bench。

　　隨著 OpenClaw 的爆火，人們越來越關注 AI Agent 能夠實際替人類完成的任務。$OneMillion-Bench 的核心想法很直白：用“人類專家的時間與成本”給任務定價，再用“是否滿足專家要求”衡量模型交付質量 —— 如果把 AI 當成“數字白領專家”，總價值 100 萬美金的任務，模型到底能賺多少錢？

圖片1.jpg

圖1：$OneMillion-Bench模型表現和其獲取的經濟價值

　　01「Agent 能掙錢」成為日常，但行業更缺一把尺：可交付、可復核、可控

　　從 2025 Agent 元年開始，AI 逐漸從“答題機”推進到“數字員工”，但業界現有評測集往往缺乏對實際經濟價值的衡量，區分度不足、難以自動化且僅有英文語境，因此，$OneMillion-Bench 構建了一套兼備高經濟價值 × 高區分度 × 可自動評測的基準。

　　它包含 400道高難題目（200個英文題 + 200個中文題），覆蓋金融、法律、醫療、自然科學與工業五大領域的92個三級領域，與常見的考試題不同，每道題都是真實行業場景下的開放專家任務，采用 Rubrics + LLM as Judge 評測。要求模型給出可落地的實操方案與判斷鏈路，在這些開放問題上，不僅回答“是什么”，更要說明“怎么做、按什么順序做、為什么這么做”。

圖片2.jpg

圖2：$OneMillion-Bench 5 個領域，37 個二級和 92 個三級細分類別

　　之所以是 $OneMillion，是因為這些任務真的很「貴」。

　　不同于傳統只評估模型準確率的榜單，我們用“錢”來標價每一道題的現實勞動價值 —— 任務經濟價值 = 資深專家完成該任務的耗時 × 專家時薪。時薪錨定官方或行業權威數據，如中國部分城市人社局、美國勞工統計局，任務的耗時來自多個領域專家的共同評估。據此，把所有任務的經濟價值加和計算后，超過了 100 萬美元。如果在現實世界里把這些工作交給資深專家團隊完成，你需要支付的成本就是百萬美元量級。這樣一來，模型評測不再停留在分數上，而是更直觀地回答：AI 現在到底能穩定交付多少“可兌現價值”，以及距離真正上崗還差什么。

圖片3.jpg

表1：$OneMillion-Bench 經濟價值計算

　　02 四大關鍵設計：多樣化真實場景 + 高價值任務 + 非對稱負分機制 + 高質量與一致性

　?。?）經濟價值出發，構建高真實性、高含金量專家任務

　　我們在評測中引入用貨幣度量的“經濟價值”，核心是衡量模型在真實世界中能創造多少可交付的經濟價值。開放式問題很難用單一標準答案衡量，我們邀請一線資深專家將真實工作流拆解為細顆粒度考點：每道題設計 15–35 個考點，累計 7000+ 考點。題目覆蓋 5–15 年經驗從業者在真實場景中常見的典型任務，專家來自各類頭部機構，不只考知識點，更考驗特定場景下的專家級決策能力。

　?。?）引入“負分項”，防止 Reward Hacking

　　在開放式任務里，模型最容易走向“越說越多、看起來越專業”，蒙到考點就得分。為了避免虛高，我們加入行文邏輯和結構、扣分項考點。模型如果只是堆砌內容，沒有合理的邏輯展開，無法“撞到”高分。在考點分值設置上，我們采取 +10 ~ -20 的非對稱考點分值：正向能力給分更克制，明確或致命錯誤懲罰更重。這套結構的效果更接近真實使用體感 —— 做對不一定加分很多，但做錯往往會帶來更大代價。

　?。?）覆蓋 92 個三級分類，含 CN + Global 兩大子集單獨區分中國大陸題目，場景足夠真實、豐富

　　我們將任務細化到覆蓋 92 個三級分類的真實崗位工作流；CN 是中文題目，Global 是英文題目，收集本地化、真實的題目，盡量還原真實的法規、流程與業務語境，從而更精準刻畫不同模型在特定地域業務場景中的能力差異。

　?。?）一套“像生產線”的專家 Pipeline：讓高難 Rubrics 題可規?；⒖少|控

　　為了確保數據場景真實、考點合理，團隊在專家招募、選拔與培訓上投入大量成本，專家平均整體通過率低于 5%，題目最終質檢通過率 38.1%。數據生產采用 3-4 名專家協作的 Pipeline，包含對抗性評審與仲裁機制。在難度控制上，我們采取雙向截斷策略，剔除過易樣本，對于過難樣本二次復審，確保數據質量。

圖片4.jpg

圖3：$OneMillion-Bench題目示例

　　03 成績單解讀：SOTA 的分數已經合格，但距離交付仍有距離

　　目前最強模型通過率超過 40%，在 100 萬美元的任務上，大約可以產出 50 萬美元，而完成任務的 API 成本也就 100 美元左右！AI 不但已經能“干活”，而且在極高難度、極高單價的專業任務里，已經能交付相當可觀的美元級別的價值。

圖片5.jpg

表2：模型的平均通過率、平均分和可以產生的總經濟價值

　　Insight 1：成績已經合格，但離“可托付”還很遠

　　如果只看平均分，頭部模型已經進入了合格區間（60%+），第二梯隊也普遍在 50% 以上，說明 AI 在專業任務上確實能覆蓋不少關鍵點。但在真實工作里，平均分其實不夠用，未達到一定質量需要返工。因此，我們引入了更貼近落地的指標 —— 通過率（Pass Rate）：單題得分達到 70% 及以上，本題才算“通過”。

　　基于這個定義，本榜單的 Economic Value（經濟價值）也不是按平均分線性折算，而是嚴格按“可交付”口徑計算，只有通過的任務才計入“能賺到的錢”。平均分像“考試成績”，而通過率才是“上崗證”。

　　而從通過率的視角來看，即使是排名第一的 Claude Opus 4.6 Web Search，也驟降到 43.5%，即只有不到 45% 的任務可以通過驗收，第二梯隊多在 25~30% 區間徘徊。換句話說，平均分看起來“能用”，但能在一半以上任務里穩定達到可交付標準的模型，目前還不存在。

　　目前，AI 已經能穩定交付一部分題目、并且能賺到很可觀的價值，但榜單也清楚告訴我們另一半真相：距離可交付專業任務仍有相當一段路程。

　　Insight 2：Web Search 是一把雙刃劍

　　Web Search 工具調用通常能顯著補齊事實，尤其在經濟金融領域的時效性問題，同樣適用于醫療、工業、法律中不斷迭代和演進的規范和約束。

　　但它也會引入噪聲與“看似權威的錯誤來源”，從而出現波動甚至回退。下一階段競爭不只是“有沒有搜索”，而是“會不會搜索”以及搜索工具的效果如何：會不會選源、會不會交叉驗證、會不會把證據鏈寫進推理、會不會在噪聲下保持一致性。

　　Insight 3：復雜推理仍是通用瓶頸，方向正確但缺乏可執行的細節

　　模型擅長寫一段看起來連貫的解釋，但一旦任務需要深層理解、多步演繹、或在巨大可能空間里探索，就仍會出現深度不足與準確性波動。典型例子包括軟件工程、機器學習相關任務中的探索式問題。這類任務必須先建立結構，再做推導，再做反證，再回溯修正。模型往往會在中途跳步，或者用看似合理的敘述替代真正的推理。

　　此外，模型容易給出方向正確但是缺乏可執行細節的回復。比如在醫療場景下，需要的是可執行的臨床要素，但模型容易泛泛而談，遺漏關鍵點。自然科學任務里存在類似的對實驗條件的預期不足、對約束不夠細、機制鏈條理解淺。這種失敗在真實落地里殺傷力很大，因為它看起來“很對”，但沒有可實踐的信息量。

　　04 One Step Further —— 將把模型推進到“可交付”的那一步

　　如果站在 2024 年的視角，會覺得 AI 還是一個“大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大眾面前之后，我們看到的是另一件事：AI 已經能交付 50 萬美元級別的專業價值；接下來競爭的關鍵，是繼續提升這份價值，并且將這份價值變得更穩定、更可復核、更可控，使智能的邊際提升能直接轉化為生產力和收入。

　　$OneMillion-Bench 的意義不在于“再做一個排行榜”，而是把“數字員工”的能力邊界量化出來：你今天和未來可以放心把哪些工作交給它？

　　關于 Humanlaya

　　Humanlaya 是一家成立于 2025 年的 AI 數據實驗室，通過定義真實、高經濟價值的可驗證任務，推動大模型能力邊界的拓展與經濟價值的落地。

圖片6.jpg