国产精品一在线观看,黄色网一区二区,蜜桃av一区二区三区电影,亚洲天堂免费

華夏晚報  >   財經  >  正文

$OneMillion-Bench:價值百萬美金的專家級白領任務,AI 已經能做大半了

評論

  如果有價值 $100 萬美金的頂級專家任務,AI 能完成其中多少?

  答案是 48 萬美金,而只需要 100 美元的 Token 費用。

  這個數字怎么來的?Humanlaya Data Lab 聯合 北京通用人工智能研究院(BIGAI)、xbench、M-A-P,招募來自 Morgan Stanley、世達(Skadden)、協和醫院、國家電網、清華大學等頂級機構或學府的 100+ 位資深專家,耗時 2000+ 小時,構建了等價于人類專家工作價值百萬美元級評測基準 —— $OneMillion-Bench。

  隨著 OpenClaw 的爆火,人們越來越關注 AI Agent 能夠實際替人類完成的任務。$OneMillion-Bench 的核心想法很直白:用“人類專家的時間與成本”給任務定價,再用“是否滿足專家要求”衡量模型交付質量 —— 如果把 AI 當成“數字白領專家”,總價值 100 萬美金的任務,模型到底能賺多少錢?

圖片1.jpg

圖1:$OneMillion-Bench模型表現和其獲取的經濟價值

  01「Agent 能掙錢」成為日常,但行業更缺一把尺:可交付、可復核、可控

  從 2025 Agent 元年開始,AI 逐漸從“答題機”推進到“數字員工”,但業界現有評測集往往缺乏對實際經濟價值的衡量,區分度不足、難以自動化且僅有英文語境,因此,$OneMillion-Bench 構建了一套兼備高經濟價值 × 高區分度 × 可自動評測的基準。

  它包含 400道高難題目(200個英文題 + 200個中文題),覆蓋金融、法律、醫療、自然科學與工業五大領域的92個三級領域,與常見的考試題不同,每道題都是真實行業場景下的開放專家任務,采用 Rubrics + LLM as Judge 評測。要求模型給出可落地的實操方案與判斷鏈路,在這些開放問題上,不僅回答“是什么”,更要說明“怎么做、按什么順序做、為什么這么做”。

圖片2.jpg

圖2:$OneMillion-Bench 5 個領域,37 個二級和 92 個三級細分類別

  之所以是 $OneMillion,是因為這些任務真的很「貴」。

  不同于傳統只評估模型準確率的榜單,我們用“錢”來標價每一道題的現實勞動價值 —— 任務經濟價值 = 資深專家完成該任務的耗時 × 專家時薪。時薪錨定官方或行業權威數據,如中國部分城市人社局、美國勞工統計局,任務的耗時來自多個領域專家的共同評估。據此,把所有任務的經濟價值加和計算后,超過了 100 萬美元。如果在現實世界里把這些工作交給資深專家團隊完成,你需要支付的成本就是百萬美元量級。這樣一來,模型評測不再停留在分數上,而是更直觀地回答:AI 現在到底能穩定交付多少“可兌現價值”,以及距離真正上崗還差什么。

圖片3.jpg

表1:$OneMillion-Bench 經濟價值計算

  02 四大關鍵設計:多樣化真實場景 + 高價值任務 + 非對稱負分機制 + 高質量與一致性

 ?。?)經濟價值出發,構建高真實性、高含金量專家任務

  我們在評測中引入用貨幣度量的“經濟價值”,核心是衡量模型在真實世界中能創造多少可交付的經濟價值。開放式問題很難用單一標準答案衡量,我們邀請一線資深專家將真實工作流拆解為細顆粒度考點:每道題設計 15–35 個考點,累計 7000+ 考點。題目覆蓋 5–15 年經驗從業者在真實場景中常見的典型任務,專家來自各類頭部機構,不只考知識點,更考驗特定場景下的專家級決策能力。

 ?。?)引入“負分項”,防止 Reward Hacking

  在開放式任務里,模型最容易走向“越說越多、看起來越專業”,蒙到考點就得分。為了避免虛高,我們加入行文邏輯和結構、扣分項考點。模型如果只是堆砌內容,沒有合理的邏輯展開,無法“撞到”高分。在考點分值設置上,我們采取 +10 ~ -20 的非對稱考點分值:正向能力給分更克制,明確或致命錯誤懲罰更重。這套結構的效果更接近真實使用體感 —— 做對不一定加分很多,但做錯往往會帶來更大代價。

 ?。?)覆蓋 92 個三級分類,含 CN + Global 兩大子集單獨區分中國大陸題目,場景足夠真實、豐富

  我們將任務細化到覆蓋 92 個三級分類的真實崗位工作流;CN 是中文題目,Global 是英文題目,收集本地化、真實的題目,盡量還原真實的法規、流程與業務語境,從而更精準刻畫不同模型在特定地域業務場景中的能力差異。

 ?。?)一套“像生產線”的專家 Pipeline:讓高難 Rubrics 題可規?;⒖少|控

  為了確保數據場景真實、考點合理,團隊在專家招募、選拔與培訓上投入大量成本,專家平均整體通過率低于 5%,題目最終質檢通過率 38.1%。數據生產采用 3-4 名專家協作的 Pipeline,包含對抗性評審與仲裁機制。在難度控制上,我們采取雙向截斷策略,剔除過易樣本,對于過難樣本二次復審,確保數據質量。

圖片4.jpg

圖3:$OneMillion-Bench題目示例

  03 成績單解讀:SOTA 的分數已經合格,但距離交付仍有距離

  目前最強模型通過率超過 40%,在 100 萬美元的任務上,大約可以產出 50 萬美元,而完成任務的 API 成本也就 100 美元左右!AI 不但已經能“干活”,而且在極高難度、極高單價的專業任務里,已經能交付相當可觀的美元級別的價值。

圖片5.jpg

表2:模型的平均通過率、平均分和可以產生的總經濟價值

  Insight 1:成績已經合格,但離“可托付”還很遠

  如果只看平均分,頭部模型已經進入了合格區間(60%+),第二梯隊也普遍在 50% 以上,說明 AI 在專業任務上確實能覆蓋不少關鍵點。但在真實工作里,平均分其實不夠用,未達到一定質量需要返工。因此,我們引入了更貼近落地的指標 —— 通過率(Pass Rate):單題得分達到 70% 及以上,本題才算“通過”。

  基于這個定義,本榜單的 Economic Value(經濟價值)也不是按平均分線性折算,而是嚴格按“可交付”口徑計算,只有通過的任務才計入“能賺到的錢”。平均分像“考試成績”,而通過率才是“上崗證”。

  而從通過率的視角來看,即使是排名第一的 Claude Opus 4.6 Web Search,也驟降到 43.5%,即只有不到 45% 的任務可以通過驗收,第二梯隊多在 25~30% 區間徘徊。換句話說,平均分看起來“能用”,但能在一半以上任務里穩定達到可交付標準的模型,目前還不存在。

  目前,AI 已經能穩定交付一部分題目、并且能賺到很可觀的價值,但榜單也清楚告訴我們另一半真相:距離可交付專業任務仍有相當一段路程。

  Insight 2:Web Search 是一把雙刃劍

  Web Search 工具調用通常能顯著補齊事實,尤其在經濟金融領域的時效性問題,同樣適用于醫療、工業、法律中不斷迭代和演進的規范和約束。

  但它也會引入噪聲與“看似權威的錯誤來源”,從而出現波動甚至回退。下一階段競爭不只是“有沒有搜索”,而是“會不會搜索”以及搜索工具的效果如何:會不會選源、會不會交叉驗證、會不會把證據鏈寫進推理、會不會在噪聲下保持一致性。

  Insight 3:復雜推理仍是通用瓶頸,方向正確但缺乏可執行的細節

  模型擅長寫一段看起來連貫的解釋,但一旦任務需要深層理解、多步演繹、或在巨大可能空間里探索,就仍會出現深度不足與準確性波動。典型例子包括軟件工程、機器學習相關任務中的探索式問題。這類任務必須先建立結構,再做推導,再做反證,再回溯修正。模型往往會在中途跳步,或者用看似合理的敘述替代真正的推理。

  此外,模型容易給出方向正確但是缺乏可執行細節的回復。比如在醫療場景下,需要的是可執行的臨床要素,但模型容易泛泛而談,遺漏關鍵點。自然科學任務里存在類似的對實驗條件的預期不足、對約束不夠細、機制鏈條理解淺。這種失敗在真實落地里殺傷力很大,因為它看起來“很對”,但沒有可實踐的信息量。

  04 One Step Further —— 將把模型推進到“可交付”的那一步

  如果站在 2024 年的視角,會覺得 AI 還是一個“大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大眾面前之后,我們看到的是另一件事:AI 已經能交付 50 萬美元級別的專業價值;接下來競爭的關鍵,是繼續提升這份價值,并且將這份價值變得更穩定、更可復核、更可控,使智能的邊際提升能直接轉化為生產力和收入。

  $OneMillion-Bench 的意義不在于“再做一個排行榜”,而是把“數字員工”的能力邊界量化出來:你今天和未來可以放心把哪些工作交給它?

  關于 Humanlaya

  Humanlaya 是一家成立于 2025 年的 AI 數據實驗室,通過定義真實、高經濟價值的可驗證任務,推動大模型能力邊界的拓展與經濟價值的落地。

圖片6.jpg

圖片7.jpg

圖片8.jpg

圖片9.jpg


責編:hxq 


〖免責申明〗本文僅代表作者個人觀點,其圖片及內容版權僅歸原所有者所有。如對該內容主張權益請來函或郵件告之,本網將迅速采取措施,否則與之相關的糾紛本網不承擔任何責任。

注:凡注明來源非本站的作品,均轉載自其它媒體,并不代表本網贊同其觀點和對其真實性負責。

華夏晚報致力于資訊傳播,希望建立合作關系。若有任何不當請聯系我們。

聯系我們版權申明 |All Right Reserve 版權所有 鄂ICP備18002142號-2

版權為華夏晚報所有 未經同意不得復制或鏡像

国产精品一在线观看,黄色网一区二区,蜜桃av一区二区三区电影,亚洲天堂免费
欧美专区一区| 欧美91视频| 色婷婷精品视频| 国产精品一级在线观看| 久久国产88| 亚洲高清毛片| 美女福利一区二区三区| 国产伦理一区| 综合精品一区| 久久精品二区三区| 久久男人天堂| 成人午夜在线| 麻豆精品一区二区综合av| 日韩三级精品| 亚洲毛片一区| 伊人久久大香伊蕉在人线观看热v| 一区在线观看| 久久男女视频| 成人亚洲欧美| 97se综合| 久久美女性网| 激情久久五月| 国产专区一区| 亚洲精品中文字幕乱码| 久久亚洲国产| 久久精品动漫| 国产在线日韩| 欧美日韩高清| 国产99久久| 亚洲午夜精品久久久久久app| 日韩三区在线| 欧美成人精品| 欧美日韩一二三四| 91精品国产乱码久久久久久久| 久久蜜桃资源一区二区老牛| 激情婷婷欧美| 波多野结衣一区| 欧美色图国产精品| 日韩视频二区| 视频一区视频二区中文字幕| 亚洲精选成人| 欧美日韩午夜电影网| 国产伦精品一区二区三区千人斩| 国产精品免费不| 国产一区二区三区久久| 天堂а√在线最新版中文在线| 国产精品高颜值在线观看| 国产精品magnet| 国产精品多人| 国产精品蜜芽在线观看| 中文字幕系列一区| 国产视频一区在线观看一区免费| 六月天综合网| 欧美久久一区二区三区| 麻豆久久久久久| 电影天堂国产精品| 欧美资源在线| 国产精品亚洲片在线播放| 都市激情国产精品| 91成人精品| 日韩综合一区二区三区| 国产精品宾馆| 成人在线免费观看网站| 国产一区二区三区不卡av| 欧美三区四区| 亚洲一区区二区| 欧美日韩网址| 日韩欧美精品一区| 视频在线在亚洲| 国产精品久av福利在线观看| 日韩电影免费网址| 国产精品99免费看| 日韩中文字幕无砖| 久久69成人| 亚洲国产一区二区在线观看| 日本中文字幕一区二区视频| 国产亚洲字幕| 久久99高清| 日本不卡免费高清视频在线| 欧美日韩国产综合网| 日韩激情啪啪| 日韩欧美午夜| 日韩高清二区| 免费污视频在线一区| 亚洲区欧美区| 国产传媒av在线| 亚洲精品99| 国产毛片一区二区三区| 99精品电影| 久久精品 人人爱| 久久国产欧美| 国产美女精品视频免费播放软件| 成人午夜毛片| 自拍日韩欧美| 精品久久精品| 亚洲精品影院在线观看| 精品日产乱码久久久久久仙踪林| 99国产精品| 成人综合一区| 青草久久视频| 欧美日韩一区二区综合| 国产日韩亚洲欧美精品| 欧美日韩国产亚洲一区| 久久中文精品| 午夜在线视频一区二区区别| 国语精品一区| 亚洲精品女人| 麻豆视频观看网址久久| 亚洲一区成人| 日韩成人三级| 日本一区中文字幕| 亚洲一级影院| 成人精品高清在线视频| 欧美影院精品| 99久久久国产精品美女| 日本一区二区高清不卡| 久久亚州av| 久久免费福利| 欧美激情一区| 久久精品免费看| 国产一区二区三区不卡视频网站 | 日韩精品专区| 亚洲一区资源| 日本久久黄色| 国产黄大片在线观看| 欧美www视频在线观看| 久久精品九色| 色婷婷亚洲mv天堂mv在影片| 91欧美国产| 色黄视频在线观看| 欧美日韩尤物久久| 久久国产日韩| 久久精品亚洲人成影院| 欧洲av不卡| 欧美日韩精品一区二区视频| 国产一区欧美| 亚洲一区不卡| 亚洲精品三级| 国产精品久久久网站| 精品国产美女a久久9999| 国产一二在线播放| 青青久久av| 亚洲精品国产偷自在线观看| 日韩中文字幕亚洲一区二区va在线| 国产亚洲一级| 日韩精品久久久久久久软件91| 91精品尤物| 欧美日韩xxxx| 激情综合五月| 九色精品91| 亚洲人www| 国产精品久久久久av蜜臀 | 国产精品99久久免费| 91欧美在线| 激情欧美丁香| 免费高清在线一区| 欧美视频二区| av中文字幕在线观看第一页| 欧美中文一区二区| 香蕉久久一区| 久久一区精品| 伊人久久国产| 91久久午夜| 久久国产婷婷国产香蕉| 国模精品一区| 99riav国产精品| 欧美伊人久久| 88xx成人免费观看视频库| 亚洲欧洲午夜| 国产精选久久| 成人免费电影网址| 亚洲精品国模| 亚洲欧洲美洲av| 亚洲一区二区av| 精品一区二区三区视频在线播放| 免费观看久久av| 日韩在线黄色| 超级白嫩亚洲国产第一| 久久亚洲影院| 成人亚洲一区| 亚洲资源在线| 国产欧洲在线| 亚洲精品影视| 色黄视频在线观看| 日韩欧美2区| 天堂√8在线中文| 日韩一区二区三区精品视频第3页| 久久影院资源站| 日韩在线卡一卡二| 激情视频网站在线播放色| 亚洲人成在线影院| 国产理论在线| 日韩一区二区三区免费视频| 免费一二一二在线视频| 亚洲三级av| 久久国产中文字幕| 国产精品天堂蜜av在线播放| 美女久久久久| 精品午夜av| 日韩高清成人在线|