久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看

首頁 > 技術知識 > 技術知識 > GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

GPT-5編程成績有貓膩!自刪23道測試題,關鍵基準還是自己提的

發布時間:2025-08-13 16:26:53來源: 13966578800

別急著用GPT-5編程了,可能它能力沒有你想象中那么強。

有人發現,官方測試編程能力用的SWE-bench Verified,但貨不對板,只用了477個問題。

什么意思呢?我們知道,SWE-bench是評估模型/智能體自主編程能力的一個通用且常用的指標。而SWE-bench Verified作為它的子集,本來一共有500個問題。

現在相當于OpenAI自行省略的那23個問題,自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分,那么得分實際上是比Claude Opus 4.1還要低的。因為現在僅有0.4%的差距。

OpenAI這種自行忽略23道題的操作,已經不是第一次了。

早在GPT-4.1發布時就信誓旦旦地說,之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。

離譜了朋友們!要知道SWE-bench Verified這個OpenAI自己提的,理由也是因為SWE-bench無法系統評估模型的編程能力,所以決定自己再提煉一個子集。

現在又因為測試題無法正常運行,所以自行又搞了個子集的“子集”。

本來以為GPT-5直播里出現圖表錯誤已經夠離譜了,結果現在告訴我這里面的成績可能還有假?

OpenAI一直省略23個問題

已經開始有網友發現,GPT-5能力并不比Claude 4.1 Opus好多少。

現在來看,這個官方給的結果或許根本沒有參考價值。

網友們除了自行忽略部分測試題,“偽造了結果”這一發現外,還發現,他們是將具有最大思維努力的GPT-5與沒有擴展思維僅靠原始模型輸出的Opus 4.1進行比較。這種比較實際上沒有參考意義。

而他們之所以只使用477個問題來測試,理由也跟GPT-4.1發布時一樣,因為他們內部的基礎設施運行不了剩下的23個問題。

今年4月份發布GPT-4.1時,在同一基準僅使用477個問題下得得分在54.6%。

當時官方還指出,如果保守地將這些問題的得分定為 0,那么54.6%的得分就變成了52.1%。即便是這樣,這個數值放在當時也是最高的。

而Anthropic這邊,其實也已經發現了OpenAI這個操作。

就在Claude Opus 4.1發布公布編程成績之時,在文章的末尾有這么一句話。

對于Claude 4系列模型,他們繼續使用相同的簡單框架,該框架僅為模型配備了兩種工具——一個Bash工具和一個通過字符串替換進行文件編輯的工具,并且不再包含Claude 3.7 Sonnet中使用的第三個“規劃工具”。

并在最后注明:在所有Claude 4模型中,他們報告的分數基于完整的500個問題。OpenAI模型的得分基于477道問題的子集進行報告

基準還是OpenAI自己提的

如果說,SWE-bench Verified還是OpenAI自己提的基準,那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。

當時啊還是因為類似的原因——他們測試發現SWE-bench的一些任務可能難以解決甚至無法解決,導致SWE-bench無法系統性評估模型的自主編程能力。

于是乎,他們決定與SWE-bench的作者合作,決定弄出個新版本,希望能夠提供更準確的評估。

他們共同發起了一項人工注釋活動,共有93位資深程序員參與進來,以篩選SWE-bench測試集每個樣本,從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了1699個樣本,然后基于統一標準來進行標注。

比如,問題描述是否明確?每個注釋都有一個標簽,范圍從 [0, 1, 2, 3],嚴重程度依次遞增。

標簽0和1 表示輕微;標簽2和3表示嚴重,表示樣本在某些方面存在缺陷,應予以丟棄。

此外,我們還會評估每個示例的難度,方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

最終得到了500個經過驗證的樣本,并且按照難度對數據集進行細分。“簡單”子集包含196個小于15分鐘的修復任務,而“困難”子集包含 45 個大于 1 小時的任務。

結果現在這個子集又被OpenAI縮減了。

One More Thing

不過,還是有個總榜單或許值得參考,就是那個最原始的SWE-bench。

在這個榜單中,Claude 4 Opus還是占據著領先位置。

GPT-5也已經發過好一陣了,不知道你有沒有這樣類似的編程體驗呀?歡迎在評論區與我們分享。

技術知識更多>>

意優科技發布三大量產關節方案 韓國將充電設施補貼與性能標準掛鉤,未達標設備不得享受支持 ?佛瑞亞新項目簽約落地常熟,配套奇瑞新能源 奕境首款車型預告圖公布,定位家庭旗艦大六座SUV 廣汽集團:與華為合作暫不涉及渠道領域 比亞迪2025年菲律賓銷量達26,122輛,躍居當地車企銷量第三位 受益于機器人,現代汽車股價一月飆漲60% 奧迪2025年全球交付約162萬輛汽車,同比下降2.9% 小鵬今年將推4款新車,沖擊55萬-60萬銷量目標 中汽信息研究所:建議擴大L3在典型城市群和特定場景下的試點范圍 IDC:2025年華為重返中國市場第一,OPPO四季度增長超10% 華爾街日報:韓國押注“主權AI”,卻發現本土大模型引用中國代碼 “死了么”引發美媒關注,《連線》采訪創始人:被60多家投資者接觸、將整合AI 王小川押注嚴肅醫療,AI能比普通醫生強嗎? 榮耀AI鍵新功能曝光,一鍵啟動BOOST模式 vivo更激進了,2億像素+100倍變焦+6510mAh,旗艦新機“一跌再跌” 2nm芯片太貴了!部分廠商下代旗艦繼續用3nm處理器 法雷奧溫嶺工廠擴建項目正式落成并投產 雷諾任命新戰略與產品負責人 極豆科技完成近億元新一輪融資,國際芯片巨頭領投,加速汽車座艙AI技術迭代與全球化布局 車企“不務正業”,是焦慮還是遠見? 耐世特亞太區智能制造總部項目在蘇州正式奠基 余承東不云游,雷軍缺席,廣州車展“寂寞到底”? 對話樂道沈斐:把純電和換電做好,根本不用做增程 仰望U8L新增平行橫移功能:至多3米 不支持自動剎停 在廣州車展期間,小米YU7 Max紫水晶首次對外展出 智元機器人推出靈心平臺:用戶可零代碼定制機器人“靈魂”與人設 蘋果與OpenAI恩怨加深:硬件部門遭全方位挖角,小程序抽成目標不只是騰訊 3D打印鈦金屬殼,蘋果新工藝太炸裂了:不只是改變手表 Meta內部文件:1年靠詐騙廣告賺約160億美元 每日曝光150億則
久久av影视,中文字幕人成乱码在线观看,日韩不卡视频在线观看,日韩精品视频在线看
欧美va亚洲va日韩∨a综合色| 国内不卡的一区二区三区中文字幕| 美女久久久久久 | 欧美专区在线| 欧美精品一区二区久久| 米奇777超碰欧美日韩亚洲| 久久久久国产| 亚洲激情偷拍| 亚洲日本国产| 国产麻豆一区二区三区精品视频| 国产日韩1区| 国产日韩在线观看视频| 国产精品xxxav免费视频| 国产精品va| 日韩1区在线| 99久久亚洲精品| 日韩视频二区| 亚洲一二av| 91精品视频一区二区| 欧美激情在线精品一区二区三区| 久久久精品区| 久久久久久久久丰满| 久久国产福利| 欧美一区二区三区久久精品| 国内在线观看一区二区三区| 久久久久国产精品一区三寸 | sm捆绑调教国产免费网站在线观看| 中文在线一区| 蜜臀91精品国产高清在线观看| 精品一区三区| 先锋影音国产一区| 蜜臀精品久久久久久蜜臀| 中文字幕av亚洲精品一部二部| 欧美一区激情| 日韩电影免费在线观看| 国产一区91| 国产精品欧美三级在线观看| 日韩国产一区| 视频一区中文字幕国产| 蜜桃久久久久久久| 国产视频一区二区在线播放| 最新中文字幕在线播放| aa国产精品| 国产精品久久久久久久免费软件| 天堂√8在线中文| 最新国产精品久久久| 精品国产一区二区三区av片| 婷婷丁香综合| 国产一卡不卡| 香蕉久久精品| 国产亚洲人成a在线v网站| 日韩免费看片| 亚洲美女91| 国产免费播放一区二区| 97国产成人高清在线观看| 午夜欧美视频| 欧美xxxx性| 在线亚洲精品| 老司机精品视频网| 免费日韩视频| 成人精品高清在线视频| 性色av一区二区怡红| 国产一区二区三区四区| 首页国产欧美久久| 日韩深夜视频| 久久国产乱子精品免费女| 蜜桃tv一区二区三区| 免费一区二区三区在线视频| 每日更新成人在线视频| 日本激情一区| 91麻豆精品激情在线观看最新 | 高清在线一区| 亚洲影视一区| 三级精品视频| 精品五月天堂| 日韩精品成人在线观看| 激情综合网五月| 国产欧美88| av资源新版天堂在线| 亚洲精品一级| 激情欧美丁香| 美女性感视频久久| 欧美中文字幕| 国产精品永久| 92国产精品| 国产精品三p一区二区| 精品免费av一区二区三区| 91精品电影| 精品三级在线| 日本成人在线一区| 99香蕉国产精品偷在线观看 | 久久99视频| 美女精品网站| 激情婷婷亚洲| 神马午夜在线视频| 久久伊人久久| 国产欧美一级| 日本在线成人| 免费在线观看一区二区三区| 亚洲不卡av不卡一区二区| 精品五月天堂| 欧美aⅴ一区二区三区视频| 中文无码日韩欧| 亚洲综合电影一区二区三区| 国产91精品对白在线播放| 国产91在线精品| 国产成人精选| 精品一区不卡| 正在播放日韩精品| 婷婷亚洲成人| 国产成人在线中文字幕| 久久精品国产999大香线蕉| 亚洲色图国产| 精品国产乱码久久久| 国产成人77亚洲精品www| 精品久久久网| 国产精品白浆| 亚洲精选91| 欧洲激情综合| 欧美二区视频| 国产亚洲一区在线| 亚洲午夜久久久久久尤物| 欧美激情麻豆| 麻豆国产精品| 国产一区二区三区四区五区传媒| 久久精品资源| 国产精选在线| 色婷婷精品视频| 欧美日韩中文字幕一区二区三区 | 日本不卡视频在线观看| 亚洲精品国产精品粉嫩| 男人天堂欧美日韩| 久久国产中文字幕| 午夜在线视频观看日韩17c| 欧美一区二区性| 99久久夜色精品国产亚洲狼 | 国产视频一区欧美| 免费高清在线一区| 捆绑调教日本一区二区三区| 国产精品久久观看| av在线最新| 一区二区亚洲精品| 亚洲一区二区av| 日韩美女国产精品| 国产精品成人3p一区二区三区| 精品一区二区三区在线观看视频| 午夜精品成人av| 久久久久久免费视频| 国产精品婷婷| 日韩精品免费一区二区夜夜嗨| 国产精品一卡| 亚洲性色av| 免费人成在线不卡| 国产亚洲精品精品国产亚洲综合| 久草精品视频| 一区二区三区四区在线看| 蜜桃传媒麻豆第一区在线观看 | 亚洲日本欧美| 欧美国产亚洲精品| 成人日韩在线观看| 好看的亚洲午夜视频在线| 亚洲乱亚洲高清| 精品美女久久| 欧美日韩激情| 日韩av影院| 亚洲美女久久精品| 日韩影院精彩在线| 久久精品日韩欧美| 欧美日韩国产免费观看| 日韩国产在线观看| 欧美三级网址| 国产精品男女| 久久午夜精品| 亚洲精品**中文毛片| 日韩av不卡一区二区| 高清久久一区| 欧美国产日韩电影| 97成人在线| 国产伦精品一区二区三区千人斩| 天堂俺去俺来也www久久婷婷| 99国产精品久久久久久久 | 欧美jjzz| 日韩精品一区二区三区中文在线| 麻豆久久久久久久| 国产精品日本| 精品国内亚洲2022精品成人| 精品1区2区3区4区| 麻豆成人综合网| 久热re这里精品视频在线6| 亚洲精品福利| 精品欧美一区二区三区在线观看| 日本v片在线高清不卡在线观看| 电影亚洲精品噜噜在线观看| 日韩精品福利一区二区三区| 久久精品青草| 美腿丝袜在线亚洲一区| 久热综合在线亚洲精品| 国产欧美一区二区三区精品酒店 | aⅴ色国产欧美| 久久精品一区|