※ 引述《oopFoo (3d)》之銘言:
: ※ 引述《SkankHunt42 (凱子爸)》之銘言:
: : 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36
: : → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
: : → yamakazi: 才奇怪吧 10/15 09:36
: : 沒有要ㄉ一ㄤ誰的意思
: : 就是這benchmark到底存不存在
: 現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。
:
https://github.com/SWE-bench/SWE-bench
: swe-bench是拿github已解決的issues來作為測試。
:
https://openai.com/index/introducing-swe-bench-verified/
我覺得單純大家討論的沒有共通基準線而已
Leetcode跟codeforces所有的問題人類自己做過而且已經有解答的
那我們也不挑hard的題目
我是否可以說medium題目人類參賽者的基準就是通過率100%?
如果我說人類表現,我會看常態分佈的數據,而不是所有人的最高得分
對「用戶通過率」「提交通過率」、「平均所需解題時間」做出分析
: swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動
: 測試的題目,大部分都非常簡單。15分鐘內解決
: 例如variable referenced before assignment
: 或者parameter ignored。deprecation warning
: 普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。
15min~1hour的題目目前在verified中有261題 已經是過半數的程度了
您所所說的 "小於15分鐘的題目" 數量是194題 大約2/5不到
整體分布的話 15分鐘以上的題目其實才是過半的存在
另外
variable referenced before assignment, parameter ignored, deprecation warning
這些問題確實可能90%+有經驗的工程師完全沒有問題
但除了這些問題以外的呢? 我覺得各位可能也猜不出一個比率
在ooFoo給出的openai連結中有這麼一段話:
As supplementary information (not used for dataset filtering), we further ask
annotators to estimate how much time it would take an experienced software
engineer who has had a few hours to familiarize themselves with the codebase
to write a patch solving the issue.
翻譯成中文就是:
我們進一步請標註者估算一位有經驗的軟體工程師在花費幾小時熟悉程式碼庫後,撰寫修
復問題的補丁所需時間。
所以OpenAI的假設前提是「這個有經驗的工程師實際上是已經花費幾小時事先熟悉
codebase」作為基準,而不是隨便找一個有經驗的python工程師叫他直接上就能用
同樣的時間幹出來
就我來看 15min~1hour的題目:
https://huggingface.co/datasets/princeton-nlp/SWE-bench_Verified
dataset的內容 其中一題
https://github.com/astropy/astropy/issues/13235
這題被評估需要15min~1hour
雖然相應的PR是刪除code 但我想你還是需要對專案有基礎的了解 才能看懂討論
或者至少 你應該要有numpy的基礎功力吧?
https://code.djangoproject.com/ticket/30608
https://github.com/django/django/pull/11532/files
這題也是15min~1hour的題目
這種題目 你至少也需要有encoding相關的知識還有專案的熟悉度
這算不算需要一點domain知識?
另外請注意:類似這樣難度甚至以上的題目占比3/5而且橫跨12個專案
https://www.swebench.com/
還有目前分數榜來看 甚至還有算出平均所需的token金錢成本
那我在評估人類的時候 是否要計算他的時間成本?時間是否列入評估的基準?
如果依照openai設計的難易度評估基準,這些工程師是針對個別專案有一定熟悉度的
所以各位討論所謂"人類基準",到底是:
1. 同樣水準的人類在各領域的統合表現
(我在我們班 我數學考0分國文80分, 他數學100分國文60分,
所以我們班的水準是數學100分國文80分)
2. 在同領域具備相同範圍年資或經驗與專案熟悉度的人所展現的平均表現
3. 不管領域,我就從senior中隨機挑五百人做樣本
如果有人覺得基準是1,那也沒問題,那就是你跟我討論的基準與定義不同。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 155.2.216.14 (日本)
※ 文章網址 ※
※ 編輯: SkankHunt42 (149.22.87.54 日本), 10/17/2025 21:44:57
推
Romulus :
y的基準很明顯是
4.不管啦人類就是比AI爛
吧
10/17 23:56
※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:01:11
推
oopFoo :
ai有ai的好處,例如github都訓練過了。知識非常淵博,但
10/18 10:21
※ 編輯: SkankHunt42 (155.2.216.18 日本), 10/18/2025 03:05:06
→
oopFoo :
無判斷能力(不想在這爭辯,這但書太多)。所以ai很快,但
10/18 10:23
→
oopFoo :
需要人類引導。人類需要時間學新的code
base,但能有效
10/18 10:25
→
oopFoo :
解決問題。今天ai發展的方向不對,應該ai幫忙解釋程式碼,
10/18 10:27
→
oopFoo :
讓人來寫程式碼。ai解釋不見的正確,但會加速人類的學習
10/18 10:28
→
oopFoo :
速度。其實大家經驗這麼久了,寫程式的時間可能1/10都不到
10/18 10:28
→
oopFoo :
大部分時間都是想問題,找解決方式,跟其它人溝通。然後
10/18 10:29
→
oopFoo :
現在ai強調寫程式,但我看來是最不適合的位置。但真正花
10/18 10:30
→
oopFoo :
時間,而ai可以幫忙的,反而發展很慢。當然這跟ai要取代
10/18 10:33
→
oopFoo :
人類的hype有關。但llms發展這麼久了,llms的優缺點其實
10/18 10:34
→
oopFoo :
都蠻清楚了。這些benchmark就算比了,也沒太大意義。人類
10/18 10:36
→
oopFoo :
有判斷能力,ai知識淵博(但會hallucination),找出好的配
10/18 10:38
→
oopFoo :
合,才是避免ai泡沫的方法。
10/18 10:42
→
SkankHunt42 :
你講的我完全同意,人腦跟LLM各有優缺,這也是我一直
10/18 12:03
→
SkankHunt42 :
在強調的
10/18 12:03
推
viper9709 :
oopFoo講得有道理
10/18 15:58
推
ripple0129 :
工程師難免用工程師思維,AI服務的不只是工程師,反
10/19 06:16
→
ripple0129 :
而9成以上不是工程師。怎麼會是要AI教學自己來寫扣呢
10/19 06:16
→
ripple0129 :
。本來發展方向就是AI代寫扣沒錯。反而是專業領域或
10/19 06:16
→
ripple0129 :
許可以用小眾專業AI教工程師寫扣,大眾使用的沒什麼
10/19 06:16
→
ripple0129 :
大問題,只是大眾多數來說需求都講不清楚。
10/19 06:16
推
Romulus :
就是這樣啊
但是行銷這樣講吹不出泡沫
然後有些人就
10/19 15:06
→
Romulus :
超好帶……
10/19 15:06
推
CaptainH :
我不懂為什麼要糾結vibe
coding會不會造成失業,現在美
10/20 01:40
→
CaptainH :
國的狀況就是CS的new
grad找工作如地獄難度,
因為LLM幾
10/20 01:40
→
CaptainH :
乎等於2-3年經驗的junior,
以致於錄取門檻大大提昇
10/20 01:41
推
dream1124 :
推
oopFoo
的見解,可惜這裡有些只想無腦洗
AI>humans
10/22 17:22
→
dream1124 :
這樣若說他們的表現說明
AI
>
humans
好像也沒錯,
10/22 17:23
→
dream1124 :
畢竟你直接請
AI
比較它都不會給這麼無聊的見解。
10/22 17:24