Re: [請益] 軟體失業是遲早的事吧
看板: Soft_Job
作者: oopFoo (3d)
標題: Re: [請益] 軟體失業是遲早的事吧
時間: Fri Oct 17 08:01:49 2025
※ 引述《SkankHunt42 (凱子爸)》之銘言:
: 推 yamakazi: 人類方也沒提數據啊,人類有SWE bench可以看分數? 10/15 09:36
: → yamakazi: 人類自己都沒有benchmark 卻可以覺得人類自己做得比ai好 10/15 09:36
: → yamakazi: 才奇怪吧 10/15 09:36
: 沒有要ㄉ一ㄤ誰的意思
: 就是這benchmark到底存不存在
現在的llms是以人類為基準做測試。swe-bench 就是人類做過了,看llms可不可以做。
swe-bench是拿github已解決的issues來作為測試。
swe-bench verified是把一些openai認為under specified的issues踢掉。就更容易自動化測試。
測試的題目,大部分都非常簡單。15分鐘內解決
例如variable referenced before assignment
或者parameter ignored。deprecation warning
普通有程度的人,大概可以90%+沒問題。有問題的大致上是需要domain knowledges的。
例如
有些matrix的問題,你如果不熟,那不會做是正常的。
老實說,連東西的內容都不了解,就大談特談,我無話可講
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 58.114.66.74 (臺灣) ※ 文章網址 ※
→
DrTech :
專業。swe-bench就是人先做過的issue。swe-bench
verified
10/17 08:34
→
DrTech :
就是人再過濾一次,認為適合公平測試AI能力的工作。
10/17 08:34
推
yamakazi :
本來就是拿有人做過的沒問題啊,不然要怎麼對答案?
10/17 08:40
→
yamakazi :
問題是沒有拿來測人類平均解題水平
10/17 08:40
→
yamakazi :
我當然知道這是有人做過的XD
10/17 08:41
→
yamakazi :
你知道就連大學聯考題目,也是給大一生做過才拿來考的嗎
10/17 08:42
→
yamakazi :
XD
10/17 08:42
→
yamakazi :
然後那個考的大一生,還要待在圍場裡等聯考結束才跟出題
10/17 08:43
→
yamakazi :
老師一起出闈
10/17 08:43
推
DrTech :
yamakazi說的對。問題在於swe-bench
verified沒看過單一測
10/17 08:49
→
DrTech :
試者人類的解題成績。不過好笑的又來了,swe-bench
verifi
10/17 08:49
→
DrTech :
ed
沒看過任何一個人類的成績。yamakazi怎麼會在前幾天認
10/17 08:49
→
DrTech :
定人解得一定比較差?
自打嘴巴。
10/17 08:49
推
yamakazi :
因為我用過ai工作跟我之前自己工作比較。之前比較難的功
10/17 09:15
→
yamakazi :
能或蟲都好幾天才解完,現在有AI真的五到十分鐘搞定
10/17 09:15
推
yamakazi :
單算行數的話,我2018年左右平均一年進扣九千行,今年九
10/17 09:18
→
yamakazi :
月我用claude
4
sonnet一個月進扣五萬行
10/17 09:18
→
yamakazi :
如果我下去跟AI比benchmark,我覺得我會慘敗
10/17 09:18
推
yamakazi :
我自己以前一年如果進超過一萬五千行扣,就覺得蠻操的了
10/17 09:22
→
yamakazi :
,現在一個月進口五萬行還不覺得累
10/17 09:22
推
yamakazi :
就像是你各位在高中大學時期,班上就是有那種強者,你從
10/17 09:29
→
yamakazi :
日常跟他上課考試就知道這個人很強,我跟他比完全慘敗,
10/17 09:29
→
yamakazi :
不用等到比完聯考你就知道他一定上台大醫學系一樣
10/17 09:29
→
yamakazi :
那五萬行我幾乎每行都有review,幾乎沒有太大問題,光re
10/17 09:31
→
yamakazi :
view
code比自己手刻輕鬆多了
10/17 09:31
→
yamakazi :
而且他會自己make
run,自己檢查log完後出報告,很多時
10/17 09:32
→
yamakazi :
候只要看他下個指令,看完他準備要下的指令後沒問題按ye
10/17 09:32
→
yamakazi :
s就可以了
10/17 09:32
→
brucetu :
能像你的專案一個月進扣五萬行的應該不多,照你這速度五
10/17 10:07
→
brucetu :
個人一個月異動二十萬行
怎麼維護?你只是無腦用大量程
10/17 10:07
→
brucetu :
式碼把功能做過去
自己看不到問題就說AI沒問題,老闆會
10/17 10:07
→
brucetu :
很喜歡你這種
因為你交差快,反正爆掉的時候你就知道,
10/17 10:07
→
brucetu :
希望半年後你還有辦法維護六個月前的那幾十顆commit
10/17 10:07
→
brucetu :
如果我的同事裡面有人一個月進五萬行扣
我會直接跟老闆
10/17 10:08
→
brucetu :
說這個超人把整份程式改寫了現在只有他看得懂
這五萬行
10/17 10:08
→
brucetu :
我們其他人要花兩個月研究,還是我們就讓他一個人接手整
10/17 10:08
→
brucetu :
個系統好了?
10/17 10:08
推
Suleika :
y說llm進code很快沒說錯阿,但這版很少提到真正會遇到問
10/17 10:11
→
Suleika :
題的一直是全局trade
off,效能調教,安全性檢查......
10/17 10:11
→
brucetu :
哦
而且我的sonnet
4.5每次任務都會犯三四個奇怪的邏輯
10/17 10:15
→
brucetu :
錯誤
所以我不知道你到底怎麼辦到讓AI一個月產生五萬行沒
10/17 10:15
→
brucetu :
有問題的程式碼,我感覺你要不是下指令之神應該出來開課
10/17 10:15
→
brucetu :
,不然就是你真的看不到程式碼裡面的問題
10/17 10:15
→
Suleika :
只要llm沒有fine-tune過,不能靠reasoning解題,就還是工
10/17 10:16
→
Suleika :
具
10/17 10:16
→
Suleika :
還有他說的是一年5萬...反駁都沒看清楚
10/17 10:18
推
richardz :
他明明說一個月五萬...到底誰沒看清楚...
10/17 10:20
→
Suleika :
拍謝我沒看清楚第二行,一個月5萬是有點誇張就是了
10/17 10:21
→
Suleika :
要看寫的是啥
10/17 10:25
→
brucetu :
我就是看到一個月五萬
怕是我看錯,反覆看了三五次他的留
10/17 10:27
→
brucetu :
言,確定他是說本來一年九千現在一個月五萬,如果他是寫
10/17 10:27
→
brucetu :
錯了
我會更懷疑他有好好地看AI產出的扣嗎?還是瞄一眼好
10/17 10:27
→
brucetu :
像沒大問題而且功能可以動就commit了
10/17 10:27
推
yamakazi :
寫systemC,就是要拼多啊,而且也沒什麼安全性問題
10/17 10:29
推
yamakazi :
我們有給他MD檔,md
檔裡面有範例程式,你光下prompt當
10/17 10:33
→
yamakazi :
然沒那麼精準
10/17 10:33
→
yamakazi :
我們各種md檔加起來可能也快萬行了,你prompt不可能講那
10/17 10:34
→
yamakazi :
麼詳細
10/17 10:34
推
yamakazi :
如果你發現AI常犯的錯誤,或是這次試錯了好幾次才正確,
10/17 10:36
→
yamakazi :
你要叫他學起來就是叫他把這次的經驗寫進去md
檔,大部
10/17 10:36
→
yamakazi :
分md內容也是叫AI寫不是我自己寫
10/17 10:36
推
selfvalue :
這串我關注很久
你跟Skaut大大討論的內容都很不錯
有
10/17 10:57
→
selfvalue :
興趣可以來我們網站發
10/17 10:57
→
selfvalue :
lesswrong.com
10/17 10:57
→
selfvalue :
jaan
tallinn(skype聯合創辦人)跟eliezer
yudkowsky都
10/17 10:59
→
selfvalue :
有在網站寫過相關的討論串
可以註冊後開一個討論
很多
10/17 10:59
→
selfvalue :
人會回
10/17 10:59
→
selfvalue :
上來看看
10/17 11:00
推
yamakazi :
一個月五萬沒錯,不過把md檔也算進去了,沒特別分開算
10/17 11:14
推
yamakazi :
舉個例子,他以前常常忘了先make
all就直接跑程式,可能
10/17 11:16
→
yamakazi :
以為自己寫的是python,我就叫他寫在自己的md檔裡,以後
10/17 11:16
→
yamakazi :
他改完扣就會自己make
all
and
run了,不用特別再下prom
10/17 11:16
→
yamakazi :
pt
10/17 11:16
→
selfvalue :
我們網站科技公司的老闆(航太
耳機等等)跟頂尖科學家
10/17 11:34
→
selfvalue :
工程師很多
但網站人數很少
歡迎來發言
10/17 11:34
推
MoonCode :
lesswrong
相比
reddit
hackernews
有什麼特別的?
10/17 12:00
推
selfvalue :
lesswrong跟許多機構有直接的關係
像是miri/
open
phi
10/17 12:19
→
selfvalue :
lanthropy
10/17 12:19
→
MoonCode :
有關係能幹嘛
不太懂
10/17 12:19
→
selfvalue :
像是我們網站的成員Vitalik
Buterin(大家應該都知道他
10/17 12:20
→
selfvalue :
是誰)就有直接資持這些機構
10/17 12:20
→
selfvalue :
他在上面叫vbuterin
可以看我們的排行榜
10/17 12:21
推
selfvalue :
Artificial
intelligence
10/17 12:32
→
selfvalue :
edit
10/17 12:32
→
selfvalue :
In
May
2021,
Buterin
donated
$665
million
to
the
F
10/17 12:32
→
selfvalue :
uture
of
Life
Institute,
a
nonprofit
which,
amongs
10/17 12:32
→
selfvalue :
t
other
things,
seeks
to
mitigate
the
existential
10/17 12:32
→
selfvalue :
risk
from
artificial
intelligence.
Buterin
worries
10/17 12:32
→
selfvalue :
that
AI
could
become
the
new
dominant
species
on
10/17 12:32
→
selfvalue :
Earth,
and
may
"end
humanity
for
good".[45]
10/17 12:32
推
selfvalue :
Future
of
Life
Institute
10/17 12:33
→
selfvalue :
Logo
of
the
Future
of
Life
Institute
10/17 12:33
→
selfvalue :
Abbreviation
10/17 12:33
→
selfvalue :
FLI
10/17 12:33
→
selfvalue :
Formation
10/17 12:33
→
selfvalue :
March
2014;
11
years
ago
10/17 12:33
→
selfvalue :
Founders
10/17 12:33
→
selfvalue :
Jaan
Tallinn
10/17 12:33
推
selfvalue :
vitalik捐了六億多美金的機構
founders
可以看看
第一
10/17 12:37
→
selfvalue :
個也是lw活躍用戶
10/17 12:37
→
selfvalue :
就是skype創辦人之一的jaan
10/17 12:38
→
selfvalue :
他在網站上面叫jaan
10/17 12:39
→
selfvalue :
在科技工作上的影響比較直接
10/17 12:39
→
selfvalue :
我也很喜歡hackernews
那邊也不錯
10/17 12:41
→
selfvalue :
上面討論的比較傾向數學
可以看看網站介紹
比較奇怪一
10/17 12:43
→
selfvalue :
點
10/17 12:43
→
selfvalue :
e-t-jaynes-probability-theory-the-logic-of-science
10/17 12:47
→
selfvalue :
-i
10/17 12:47
→
selfvalue :
我們網站歡迎數學好的朋友
10/17 12:48
→
selfvalue :
上面的文章都很樸實
也有比較普通的人上去聊數學跟科
10/17 13:09
→
selfvalue :
技
10/17 13:09
→
selfvalue :
不要看上面用戶有人捐了幾百億台幣那些
話題跟用戶本
10/17 13:10
→
selfvalue :
身沒有什麼關係
大家都在聊數學相關話題
10/17 13:10
→
selfvalue :
vitalik是比較出色的網站成員之一
10/17 13:11
→
selfvalue :
數學才是最重要的
10/17 13:13
→
MoonCode :
xD
好吧
我沒有被說服
謝啦
10/17 13:48
推
MoonCode :
推
selfvalue :
上面有定期的聊天聚會
如果你是在歐美日本
可以上去看
10/17 13:57
→
selfvalue :
日期
去聊天
10/17 13:57
→
selfvalue :
一個Nasa的工作人員很愛辦
可以去吃東西
帶小狗過去玩
10/17 13:58
→
selfvalue :
聊數學
10/17 13:58
→
selfvalue :
比較小的
溫馨的
10/17 14:01
→
selfvalue :
我去過幾次
看過不少同行
jaan,
火箭公司的老闆
那些
10/17 14:02
→
selfvalue :
人
比較溫馨
10/17 14:02
→
selfvalue :
hackernews比較大
10/17 14:03
→
selfvalue :
可以上去聊數學模型
論文那些
10/17 14:04
→
viper9709 :
一個月五萬行@@
10/17 17:56
推
selfvalue :
上這網站我覺不錯
10/17 18:35
→
selfvalue :
上去寫怎麼想
還有你怎麼用專業知識
10/17 18:36
→
selfvalue :
然後在去見面會
10/17 18:36
→
selfvalue :
這網站成員很多公司的外部專家==
openai,
Microsoft
10/17 18:37
→
selfvalue :
那些
10/17 18:37
→
selfvalue :
在上面答題也滿有趣的
10/17 18:38
→
selfvalue :
專業非常強可以去玩
10/17 18:38
→
selfvalue :
^tesla也有
10/17 18:38
→
selfvalue :
十年前網站討論的事情
不少都陸陸續續被網站成員解決/
10/17 18:45
→
selfvalue :
實現
10/17 18:45
→
selfvalue :
這一串很像上面會討論的
很多人答的不錯
10/17 18:46
推
Romulus :
我家的Claude
4.5才一週進四千行
我大概要手動修五批
10/17 23:45
→
Romulus :
眾所皆知
一定是我prompt下太爛……XD
10/17 23:46
→
Romulus :
我怎麼下prompt
Claude都無法正確使用AWS
SDK
想必我全責
10/17 23:48
→
SkankHunt42 :
Claude
我已經棄了
聽說現在其他工具更好用
10/17 23:58
→
SkankHunt42 :
而且Claude
訂價偏貴就算了還不誠實
高級模型也是用
10/17 23:59
→
SkankHunt42 :
一下就沒了
10/17 23:59
→
Romulus :
都差不多啊
Gemini
2.5
Pro,
GPT-5
都那樣
10/18 00:00
→
Romulus :
從來不覺得各主流模型間有什麼很本質上的差異
10/18 00:01
→
Romulus :
頂多就偶而這題A解的比較好
那題只有B解的出來
之類的
10/18 00:01
推
art1 :
高見龍下班後用
AI
兩個月產出十八萬行程式碼,一個月五萬好
10/18 00:44
→
art1 :
像也還好,AI
產程式碼的速度跟人比起來真是天上飛比地上爬
10/18 00:45
推
quickey :
產歸產,還是要review啊XD
10/18 07:20
推
CRPKT :
領域不一樣,硬比行數沒有太大意義啦
10/19 09:33
推
NDark :
樓樓上
我覺得測試與審查都會終將推到AI.
10/19 12:10
→
NDark :
但是最終的問題還是回到
需求有沒有被滿足
10/19 12:11
→
NDark :
問題的最後一定是有一個核心的問題
而不是只是炫技
10/19 12:11
→
NDark :
如果只是炫技那麼市場上現在就是滿滿的AI影片
10/19 12:11
→
NDark :
導致宣傳影片的價值就跌到一個不值得的地步
10/19 12:12
→
NDark :
宣傳影片的品質也讓觀眾覺得審美疲勞
10/19 12:12
→
NDark :
因為產出那些東西成本都是三五塊
10/19 12:12
→
NDark :
所以"需求"才帶來價值
所以使用者作為這個需求的起點
10/19 12:13
→
NDark :
才是最終需要
測試/審查
的點
10/19 12:13
→
newhandfun :
等AI可以幫工程師扛責任再叫我
10/21 11:20