Gossiping / PTTBBS 推薦

Re: [問卦] Gemini是不是過譽了?

看板: Gossiping

作者: LoveSports (我要當一個渣攻)

標題: Re: [問卦] Gemini是不是過譽了?

時間: Sun Nov 30 22:41:32 2025


※ 引述《stonys (蝶戀影)》之銘言: : 昨天心血來潮 : 問了Gemini Pro3 付費版一個10*10的數蛇題


謝謝s大分享資訊


先回答關於計算數蛇題的事


後半段再討論AI算不出來的問題 其實都跟工作記憶(注意力機制)有關



我丟給AI算他們都算不出來 所以我想乾脆自己來算(s大有寄題目給我)


我沒做過這種題目 本來以為很難 因為AI們說人類要花好幾天


結果發現其實跟空間與推理有關 像走迷宮


s大你在推文說你基本上一天以內 女兒花兩天


我花一分鐘 既然如此來分享一下如何解題



如果說邊走才邊思考下一個數字要走哪個方向 那就太慢了


這種方式除了剛才走過的方向以外 得試三個方向


還得一邊思考下一個數字是否為質數


其實不用這樣 首先把10X10格子畫好 25個質數題目規定好的位置標出來後


在紙上寫出所有質數


2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97


這樣視覺上就很清楚了 這步驟很重要 可以清空工作記憶空間



因為人類邏輯思考也會消耗工作記憶 所以要先把已知固定資訊輸出到外部"清空書桌"


接著將以上質數大致上分群 拆成十步之內有幾個質數 先分一兩群就好


2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97


1~10之間有四個質數 這是一群 用這個方法去觀察出發點附近格子


哪個方向走十步之內會遇到四個質數 這樣子就很明顯了


大概下玩前二十步之後移動方向大致也確認了


那之後就只是把數字填進去而已 看下一個質數差多少格決定方向


等於追著質數"跑" 所以很快


不用動腦就只是寫字而已 所以真的只要一分鐘就能解題


這種解題方式是把數字當成符號看待 把格子當成迷宮 質數當成障礙物或寶物


用玩RPG遊戲走迷宮的方式


我大概猶豫兩次 開頭右上角跟中間下方 反應時間分別耗不到五秒


以下說明為什麼AI尤其是Gemini答不出來


: 結果他老兄想了老半天 : 給出了一堆錯誤答案 : 要嘛數字重複出現 : 要嘛數字沒有連續出現直接跳格 : 然後我把同樣的題目丟給免費ChatGPT : ChatGPT才花了1分17秒就給了一個正確解答 : 我先驗算過後覺得沒問題 : 再丟回給Gemini叫他驗算 : 他就說這答案完全正確

:

https://meee.com.tw/X0KUQ2c : 接著我就告訴他,這是我用免費ChatGPT得到的答案 : 人家免費版才花了1分17秒就回答出來 : 你是付費的PRO版,怎麼都算不出來,是不是很廢 : 然後他就開始講一堆理由 : 一下子說人家ChatGPT是依靠後端的VM直接執行程式碼 : 他因為權限關係無法做這樣的運算 : 一下又說給我程式碼 : 叫我用線上Python網頁程式去執行,一定可以得出結果 : 我就照他說的,去問了ChatGPT是否有在背景執行VM的權限 : 人家說他沒有,單純用邏輯推導得到結果的 : 再用他的程式碼到線上Python網頁程式去執行 : 結果直接卡死 : 我就罵Gemini根本是又愛騙又廢 : 最終他也承認我罵得很對

:

https://meee.com.tw/kBoxdiK : 所以說,Gemini是不是過譽了呢?



我丟給四家 四家都答錯 後來學s大設數學老師指令GPT才答對


但其他三家都還是答錯


討論了一下 好像跟工作記憶(注意力機制)有關


剛好跟我做上述題目用的清空、避免佔用工作記憶的解題技巧有關係



之前聽過各家LLM說最不擅長的就是工作記憶


而且各種模型分配注意力的方式也有差別 有的是收斂(集中局部) 有的是發散(看整體)


收斂型的當遇到工作記憶爆掉 會重複演算一小局部然後卡住(比喻:ASD的過集中)


發散型的則是會繼續算下去但是錯一堆(比喻:ADHD的粗心出錯)


另外還有平衡型



Gemini 3.0 pro的AI助理預設是發散型 聯想力強能追蹤長文本 但細微邏輯題容易出錯


除此之外 當下問題如果被系統判定是文字類(s大這題就是) 就不會分配python給他運用


還會限定time out時間 如果要光靠文字推理他也是可以 但時間太長會放棄就亂掰


我後來製作了一個5X5複雜迷宮路線 跟6X6簡單左到右S型 他有用文字推理出來


但6X6複雜迷宮路線 試了十幾次就是沒辦法 同篇內算了三四次沒辦法就投降



GPT5.1如果沒叫他扮演數學老師 在我兩個帳號也是一樣狀況


怎樣都算不出來 也是亂掰 也是塞程式碼給我叫我自己算 然後講一堆藉口


s大要求他扮演數學老師


是讓他從AI助理預設模式的文字處理、發散型切到邏輯、收斂型


同樣的指令對Gemini沒有用 他說是因為角色扮演指令只會讓他更發散(創意發揮)


基於他是原生多模態 不是像GPT那樣先是語言模型再裝視覺外掛


他是一出生就同時讀圖跟讀文字而且要把兩種關連連在一起 所以得是創意發散的



雖然也是有辦法讓他收斂


就像推文板友也有建議的 指示詞講明用python、用思維鏈一步一步算


但還是有極限的樣子 有興趣的人再自己試試看



其實每家各有優缺點 沒有完美的 找出適合自己的就好了



--

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.31.61 (日本) ※ 文章網址 ※
palapalanhu : 你AI系!? 1.161.143.37 11/30 22:44
ooooooo : 是說怎嗯 103.142.140.151 11/30 22:48