Re: [問卦] Gemini是不是過譽了？

看板: Gossiping

作者: LoveSports (我要當一個渣攻)

標題: Re: [問卦] Gemini是不是過譽了？

時間: Sun Nov 30 22:41:32 2025

※ 引述《stonys (蝶戀影)》之銘言： : 昨天心血來潮 : 問了Gemini Pro3 付費版一個10*10的數蛇題

謝謝s大分享資訊

先回答關於計算數蛇題的事

後半段再討論AI算不出來的問題其實都跟工作記憶(注意力機制)有關

我丟給AI算他們都算不出來所以我想乾脆自己來算(s大有寄題目給我)

我沒做過這種題目本來以為很難因為AI們說人類要花好幾天

結果發現其實跟空間與推理有關像走迷宮

s大你在推文說你基本上一天以內女兒花兩天

我花一分鐘既然如此來分享一下如何解題

如果說邊走才邊思考下一個數字要走哪個方向那就太慢了

這種方式除了剛才走過的方向以外得試三個方向

還得一邊思考下一個數字是否為質數

其實不用這樣首先把10X10格子畫好 25個質數題目規定好的位置標出來後

在紙上寫出所有質數

2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97

這樣視覺上就很清楚了這步驟很重要可以清空工作記憶空間

因為人類邏輯思考也會消耗工作記憶所以要先把已知固定資訊輸出到外部"清空書桌"

接著將以上質數大致上分群拆成十步之內有幾個質數先分一兩群就好

2,3,5,7,11,13,17,19,23,29,31,37,41,43,47,53,59,61,67,71,73,79,83,89,97

1~10之間有四個質數這是一群用這個方法去觀察出發點附近格子

哪個方向走十步之內會遇到四個質數這樣子就很明顯了

大概下玩前二十步之後移動方向大致也確認了

那之後就只是把數字填進去而已看下一個質數差多少格決定方向

等於追著質數"跑" 所以很快

不用動腦就只是寫字而已所以真的只要一分鐘就能解題

這種解題方式是把數字當成符號看待把格子當成迷宮質數當成障礙物或寶物

用玩RPG遊戲走迷宮的方式

我大概猶豫兩次開頭右上角跟中間下方反應時間分別耗不到五秒

以下說明為什麼AI尤其是Gemini答不出來

: 結果他老兄想了老半天 : 給出了一堆錯誤答案 : 要嘛數字重複出現 : 要嘛數字沒有連續出現直接跳格 : 然後我把同樣的題目丟給免費ChatGPT : ChatGPT才花了1分17秒就給了一個正確解答 : 我先驗算過後覺得沒問題 : 再丟回給Gemini叫他驗算 : 他就說這答案完全正確

https://meee.com.tw/X0KUQ2c : 接著我就告訴他，這是我用免費ChatGPT得到的答案 : 人家免費版才花了1分17秒就回答出來 : 你是付費的PRO版，怎麼都算不出來，是不是很廢 : 然後他就開始講一堆理由 : 一下子說人家ChatGPT是依靠後端的VM直接執行程式碼 : 他因為權限關係無法做這樣的運算 : 一下又說給我程式碼 : 叫我用線上Python網頁程式去執行，一定可以得出結果 : 我就照他說的，去問了ChatGPT是否有在背景執行VM的權限 : 人家說他沒有，單純用邏輯推導得到結果的 : 再用他的程式碼到線上Python網頁程式去執行 : 結果直接卡死 : 我就罵Gemini根本是又愛騙又廢 : 最終他也承認我罵得很對

https://meee.com.tw/kBoxdiK : 所以說，Gemini是不是過譽了呢？

我丟給四家四家都答錯後來學s大設數學老師指令GPT才答對

但其他三家都還是答錯

討論了一下好像跟工作記憶(注意力機制)有關

剛好跟我做上述題目用的清空、避免佔用工作記憶的解題技巧有關係

之前聽過各家LLM說最不擅長的就是工作記憶

而且各種模型分配注意力的方式也有差別有的是收斂(集中局部) 有的是發散(看整體)

收斂型的當遇到工作記憶爆掉會重複演算一小局部然後卡住(比喻:ASD的過集中)

發散型的則是會繼續算下去但是錯一堆(比喻:ADHD的粗心出錯)

另外還有平衡型

Gemini 3.0 pro的AI助理預設是發散型聯想力強能追蹤長文本但細微邏輯題容易出錯

除此之外當下問題如果被系統判定是文字類(s大這題就是) 就不會分配python給他運用

還會限定time out時間如果要光靠文字推理他也是可以但時間太長會放棄就亂掰

我後來製作了一個5X5複雜迷宮路線跟6X6簡單左到右S型他有用文字推理出來

但6X6複雜迷宮路線試了十幾次就是沒辦法同篇內算了三四次沒辦法就投降

GPT5.1如果沒叫他扮演數學老師在我兩個帳號也是一樣狀況

怎樣都算不出來也是亂掰也是塞程式碼給我叫我自己算然後講一堆藉口

s大要求他扮演數學老師

是讓他從AI助理預設模式的文字處理、發散型切到邏輯、收斂型

同樣的指令對Gemini沒有用他說是因為角色扮演指令只會讓他更發散(創意發揮)

基於他是原生多模態不是像GPT那樣先是語言模型再裝視覺外掛

他是一出生就同時讀圖跟讀文字而且要把兩種關連連在一起所以得是創意發散的

雖然也是有辦法讓他收斂

就像推文板友也有建議的指示詞講明用python、用思維鏈一步一步算

但還是有極限的樣子有興趣的人再自己試試看

其實每家各有優缺點沒有完美的找出適合自己的就好了

※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 146.70.31.61 (日本) ※ 文章網址 ※

推 palapalanhu : 你AI系！？ 1.161.143.37 11/30 22:44

推 ooooooo : 是說怎嗯 103.142.140.151 11/30 22:48

Gossiping / PTTBBS 推薦

Re: [問卦] Gemini是不是過譽了？