沒錢燒的我，只好用本地端模型來跑 AI 任務

現在打開社群，動不動就看到有人分享「Claude 員工用的多蝦趴」、「開了一人公司後如何讓 AI 員工 24 小時不間斷工作」的文章。

懂的人會說這樣很燒錢，也有人跳出來說這背後根本是開課程收學費的詐騙。但「到底燒在哪裡」這件事，沒實際碰過的人可能不清楚。今天就借自己的案例，把這筆帳估給你們看。

事情是這樣：我最近上線了一個簡易預約系統，想找曝光機會。參考 AI 的建議後，把目標鎖定在 Reddit 的幾個版，最後判斷 r/SomebodyMakeThis 是最有可能出現目標受眾的地方。於是我請 AI 幫我寫了三支程式：

程式一：爬蟲，把近一週發布的主題和內容抓回來存到資料庫
程式二：逐筆把資料餵給 AI，分析內容關鍵字，判斷需求是否跟預約系統相關，或推測發文者可能需要預約系統，有的話就在資料庫標記
程式三：UI 介面，讓我可以快速瀏覽處理結果

程式二在餵資料給 AI 的時候，除了文章主題和內容之外，還得寫一段 prompt，告訴 AI 要用什麼角色、依據什麼邏輯推論、做出哪些判斷，以及最後用 JSON 格式回傳結果。

提示工程（prompt Engineering）：老實說我覺得這東西是最沒用的，但是在生成式AI中…你懂的，他不可或缺，不用精通，但懂一點技巧差很多。

「請 AI 分析」 這一步，就是燒錢的地方。所以我先用自己的機器跑跑看，順便做了一下各模型的比較（處理速度以總 token ÷ 花費時間計算）：

qwen3:8b：準確率沒有達標，有誤判；速度蠻穩定；但請他說明「為何不符合」的原因，很多時候直接失敗。
gemma3:12b：準確率較高，qwen3 誤判的部分他能正確辨識；速度有時反而更快；說明原因的成功率也高很多。
gemma3:1b：隨手挑來測的，速度超快；判斷幾乎全錯；但最厲害的是——每一篇誤判都能給你一個講得頭頭是道的理由。

以 qwen3 的表現為基準，大約處理 750 token 需要 18 秒。假設跑滿 24 小時：

每天可處理：86,400 ÷ 18 = 4,800 次
相當於：750 × 4,800 = 3,600,000 tokens/天

如果改成呼叫付費 API，以 Gemini 2.5 Flash 為例：輸入 $0.30 / 百萬 tokens，輸出 $2.50 / 百萬 tokens。先不拆算、統一用輸出價格估：3.6 × $2.5 = 每天約 $9 USD，光是這一個功能。這還只是一個很單純、程式化的分析任務。如果是真的 24 小時不間斷、同時跑多個任務、一直在呼叫 AI 的一人公司——你覺得一個月要燒掉多少錢？

沒錢燒的我，繼續跑本地端。

相關