
本文為Google Gemini用家提供指南。Gemini是Google由Bard進化而來的最新多模態AI,能處理文、圖、音、碼,目標是做你的智能助手。助提升效率、創意,整合Google應用。主要模型有2.5 Pro及Flash,提供免費及付費版(常與Google One捆綁)。香港個人用戶或需VPN,企業版已支援。使用時需留意數據私隱、潛在偏見,但支援中文及廣東話。Gemini持續進化,擁Deep Think等尖端功能。
Google Gemini 懶人包
1. 什麼是 Google Gemini?
Google Gemini 是 Google 研發的生成式人工智能 (AI) 聊天機械人,其核心是 Google 目前最頂尖的大型語言模型 (LLM)。
Gemini 的誕生並非偶然,而是 Google 超過十年的技術積累:
技術源頭: 早於 2013 年,Google 發表的 Word2Vec 論文就奠定了將詞彙轉化為數學概念的基礎。
對話進化: 2015 年引入神經對話模型,大幅提升 AI 對話的自然度。
最終目標: 透過強大的 LLM,讓資訊與運算變得更加 User friendly,讓用戶隨手就能獲得精準答案。
由 Bard 變身 Gemini:Google 的 AI 戰略有什麼轉變?
由 Bard 演變成 Gemini,標誌著 Google 從「被動回應市場」轉向「主動整合生態系統」的重大 Pivot。
如果你有留意開科技新聞,應該記得這段轉折:
應急時期: 2023 年 3 月,為了應對 OpenAI ChatGPT 的威脅,Google 緊急推出了 Bard(最初基於 LaMDA 及 PaLM 模型)。
整合時期: 2024 年 2 月,Google 將 Bard 與 Duet AI 統一品牌為 Gemini,並同步推出 Android 及 iOS App。
對 Marketer 的啟示: Google 兩位創辦人 Larry Page 同 Sergey Brin 曾為了 AI 威脅而親自參與緊急會議。這代表 Google 會將所有資源傾斜向 Gemini,未來 AIO 會成為搜尋流量的「守門人」。你的內容如果不符合 Gemini 的理解方式,流量將會大幅流失。
什麼是「多模態」能力 (Multimodality)?
「多模態」是指 AI 能夠同時無縫處理、理解並生成多種形式的資訊,包括文字、圖像、音訊、影片及程式碼。
Gemini 與舊式模型最大的分別,在於它是從頭開始設計 (Native Multimodal)。這讓它具備了「多感官」推理能力:
跨媒介處理: 你可以上傳一張餅乾相片,叫 Gemini 幫你寫出食譜;甚至叫它將圖片中的數據轉化為 JSON 格式。
強大的 Coding 能力: 它能精準理解並生成 Python, Java, C++, Go 等主流語言的高品質 Code。
深度推理: 比起單一模態的 AI,Gemini 處理複雜、真實世界的資訊時更具優勢,這也是它能提供更深入、更精準搜尋建議的原因。
2. Gemini 可以做甚麼?
Gemini 的設計宗旨是成為您的智能助手,在多個方面提升您的生產力、激發創意並滿足您的好奇心。
Gemini 點樣提升生產力?
Gemini 是一款全能型 AI 助手,能透過自動化分析、總結及內容生成,將繁瑣的文案處理與市場研究工作縮短至數分鐘內完成。
對於日理萬機的香港職場人,Gemini 的效率非常 User friendly:
文獻分析: 能夠快速總結長達 1,500 頁的複雜文件,分析數百個網站並生成 Research Report。
文案協作: 在 Gmail 同 Google Docs 內直接執筆、摘要或編輯內容,由 Email 到 Blog Post 都能一鍵生成 Outline。
數據轉換: 支援將圖像中的非結構化數據(例如:影一張數據圖表)直接轉換為 JSON 格式,方便做後續分析。
唔識 Coding 都能夠做 Technical SEO 嗎?
Gemini 具備強大的程式碼生成與除錯能力,支援 Python、Java、C++ 及 Go 等主流語言,是網站開發者的最強後盾。
以前處理 Schema Markup 或複雜的網站數據可能要排期等 IT,現在 Gemini 可以幫你:
自動生成高品質 Code: 協助開發者編寫及優化程式碼,提高開發效率。
解決 Debug 難題: 快速解釋複雜的程式碼邏輯,找出網站出錯的原因。
非結構化數據處理: 即使 Gemini 未必是專業數據工具,但它的邏輯推理能力足以應付複雜的數據解釋工作。
如何利用 Gemini 製作吸引 AI 的 Creative 內容?
Gemini 不僅是文字工具,更整合了 Veo 影片生成與多模態圖像技術,讓 Marketer 輕鬆創作多媒介的 Creative 內容。
想在搜尋結果中更 Presentable,你可以利用:
圖像生成: 免費用戶每日可生成約 10-20 張圖,Advanced 訂閱者更可高達 150 張。
AI 電影製作: 透過 Veo 技術,Gemini Pro 訂閱者可以生成 AI 影片,甚至實現「食材變食譜影片」(ingredients to video) 的神奇效果。
自定義專家 (Gems): 未來你可以自定義專屬的 Gemini 專家角色,針對特定品牌風格進行內容創作。
什麼是「Deep Research」與視覺搜尋?
Deep Research 是 Gemini 的實時導航功能,能同時瀏覽分析數百個網站,並針對複雜提問提供即時、精準的見解。
這項功能徹底改變了用戶的搜尋習慣,對 GEO 佈局影響深遠:
即時知識庫: 以最簡單的方式解釋複雜概念,用戶不用再逐個網頁點擊。
鏡頭導航: 手機鏡頭指向建築物或菜單,Gemini 就能即時提供顏色資訊或菜式推薦。
深度整合: Gemini 已經注入整個 Google Workspace(Gmail、Sheets、Meet),這代表 AI 對你網站內容的理解將無處不在。
Gemini 是探索知識的起點。它能以簡單的方式解釋複雜的概念,或針對特定主題或圖像提供相關見解 。透過「Deep Research」功能,Gemini 能實時瀏覽和分析數百個網站,在幾分鐘內提供全面的研究報告 。未來,您甚至可以將手機鏡頭指向物體(例如金門大橋),詢問其油漆顏色,或在異國餐廳中協助導航菜單並推薦菜餚 。
深度整合 Google 應用程式
Gemini 的強大功能可直接整合到您熟悉的 Google 應用程式中,包括 Gmail、Docs、Slides、Sheets、Meet,以及 NotebookLM(AI 輔助筆記和文檔整理工具)。
例如,在 Gmail 中協助撰寫郵件,在 Docs 中協助撰寫或視覺化內容,在 Meet 中協助會議記錄等 。這種深度整合,使得 Gemini 不僅僅是一個獨立的聊天機械人,更是 Google 將 AI 能力注入其整個產品套件的戰略核心。
對於 Google 生態系統的重度用戶來說,Gemini 的價值將遠超單純的聊天功能,它將成為一個無處不在的智能助手,極大地提升工作和學習效率。
主要模型介紹
現時,Google 提供了不同版本的 Gemini 模型,並已升級至 2.5 版本,以滿足不同用戶的需求:
- Gemini 2.5 Pro: Google 目前最強大的「思考型」模型,具有最高的響應準確性和最先進的性能。它擅長處理複雜的程式碼、數學和 STEM 問題,並能使用長上下文分析大量數據集、程式碼庫和文件 。它將推出實驗性的「Deep Think」模式,透過考慮多個假設來進一步提升推理能力,這代表了 Google 在 AI 推理能力前沿的探索 。這種能力對於需要嚴謹思考和多步驟解決方案的專業領域具有顛覆性潛力,將 AI 從「聰明的工具」提升至「專家級助手」的層次。
- Gemini 2.5 Flash: 在性價比方面表現最佳的模型,提供全面的功能。它專為低延遲、高流量且需要思考的任務而設計,效率更高,在評估中使用的 Token 減少了 20-30% 。
3. 如何申請及使用 Gemini?
Gemini 主要透過網頁版和手機應用程式提供服務。然而,對於香港用戶而言,情況有些特殊。
基本使用途徑
- 網頁版: 用戶可以透過瀏覽器前往 gemini.google.com 進行使用 。Gemini 網頁版目前支援超過 40 種語言和 230 多個國家和地區 。
- 手機應用程式: Gemini 也有專屬的手機應用程式,方便隨時隨地使用 。
香港用戶特別注意事項
- 官方可用性:不幸的是,Google Gemini 的個人版目前在香港不完全支援,並未列入 Gemini Advanced 的支援國家/地區清單中 。
- 企業版例外:值得注意的是,Google Workspace 的企業和商業用戶,從 2024 年 5 月起,可以透過 Workspace 渠道在香港使用 Gemini 。這顯示 Google 對於企業用戶有不同的策略。
解決方案:使用 VPN 繞過地理限制
由於個人版 Gemini 在香港的官方限制,最常見且有效的解決方案是使用虛擬私人網路(VPN)服務 。
操作步驟:
選擇並註冊 VPN 服務: 選擇一家信譽良好、速度快且伺服器遍布全球的 VPN 供應商 。
連接到支援地區的伺服器: 選擇一個 Gemini 支援的國家(例如:英國、美國、台灣、日本)的伺服器進行連接 。
VPN 推薦(僅供參考): NordVPN、Surfshark、CyberGhost VPN 等都是市場上評價較高的選擇 。
4. 收費版與免費版分別
Google Gemini 提供免費和付費版本,兩者在功能、性能和服務上存在顯著差異,以滿足不同用戶的需求 。
成本考量
如果您每天都使用 Google 應用程式,並需要內建 AI 工具來節省時間、提高工作效率,同時也需要額外儲存空間,那麼 Gemini Advanced 是一個值得考慮的選擇。如果您只需要基本的 AI 回應功能,或者已經訂閱了 ChatGPT Plus,那麼免費版可能就足夠了 。
Google One AI Premium 方案將 Gemini Advanced 與 2TB 的 Google Drive 儲存空間捆綁銷售 。這不僅是 AI 服務的訂閱,更是一種全面的生產力套件升級。Google 巧妙地利用其現有雲端服務的優勢,為用戶創造了更具吸引力的價值主張,特別是對於那些已經深度使用 Google 生態系統的用戶。對於許多用戶來說,2TB 的儲存空間本身就具有相當大的價值,這使得整個訂閱方案的吸引力遠超單純的 AI 功能,尤其能吸引那些對 Google 生態系統有依賴性的用戶,從而加強用戶忠誠度。
5. 注意事項及重要資訊
在使用 Gemini 時,了解其數據處理方式、潛在限制和最新發展至關重要。
數據私隱與安全
- 數據收集與使用方式: Gemini 會收集用戶的聊天記錄(包括 Live 互動錄音)、分享的內容(文件、圖片、螢幕截圖、網頁內容)、產品使用資訊、回饋以及來自已連接應用程式的數據和位置資訊 。這些數據會根據 Google 的隱私政策用於提供、改進、開發和個性化 Google 產品和服務,以及機器學習技術 。
- 人工審核與匿名化處理: 為了提高質量和改進 Google 產品,包括驅動 Gemini Apps 的生成式機器學習模型,人工審閱者(包括服務提供商)會閱讀、註釋和處理用戶的 Gemini Apps 對話 。Google 會採取措施保護用戶隱私,例如在審閱者看到或註釋之前,將對話與用戶的 Google 帳戶斷開連接 。因此,用戶應被告知不要在對話中輸入任何不希望被審閱者看到或 Google 用於產品改進的機密資訊 。
- 數據保留期限: 如果「Gemini Apps 活動」設定開啟(預設為 18 個月),Google 會將活動與 Google 帳戶一起儲存,用戶可選擇 3 或 36 個月的保留期 。即使活動設定關閉,對話也會暫時儲存長達 72 小時 。經人工審閱或註釋的對話及相關數據,即使刪除活動,也會保留長達 3 年 。
- 企業用戶的數據保護: 對於企業用戶,Google Workspace 中的 Gemini 遵循嚴格的隱私承諾。用戶與 Gemini 的互動會保留在組織內部,未經許可不會共享到組織外部 。它適用與 Google Workspace 其他服務相同的企業級安全保護,且用戶內容不會用於訓練其他客戶的生成式 AI 模型 。Gemini for Workspace 版本不會保存提示或回應,數據在會話結束後即消失 。這顯示出 Google 對於企業數據處理的更高標準,可能與合規性要求和企業客戶對數據主權的重視有關。
- 個人內容(圖片、檔案、連接應用程式)的處理方式: 上傳的圖片和檔案會被 Gemini Apps 用於理解內容以提供資訊,但目前不會用實際圖片或檔案來改進生成式機器學習技術,除非這些內容包含在用戶提交的回饋中 。來自連接應用程式的個人內容(如姓名、電郵、私人內容)不會被人工審閱,不會用於改進生成式機器學習技術,不會用於廣告,且只在提供和維護服務所需的時間內儲存 。
內容限制與潛在偏見
- 內置安全過濾器: Gemini API 提供可調整的安全設定,涵蓋騷擾、仇恨言論、色情內容、危險行為和公民誠信五個類別 。開發者可以根據應用程式需求調整這些過濾器的嚴格程度 。此外,Gemini API 還內置了針對兒童安全等核心危害的保護,這些內容總是會被阻止,且無法調整 。
- 歷史圖像生成偏見爭議的簡要說明: 2024 年 2 月,Gemini 因其圖像生成功能在生成歷史人物(如維京人、納粹士兵、美國開國元勳)時,出現了歷史不準確的多元化圖像(例如黑人女性教宗、亞洲戰士),引發了「過度政治正確」或「覺醒」的爭議 。Google 對此表示歉意,承認其「過度補償」了多樣性,並暫停了該功能,直至 2024 年 8 月下旬重新推出 。這凸顯了 AI 模型在訓練數據和偏見處理方面的巨大挑戰。AI 的偏見問題並非單純的技術錯誤,而是其訓練數據(來自現實世界,包含人類偏見)和模型設計(如何處理多樣性、如何避免有害內容)的複雜結果。Google 試圖糾正歷史上的邊緣化問題,但執行不當導致了新的偏見。這揭示了 AI 開發者在追求「公平性」和「多樣性」時面臨的巨大倫理困境。
- 文本回應偏見: 有用戶指出 Gemini 的文本回應也存在偏見,例如對某些政治人物的描述與對其他政治人物的描述方式不同,甚至被指控在某些情況下對右翼人物持負面態度 。Google 承認 Gemini 在回應當前事件、政治話題或不斷演變的新聞時可能「不總是可靠」 。這意味著在使用 AI 時必須保持批判性思維,不能盲目相信其所有輸出,尤其是在敏感或有爭議的話題上。
Gemini 支援中文
- 中文(繁體)支援現況:現時 Gemini 可以支援繁體及簡體中文,無論是輸入或者輸出資料,均可完美對應。此外,據編輯部測試所得,它能夠理解廣東話,甚至在氐成回應時,亦可以廣東話語氣輸出。
- 文化認知:雖然 Gemini 能夠很好理解中文,在一些涉及歷史及文化的事項時,它有時就會略有不足。例如,當要求它創作廣東話笑話或謎語時,會產生完全不能明白的回應。
最新發展
Google 持續投入大量資源改進 Gemini 模型,最新發展包括:
- Deep Think 模式: 針對 Gemini 2.5 Pro 的實驗性增強推理模式,透過考慮多個假設來提升在複雜數學和程式碼等領域的表現。該模式將首先對信任測試者開放 。
- 進階安全防護: 顯著提高了 Gemini 對間接提示注入攻擊的保護率,使其成為迄今為止最安全的模型家族,這對於企業採用至關重要 。
- 思維摘要 (Thought summaries): 為企業級 AI 帶來清晰度和可審計性,將模型的原始思維(包括關鍵細節和工具使用)組織成清晰的格式,簡化調試並提高系統可靠性 。
- 電腦使用能力 (Computer Use): Project Mariner 的電腦使用能力正被整合到 Gemini API 和 Vertex AI 中,將在夏季廣泛推出,允許 AI 執行電腦任務 。
- 原生音訊輸出 (Native Audio Output): Live API 正在引入音訊-視覺輸入和原生音訊輸出對話的預覽版本,使 Gemini 的對話體驗更自然、更具表現力,並支持多說話者文本轉語音 。
【熱門報道】
Source : ezone.hk
目前,Gemini 個人版並未支援香港,但企業版則可以使用,個人用戶可能要依靠 VPN 方式使用。
