
本文為Google Gemini用家提供指南。Gemini是Google由Bard進化而來的最新多模態AI,能處理文、圖、音、碼,目標是做你的智能助手。助提升效率、創意,整合Google應用。主要模型有2.5 Pro及Flash,提供免費及付費版(常與Google One捆綁)。香港個人用戶或需VPN,企業版已支援。使用時需留意數據私隱、潛在偏見,但支援中文及廣東話。Gemini持續進化,擁Deep Think等尖端功能。
Google Gemini 懶人包
1. 甚麼是 Gemini?
Google Gemini,這個名字最近可能頻繁出現在大家視野中。它是一款由Google開發的生成式人工智能聊天機械人,其核心是Google最先進的大型語言模型(LLM)。LLM的基礎研究可追溯到Google在2013年發表的Word2Vec論文,該論文提出了將詞彙映射為數學概念的模型架構,隨後在2015年引入了神經對話模型,顯著提升了對話的自然度 。Gemini的願景是讓資訊和計算變得更易於存取和使用,是Google在LLM領域尖端研究的結晶 。
從 Bard 到 Gemini 的演變
Gemini 的前身是 Bard,於 2023 年 3 月推出,最初是 Google 為應對 OpenAI ChatGPT 崛起而迅速部署的產品 。Bard 最初基於 Google 的 LaMDA 和 PaLM LLM 模型 。在 2023 年 12 月,Bard 升級並整合了更強大的 Gemini LLM 模型 。隨後,在 2024 年 2 月,Google 將 Bard 和另一個 AI 產品 Duet AI 統一品牌為 Gemini,並同步推出了 Android 和 iOS 手機應用程式,標誌著 Google AI 策略的重大整合 。
這種從 Bard 到 Gemini 的快速演變,不僅是產品名稱的更替,更揭示了 Google 在 AI 領域面對激烈競爭時,內部資源的全面動員與戰略性整合。Bard 的推出是在 OpenAI ChatGPT 廣受歡迎後,Google 高層感到「措手不及」所引發的「全面回應」,甚至導致 Google 聯合創始人 Larry Page 和 Sergey Brin 參加緊急會議,討論應對策略 。將 Bard 和 Duet AI 統一到 Gemini 品牌下,顯示 Google 旨在建立一個更強大、更統一的 AI 生態系統,而非僅僅推出單一產品。這是一個從反應式到主動式、從分散到整合的企業級 AI 戰略轉變,預示著 Google 將持續快速迭代其 AI 產品,以保持市場競爭力。
核心技術:多模態能力(Multimodality)
Gemini 最顯著的特點是其「多模態」能力 。這意味著它能無縫處理和理解多種形式的資訊,包括文字、圖像、音訊、影片和程式碼 。這種「多感官」能力讓用戶可以透過任何形式的輸入,來獲得任何形式的輸出。例如,您可以上傳一張餅乾的照片,讓 Gemini 生成一份食譜;反之,也能根據食譜生成餅乾圖片 。
Gemini 能夠理解、解釋並生成 Python、Java、C++、Go 等主流程式語言的高品質程式碼,大大提升開發者效率 。這種「從頭開始設計」的多模態能力 不僅僅是一個功能,更是其底層架構的根本選擇。這使其在處理複雜的真實世界資訊時,比單一模態的 AI 模型更具優勢,為用戶提供了更廣泛、更自然、更深入的應用可能性。這種設計理念使其能夠在不同模態之間進行更深層次的推理和理解,例如從圖像中提取文本並轉換為 JSON 格式 ,或根據圖像生成食譜 。這代表了 AI 發展的一個重要方向,即從單一感官理解走向更接近人類的綜合感知和推理,從而極大地擴展了 AI 的實用邊界。
2. Gemini 可以做甚麼?
Gemini 的設計宗旨是成為您的智能助手,在多個方面提升您的生產力、激發創意並滿足您的好奇心。
提升生產力
Gemini 能成為您日常工作中的得力助手。它能夠快速總結冗長的研究文件、分析多達 1,500 頁的文本,並自動瀏覽和分析數百個網站,生成全面的研究報告 。在撰寫與編輯方面,Gemini 能協助撰寫引人入勝的電子郵件、部落格文章大綱,甚至直接在 Gmail 和 Docs 等 Google 應用程式中協助寫作、摘要和編輯內容 。
程式碼任務已迅速成為 Gemini 最受歡迎的應用之一。它能理解、解釋並生成 Python、Java、C++、Go 等流行程式語言的高品質程式碼,幫助開發者除錯複雜的程式碼問題,從而提高開發效率 。雖然 Gemini 未直接標明為「數據分析工具」,但其能夠從圖像中提取文字並轉換為 JSON 格式,或對上傳圖像內容進行分析並提供答案,這些都暗示了其處理非結構化數據並進行初步分析的能力。其強大的推理和問題解決能力也支持複雜的數據解釋和分析任務 。
激發創意
Gemini 是創意思考的催化劑。它能為部落格文章創建大綱,並生成插圖圖像 。在圖像生成方面,免費版用戶每天可生成約 10-20 張圖像,而 Gemini Advanced 訂閱者則可生成 100-150 張 。此外,Gemini Pro 訂閱者可透過 Veo (Google 的 AI 電影製作工具) 解鎖影片生成功能,甚至在 Flow、Gemini 和 Whisk 中生成 AI 影片 。最高級別的訂閱者還能獲得 Veo 3 的最高限制和高級功能,如「ingredients to video」 。未來,您還將能自定義 Gemini,使其扮演特定領域的專家,以達成個人目標(此功能稱為 Gems,即將推出)。
滿足好奇心
Gemini 是探索知識的起點。它能以簡單的方式解釋複雜的概念,或針對特定主題或圖像提供相關見解 。透過「Deep Research」功能,Gemini 能實時瀏覽和分析數百個網站,在幾分鐘內提供全面的研究報告 。未來,您甚至可以將手機鏡頭指向物體(例如金門大橋),詢問其油漆顏色,或在異國餐廳中協助導航菜單並推薦菜餚 。
深度整合 Google 應用程式
Gemini 的強大功能可直接整合到您熟悉的 Google 應用程式中,包括 Gmail、Docs、Slides、Sheets、Meet,以及 NotebookLM(AI 輔助筆記和文檔整理工具)。例如,在 Gmail 中協助撰寫郵件,在 Docs 中協助撰寫或視覺化內容,在 Meet 中協助會議記錄等 。這種深度整合,使得 Gemini 不僅僅是一個獨立的聊天機械人,更是 Google 將 AI 能力注入其整個產品套件的戰略核心。對於 Google 生態系統的重度用戶來說,Gemini 的價值將遠超單純的聊天功能,它將成為一個無處不在的智能助手,極大地提升工作和學習效率。
主要模型介紹
現時,Google 提供了不同版本的 Gemini 模型,並已升級至 2.5 版本,以滿足不同用戶的需求:
- Gemini 2.5 Pro: Google 目前最強大的「思考型」模型,具有最高的響應準確性和最先進的性能。它擅長處理複雜的程式碼、數學和 STEM 問題,並能使用長上下文分析大量數據集、程式碼庫和文件 。它將推出實驗性的「Deep Think」模式,透過考慮多個假設來進一步提升推理能力,這代表了 Google 在 AI 推理能力前沿的探索 。這種能力對於需要嚴謹思考和多步驟解決方案的專業領域具有顛覆性潛力,將 AI 從「聰明的工具」提升至「專家級助手」的層次。
- Gemini 2.5 Flash: 在性價比方面表現最佳的模型,提供全面的功能。它專為低延遲、高流量且需要思考的任務而設計,效率更高,在評估中使用的 Token 減少了 20-30% 。
3. 如何申請及使用 Gemini?
Gemini 主要透過網頁版和手機應用程式提供服務。然而,對於香港用戶而言,情況有些特殊。
基本使用途徑
- 網頁版: 用戶可以透過瀏覽器前往 gemini.google.com 進行使用 。Gemini 網頁版目前支援超過 40 種語言和 230 多個國家和地區 。
- 手機應用程式: Gemini 也有專屬的手機應用程式,方便隨時隨地使用 。
香港用戶特別注意事項
- 官方可用性:不幸的是,Google Gemini 的個人版目前在香港不完全支援,並未列入 Gemini Advanced 的支援國家/地區清單中 。
- 企業版例外:值得注意的是,Google Workspace 的企業和商業用戶,從 2024 年 5 月起,可以透過 Workspace 渠道在香港使用 Gemini 。這顯示 Google 對於企業用戶有不同的策略。
解決方案:使用 VPN 繞過地理限制
由於個人版 Gemini 在香港的官方限制,最常見且有效的解決方案是使用虛擬私人網路(VPN)服務 。
操作步驟:
選擇並註冊 VPN 服務: 選擇一家信譽良好、速度快且伺服器遍布全球的 VPN 供應商 。
連接到支援地區的伺服器: 選擇一個 Gemini 支援的國家(例如:英國、美國、台灣、日本)的伺服器進行連接 。
VPN 推薦(僅供參考): NordVPN、Surfshark、CyberGhost VPN 等都是市場上評價較高的選擇 。
4. 收費版與免費版分別
Google Gemini 提供免費和付費版本,兩者在功能、性能和服務上存在顯著差異,以滿足不同用戶的需求 。
成本考量
如果您每天都使用 Google 應用程式,並需要內建 AI 工具來節省時間、提高工作效率,同時也需要額外儲存空間,那麼 Gemini Advanced 是一個值得考慮的選擇。如果您只需要基本的 AI 回應功能,或者已經訂閱了 ChatGPT Plus,那麼免費版可能就足夠了 。
Google One AI Premium 方案將 Gemini Advanced 與 2TB 的 Google Drive 儲存空間捆綁銷售 。這不僅是 AI 服務的訂閱,更是一種全面的生產力套件升級。Google 巧妙地利用其現有雲端服務的優勢,為用戶創造了更具吸引力的價值主張,特別是對於那些已經深度使用 Google 生態系統的用戶。對於許多用戶來說,2TB 的儲存空間本身就具有相當大的價值,這使得整個訂閱方案的吸引力遠超單純的 AI 功能,尤其能吸引那些對 Google 生態系統有依賴性的用戶,從而加強用戶忠誠度。
5. 注意事項及重要資訊
在使用 Gemini 時,了解其數據處理方式、潛在限制和最新發展至關重要。
數據私隱與安全
- 數據收集與使用方式: Gemini 會收集用戶的聊天記錄(包括 Live 互動錄音)、分享的內容(文件、圖片、螢幕截圖、網頁內容)、產品使用資訊、回饋以及來自已連接應用程式的數據和位置資訊 。這些數據會根據 Google 的隱私政策用於提供、改進、開發和個性化 Google 產品和服務,以及機器學習技術 。
- 人工審核與匿名化處理: 為了提高質量和改進 Google 產品,包括驅動 Gemini Apps 的生成式機器學習模型,人工審閱者(包括服務提供商)會閱讀、註釋和處理用戶的 Gemini Apps 對話 。Google 會採取措施保護用戶隱私,例如在審閱者看到或註釋之前,將對話與用戶的 Google 帳戶斷開連接 。因此,用戶應被告知不要在對話中輸入任何不希望被審閱者看到或 Google 用於產品改進的機密資訊 。
- 數據保留期限: 如果「Gemini Apps 活動」設定開啟(預設為 18 個月),Google 會將活動與 Google 帳戶一起儲存,用戶可選擇 3 或 36 個月的保留期 。即使活動設定關閉,對話也會暫時儲存長達 72 小時 。經人工審閱或註釋的對話及相關數據,即使刪除活動,也會保留長達 3 年 。
- 企業用戶的數據保護: 對於企業用戶,Google Workspace 中的 Gemini 遵循嚴格的隱私承諾。用戶與 Gemini 的互動會保留在組織內部,未經許可不會共享到組織外部 。它適用與 Google Workspace 其他服務相同的企業級安全保護,且用戶內容不會用於訓練其他客戶的生成式 AI 模型 。Gemini for Workspace 版本不會保存提示或回應,數據在會話結束後即消失 。這顯示出 Google 對於企業數據處理的更高標準,可能與合規性要求和企業客戶對數據主權的重視有關。
- 個人內容(圖片、檔案、連接應用程式)的處理方式: 上傳的圖片和檔案會被 Gemini Apps 用於理解內容以提供資訊,但目前不會用實際圖片或檔案來改進生成式機器學習技術,除非這些內容包含在用戶提交的回饋中 。來自連接應用程式的個人內容(如姓名、電郵、私人內容)不會被人工審閱,不會用於改進生成式機器學習技術,不會用於廣告,且只在提供和維護服務所需的時間內儲存 。
內容限制與潛在偏見
- 內置安全過濾器: Gemini API 提供可調整的安全設定,涵蓋騷擾、仇恨言論、色情內容、危險行為和公民誠信五個類別 。開發者可以根據應用程式需求調整這些過濾器的嚴格程度 。此外,Gemini API 還內置了針對兒童安全等核心危害的保護,這些內容總是會被阻止,且無法調整 。
- 歷史圖像生成偏見爭議的簡要說明: 2024 年 2 月,Gemini 因其圖像生成功能在生成歷史人物(如維京人、納粹士兵、美國開國元勳)時,出現了歷史不準確的多元化圖像(例如黑人女性教宗、亞洲戰士),引發了「過度政治正確」或「覺醒」的爭議 。Google 對此表示歉意,承認其「過度補償」了多樣性,並暫停了該功能,直至 2024 年 8 月下旬重新推出 。這凸顯了 AI 模型在訓練數據和偏見處理方面的巨大挑戰。AI 的偏見問題並非單純的技術錯誤,而是其訓練數據(來自現實世界,包含人類偏見)和模型設計(如何處理多樣性、如何避免有害內容)的複雜結果。Google 試圖糾正歷史上的邊緣化問題,但執行不當導致了新的偏見。這揭示了 AI 開發者在追求「公平性」和「多樣性」時面臨的巨大倫理困境。
- 文本回應偏見: 有用戶指出 Gemini 的文本回應也存在偏見,例如對某些政治人物的描述與對其他政治人物的描述方式不同,甚至被指控在某些情況下對右翼人物持負面態度 。Google 承認 Gemini 在回應當前事件、政治話題或不斷演變的新聞時可能「不總是可靠」 。這意味著在使用 AI 時必須保持批判性思維,不能盲目相信其所有輸出,尤其是在敏感或有爭議的話題上。
Gemini 支援中文
- 中文(繁體)支援現況:現時 Gemini 可以支援繁體及簡體中文,無論是輸入或者輸出資料,均可完美對應。此外,據編輯部測試所得,它能夠理解廣東話,甚至在氐成回應時,亦可以廣東話語氣輸出。
- 文化認知:雖然 Gemini 能夠很好理解中文,在一些涉及歷史及文化的事項時,它有時就會略有不足。例如,當要求它創作廣東話笑話或謎語時,會產生完全不能明白的回應。
最新發展
Google 持續投入大量資源改進 Gemini 模型,最新發展包括:
- Deep Think 模式: 針對 Gemini 2.5 Pro 的實驗性增強推理模式,透過考慮多個假設來提升在複雜數學和程式碼等領域的表現。該模式將首先對信任測試者開放 。
- 進階安全防護: 顯著提高了 Gemini 對間接提示注入攻擊的保護率,使其成為迄今為止最安全的模型家族,這對於企業採用至關重要 。
- 思維摘要 (Thought summaries): 為企業級 AI 帶來清晰度和可審計性,將模型的原始思維(包括關鍵細節和工具使用)組織成清晰的格式,簡化調試並提高系統可靠性 。
- 電腦使用能力 (Computer Use): Project Mariner 的電腦使用能力正被整合到 Gemini API 和 Vertex AI 中,將在夏季廣泛推出,允許 AI 執行電腦任務 。
- 原生音訊輸出 (Native Audio Output): Live API 正在引入音訊-視覺輸入和原生音訊輸出對話的預覽版本,使 Gemini 的對話體驗更自然、更具表現力,並支持多說話者文本轉語音 。
【熱門報道】
Source : ezone.hk
目前,Gemini 個人版並未支援香港,但企業版則可以使用,個人用戶可能要依靠 VPN 方式使用。
