AI圖像生成技術大比拼！港大22款模型評測報告：國產AI模型內容質素、圖像修改能力強

| Gensan | 06-03-2025 12:53 |

人工智能（AI）的發展日新月異，其中圖像生成技術更是突飛猛進，為各行各業帶來無限可能。然而，AI 模型的安全性及倫理問題亦備受關注，香港大學經管學院發表《人工智能模型圖像生成能力綜合評測報告》，針對 15 個「文生圖模型」及 7 個「多模態大語言模型」進行全面評估，結果顯示中國 AI 模型在圖像生成能力方面表現突出。

是次研究由港大經管學院創新及資訊管理學教授兼夏利萊伉儷基金教授（戰略信息管理學）蔣鎮輝率領人工智能大模型評測團隊進行。團隊構建一套全面的人工智能模型圖像生成能力評測體系，從內容質素、安全與責任性、圖像修改能力等多個維度對各個模型進行評估，目的是為用戶提供更科學的參考依據，同時促進 AI 繪圖技術的健康發展。

受測模型包括：

國家	類型	模型	機構
中國	專業文生圖模型	360智繪	360
中國	專業文生圖模型	CogView3 – Plus	智譜華章
中國	專業文生圖模型	DeepSeek Janus-Pro	DeepSeek
中國	專業文生圖模型	混元生圖	騰訊
中國	專業文生圖模型	即夢AI	字節跳動
中國	專業文生圖模型	秒畫 SenseMirage V5.0	商湯科技
中國	專業文生圖模型	妙筆生畫	Vivo
中國	專業文生圖模型	通義萬相 wanx-v2	阿裏巴巴
中國	專業文生圖模型	文心一格2	百度
美國	專業文生圖模型	DALL-E 3	OpenAI
美國	專業文生圖模型	FLUX.1 Pro	Black Forest Labs
美國	專業文生圖模型	Imagen 3	Alpha (Google)
美國	專業文生圖模型	Midjourney v6.1	Midjourney
美國	專業文生圖模型	Playground v2.5	Playground AI
美國	專業文生圖模型	Stable Diffusion 3 Large	Stability AI
中國	多模態大語言模型	豆包	字節跳動
中國	多模態大語言模型	商量 SenseChat-5	商湯科技
中國	多模態大語言模型	通義千問 V2.5.0	阿裏巴巴
中國	多模態大語言模型	文心一言 V3.2.0	百度
中國	多模態大語言模型	訊飛星火	科大訊飛
美國	多模態大語言模型	Gemini 1.5 Pro	Alpha (Google)
美國	多模態大語言模型	GPT-4o	OpenAI
注：模型排序按照相同國家和相同類型模型的首字母順序排列。

字節跳動、百度模型表現卓越多模態大語言模型更具優勢

評測結果顯示，字節跳動的「即夢 AI」和「豆包」，以及百度的「文心一言」，在新圖像生成的內容質素及圖像修改方面均表現出色。其中，「即夢 AI」在圖像生成質量方面排名第一，而「豆包」則在圖像修改方面拔得頭籌。

值得關注的是，早前備受矚目的 DeepSeek 最新推出的文生圖模型「Janus-Pro」，其表現卻未如理想，在新圖像生成方面排名墊底，令人意外。此外，研究亦發現部分文生圖模型雖然在內容質素方面表現優異，但在安全與責任方面的表現則強差人意，例如容易產生帶有偏見、歧視或侵犯版權的圖像，反映出 AI 繪圖技術在發展過程中仍需兼顧倫理和社會責任。

新圖像生成的內容質量的綜合排名

排名	模型名稱	Elo評分
1	即夢AI	1123
2	文心一言 V3.2.0	1105
3	Midjourney v6.1	1094
4	豆包	1084
5	妙筆生畫	1083
6	FLUX.1 Pro	1079
7	GPT-4o	1058
8	Gemini 1.5 Pro	1045
9	DALL-E 3	1025
10	商量 SenseChat-5	1022
11	秒畫 SenseMirage v5.0	1014
12	混元生圖	1005
12	Playground v2.5	1005
14	Imagen 3	1000
15	Stable Diffusion 3 Large	995
16	訊飛星火	969
17	CogView3 – Plus	953
17	通義千問 V2.5.0	953
19	文心一格2	890
20	通義萬相 wanx-v2	854
21	360智繪	834
22	DeepSeek Janus-Pro	810

圖像修改的綜合排名

排名	模型名稱	平均得分
1	豆包	5.30
2	即夢AI	5.20
3	文心一言 V3.2.0	5.16
4	GPT-4o	5.02
5	Gemini 1.5 Pro	4.97
6	妙筆生畫	4.71
7	Midjourney v6.1	4.66
7	秒畫 SenseMirage v5.0	4.66
9	CogView3 – Plus	4.58
10	通義千問 V2.5.0	4.39
11	通義萬相 wanx-v2	4.25
12	360智繪	3.85
13	文心一格2	3.05

綜合評測結果，研究團隊認為多模態大語言模型在整體表現上更勝一籌，不僅在圖像生成質量和圖像修改方面與文生圖模型不相伯仲，而且在安全性、易用性和多樣化場景支援方面更具優勢。

新圖像生成的安全與責任的排名

排名	模型	平均得分
1	GPT-4o	6.04
2	通義千問 V2.5.0	5.49
3	Gemini 1.5 Pro	5.23
4	訊飛星火	4.44
5	混元生圖	4.42
6	360智繪	4.27
7	Imagen 3	4.1
8	商量 SenseChat-5	4.05
9	豆包	4.03
10	FLUX.1 Pro	3.94
11	秒畫 SenseMirage v5.0	3.88
12	DALL-E3	3.51
13	妙筆生畫	3.47
14	文心一言 V3.2.0	3.35
15	通義萬相 wanx-v2	3.26
15	文心一格2	3.22
17	CogView3 – Plus	2.86
18	即夢AI	2.63
19	Stable Diffusion 3 Large	2.35
20	Midjourney v6.1	2.29
21	DeepSeek Janus-Pro	2.19
22	Playground v2.5	1.79

蔣鎮輝教授表示：「在當前中國科技迅猛發展的浪潮中，我們在推動技術突破的同時，必須在創新、提升質素與安全責任之間取得平衡，以推動行業健康發展。這套多模態評測體系將為生成式人工智能技術發展奠定重要基礎，助力建立一個安全、負責任且可持續的人工智慧大模型生態系統。」

Source：HKU

科技 EduTech Today

Page 1 of 9

AI圖像生成技術大比拼！港大22款模型評測報告：國產AI模型內容質素、圖像修改能力強

| Gensan | 06-03-2025 12:53 |

受測模型包括：

字節跳動、百度模型表現卓越多模態大語言模型更具優勢

新圖像生成的內容質量的綜合排名

圖像修改的綜合排名

新圖像生成的安全與責任的排名

科技 EduTech Today

相關文章

科技焦點

網絡生活

遊戲動漫

教學評測

IT Times

其他

AI圖像生成技術大比拼！港大22款模型評測報告：國產AI模型內容質素、圖像修改能力強

| Gensan | 06-03-2025 12:53 |

受測模型包括：

字節跳動、百度模型表現卓越 多模態大語言模型更具優勢

新圖像生成的內容質量的綜合排名

圖像修改的綜合排名

新圖像生成的安全與責任的排名

科技 EduTech Today

相關文章

OpenAI GPT-5.6 驚人規格外洩：150 萬 Token 專治「長文焦慮」 呢 4 類打工仔最快受惠

Vertu 推 AI 摺疊機售價 $53,000 港元起！億萬富翁專用手機係點運作？

iPhone 18 Pro Max 外洩：eSIM 版電池更大！兩款電池容量分地區

NVIDIA RTX Spark 重塑 AI PC 定義！Surface Laptop Ultra + ASUS + Lenovo 全線秋季跟進

字節跳動、百度模型表現卓越多模態大語言模型更具優勢

OpenAI GPT-5.6 驚人規格外洩：150 萬 Token 專治「長文焦慮」呢 4 類打工仔最快受惠