近日,谷歌的大语言模型Gemini3Pro以其卓越的性能引起了业界关注。该模型在多项基准测试中表现出色,特别是在LMArenaAI模型排行榜上以1501Elo的高分登顶,并在GPQADiamond测试中取得了超过91%的成绩,显示了其强大的逻辑分析和问题解决能力。
Gemini3Pro的代码和游戏生成能力尤为突出。开发者PietroSchirano的测试显示,该模型能够仅用一条指令就一次性生成一个功能完备的3D乐高编辑器,处理复杂的空间逻辑和核心功能。此外,Gemini3Pro还成功复刻了经典手机游戏《RidiculousFishing》,包括音效和音乐,这标志着大模型在游戏开发领域的显著进步。
在多模态推理能力的测试中,Gemini3Pro在MMMU-Pro和Video-MMMU基准测试中分别取得了81%和87.6%的高分,重新定义了行业标准。在SimpleQAVerified测试中,其得分达到72.1%,表明模型在事实准确性方面有了巨大提升。谷歌强调,这些进步意味着Gemini3Pro能够高度可靠地解决科学、数学等领域的复杂问题。尽管如此,与Anthropic公司的ClaudeCode模型相比,Gemini3Pro在“指令遵循度”上稍显逊色,特别是在执行多步骤指令任务时。


