news 2026/6/2 19:47:21

小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
小杯Gemini战胜GPT5.2,1分钟模拟Windows操作系统
一水 发自 凹非寺
量子位 | 公众号 QbitAI

谷歌丢出Gemini 3 Flash,给AI圈示范了啥叫:小孩子才做选择题,成年人当然是全都要(doge)。

一个公式来形容这款新模型:Gemini 3 Flash=Pro级智能+Flash级速度+更低价格

比速度,它几乎是Gemini 2.5 Pro的3倍,实测更是丝滑到起飞:

比智能,它更是在多个经典测试中,战胜了包括Gemini 3 Pro、GPT5.2在内的一众顶尖模型。

数图中有多少根手指,GPT5.2张口就来“5根”,而Gemini 3 Flash成功识破陷阱并给出正确答案“6根”。

画一张骑车的鹈鹕,Gemini 3 Flash(右上)的表现明显优于Gemini 2.5 Pro(左)和Gemini 3 Pro(右下),而且这些还都是反复测试后抽取的最佳结果。

考察眼力环节,看模型们是否认识“谷歌宣传委员”Logan kilpatrick。

Gemini 3 Flash率先答对,而Gemini 3 Pro将他误认为Gemini前负责人Jack Krawczyk(已于今年4月离职并转投Meta)

在更多测试中,Gemini 3 Flash都展示出自己不俗的综合实力。

虽然叫“Flash”,但其实是谷歌迄今最强智能体模型

敲黑板,这款模型即日起已面向全球所有用户推出

普通用户可通过Gemini应用以及谷歌搜索的AI模式使用;专业开发者可在Google AI Studio、Gemini CLI以及谷歌全新的智能体开发平台Google Antigravity中,通过Gemini API进行调用和集成。

同时,企业客户也可通过Vertex AI和Gemini Enterprise两大平台获取其服务。

整体而言,Gemini 3 Flash还是继承了Gemini 3 Pro的复杂推理能力、多模态和视觉理解能力、Vibe编程能力,以及处理智能体任务的能力,只不过响应速度更快。

谷歌官方表示,这是他们迄今为止“在智能体工作流程方面最出色的模型”。

话不多说,我们这就看看Gemini 3 Flash能做什么以及实际表现如何?

比如让它创建一个功能完整、美观的Windows操作系统,核心环节几乎用时不到一分钟(视频未加速)

分享该测试的网友表示,“这是一款令人叹为观止的模型”。

还能用来直接生成游戏,网友所使用的提示词如下:

用代码为我创建一个《侠盗猎车手6》游戏,并尽可能使其逼真,添加您选择的任何功能。

游戏的感觉有了,只不过画面仍有一定提升空间。

不过如果换成一些难度稍低一点的小游戏,效果倒还不错。

而用它来生成一张天气卡的效果be like:

肉眼可见设计更高级,并且交互效果更丰富。

最后我们简单上手实测一下,让它给自己生成一个介绍网站。

经过实测,网站上面的测速功能可以正常使用,不只是个空有前端的“花架子”:

而且点击“立即体验”按钮后,也确实能跳转到Gemini的官网网页。

这波看下来,你觉得Gemini 3 Flash表现如何?

性能速度双双超越2.5 Pro,价格却低得多

此外,官方测评显示,Gemini 3 Flash主打一个“加速不降智”。

性能上不仅显著超越Gemini 2.5 Pro,而且在专业多模态测试MMMU Pro、复杂推理测试ARC-AGI-2等方面,还能略胜Gemini 3 Pro。

更重要的是,它还在性能、成本和速度方面突破了帕累托极限——速度比Gemini 2.5 Pro快3倍,平均使用的token数量却少30%。

价格方面,Gemini 3 Flash相比前几代模型更具性价比。

其每百万输入token为0.5美元,每百万输出token为3美元(音频输入价格仍为每百万输入token 1美元)

虽然略贵于Gemini 2.5 Flash(每百万输入0.3美元/每百万输出2.5美元),但考虑到其性能和速度,这一价格仍然相当具有吸引力。

(Gemini 2.5 Pro价格为,每百万输入1.25美元/每百万输出10美元。)

至此,谷歌Gemini 3算是集齐了全部家族成员,包括之前的Pro和Deep Think深度思考版。

而且说到思考模式,根据开发者文档,这次的Gemini 3 Flash一共有四档思考模式——minimal、low、medium、high

只需看一眼图片效果演进,你就知道这几档的区别了(doge):

One More Thing

有意思的是,Gemini 3 Flash发布后,谷歌这边还立马开了一个《宝可梦:水晶版》的直播。

两位对战选手分别是Gemini 3 Flash和Gemini 3 Pro。

虽然最终结果还没有出来,但初步来看Gemini 3 Pro暂处于领先地位。

有网友还惊喜发现,Gemini 3 Pro在游戏中似乎已经展现出某种系统级思考能力。

感兴趣的童鞋也可以蹲一波结果了~以及坐等一个反转。

参考链接:
[1]https://x.com/OfficialLoganK/status/2001428651121025391?s=20
[2]https://x.com/simonw/status/2001424152763470238?s=2
[3]https://blog.google/products/gemini/gemini-3-flash/

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/2 5:10:52

Kotaemon支持冷启动方案,新系统也能快速见效

Kotaemon支持冷启动方案,新系统也能快速见效在智能硬件产品竞争日益激烈的今天,用户对“开箱即用”的体验要求越来越高。尤其是部署在边缘端的AI设备——比如语音助手、工业终端或车载交互模块——一旦首次上电后需要等待十几秒甚至更久才能响应&#xf…

作者头像 李华
网站建设 2026/6/1 8:49:34

把 Chatbot 拉进机房:运维自动化的“人手 +1”革命

把 Chatbot 拉进机房:运维自动化的“人手 +1”革命 作者:Echo_Wish 🌧 引子:人永远不该当“接口适配器” 干运维的人,都懂一句“扎心名言”: 90% 的故障不是复杂,是重复。 用户问:“服务器是不是挂了?” 开发问:“日志怎么看?” 业务问:“MySQL 怎么新建账号?”…

作者头像 李华
网站建设 2026/6/2 18:14:02

Langchain-Chatchat用于机场航站楼管理知识查询

Langchain-Chatchat 在机场航站楼管理中的智能知识服务实践 在现代机场运营中,一线工作人员每天面临大量高频、高时效性的信息查询需求:登机口临时变更如何通知旅客?廊桥故障是否有备用方案?航班延误超两小时的餐饮安置标准是什么…

作者头像 李华
网站建设 2026/6/1 1:32:39

当 AI 拿起笔:生成式 AI 如何重写传统出版的未来?

友友们好! 我是Echo_Wish,我的的新专栏《Python进阶》以及《Python!实战!》正式启动啦!这是专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会…

作者头像 李华
网站建设 2026/6/1 5:21:41

舆情分析:大数据如何重塑公共关系?——从危机预警到精准应对

舆情分析:大数据如何重塑公共关系?——从危机预警到精准应对 作者:Echo_Wish 🧠 引子:一句话让你理解舆情与 PR 的生命线 有一句互联网时代的老话: “信息传播的速度,永远快过你的修复速度。” 当一条关于品牌的负面消息在社交网络上爆发,它可能在 10 分钟内扩散至千…

作者头像 李华
网站建设 2026/6/2 1:15:01

FaceFusion能否实现历史人物“复活”演绎?

FaceFusion能否实现历史人物“复活”演绎?在纪录片中,一位白发苍苍的老人站在讲台前,眼神深邃地讲述着相对论的诞生;博物馆里,慈禧太后缓缓开口,用略带京腔的语调叙述晚清政局——这些画面并非来自未来的时…

作者头像 李华