AI多模态浪潮来了！ChatGPT迎重磅升级算力需求喷发可期

2023-09-26 07:41:07

原文来源：科创板日报

图片来源：由无界 AI生成

当地时间25日，OpenAI宣布ChatGPT迎来重磅更新：这个聊天机器人如今“会看、会说、会听”——换言之，ChatGPT加入了语音与图像功能。未来两周内，Plus用户与企业用户便能体验新功能，开发人员等其他用户群体也有望在不久的将来体验。

其中，最受外界关注的是ChatGPT的图像理解能力。据介绍，用户可以向ChatGPT展示一张或多张图片，排查为何烧烤炉无法启动，检查冰箱里的菜能做什么美食，或分析复杂图表得出数据。若想让ChatGPT关注图片中的特定部分，还可以使用APP中的绘图工具高亮标注。

在OpenAI给出的示例视频中可以看到，当用户向ChatGPT发送一张自行车照片、询问如何调低车垫时，ChatGPT不仅会自发观察自行车型号、辨认零部件、给出详细步骤，还会看说明书，并分辨用户现有工具能否完成这项工作。

值得注意的是，同日发布的一篇论文中，OpenAI将这一能看图的模型称作GPT-4V(ision)。该模型在2022年已完成训练，之后在2023年早些时候开始早期测试访问。

借助GPT-4V，今年3月OpenAI与Be My Eyes组织合作开发Be My AI，可为盲人与视力障碍人士描述外界世界。测试表明，Be My AI可为50万盲人和视力障碍用户提供工具，满足他们在信息、文化和就业方面的需求。

另外，OpenAI还测试了GPT-4V的验证码破解及地理定位能力，前者表明模型具备解决谜题与执行复杂视觉推理任务的能力，后者则展现出了模型在搜索物品/地点的用处。但这两项功能将涉及网络安全及隐私问题。
至于本次更新的另一语音识别与生成功能，OpenAI表示，用户可以用这一功能为孩子讲述睡前故事，还可以在吵架时作为帮手。

OpenAI与专业配音演员合作，提供了5种不同的声音。另外，公司还与Spotify展开合作，通过这一功能将播客翻译为其他语言，同时保留播客主持人的声音。

值得一提的是，数据显示，近期ChatGPT流量回升。SimilarWeb数据显示，9月11日那一周，ChatGPT流量较前一周增长约12%。另一家分析公司Sensor Tower报告称，8月最后两周全球ChatGPT应用程序用户每周增长超过10%。据悉，流量增长的主要原因为学生开始返校，且印度及巴西市场迎来增长。

▌多模态大模型成兵家必争之地算力需求显著攀升

如今，多模态功能已成为各家AI大模型的必争之地。Meta最近推出AudioCraft，通过AI生成音乐；谷歌Bard及必应机器人均已部署多模式功能；苹果也在试验AI生成语音Personal Voice。

随着AI感知、交互与生成能力快速发展，应用场景与生态也有望进一步丰富。而语音与图像数据大小显著高于文本，券商指出，多模态大模型的训练推理算力需求将大幅攀升。

例如被谷歌寄予厚望的多模态大模型Gemini，据SemiAnalysi分析师Dylan Patel和Daniel Nishball透露，其已开始在TPUv5 Pod上进行训练，算力高达~1e26 FLOPS，是训练GPT-4所需算力的5倍。
华为副董事长、轮值董事长、CFO孟晚舟日前也表示，“人工智能的发展，算力是核心驱动力。大模型需要大算力，算力大小决定着AI迭代与创新的速度，也影响着经济发展的速度。算力的稀缺和昂贵，已经成为制约AI发展的核心因素。”

国信证券指出，AI三元素（大模型、算力、应用）呈螺旋式促进关系。AI三元素以“模型更新-算力芯片迭代、单位tokens成本降低-应用增加”循环往复，当三者中有一个要素喷发，就是强刺激期；三者同时没有更新，就会进入停滞期，等待下次爆发。

多模态大模型是未来发展趋势。通过将不同数据类型相互关联结合，可以大幅提高模型准确性和鲁棒性，应用场景进一步拓展。

同时，3月谷歌发布多模态具身视觉语言模型（VLM）PaLM-E，其可用于机器人领域；7月谷歌发布新一代视觉-语言-动作（VLA）模型Robotics Transformer 2（RT-2），专用于机器人领域，看好大模型赋能机器人趋势，分析师看好大模型赋能机器人。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

0/400

暂无评论

巴比特_

从 AI Grant 开始，看 Nat Friedman 与 Daniel Gross 如何投出美国人工智能的半壁江山

2023-08-28 06:36

AI自主智能体大盘点，构建、应用、评估全覆盖，人大高瓴文继荣等32页综述

2023-08-28 06:23

热门话题
查看更多
#
Gate2025年度报告
7315 热度
#
加密市场开年反弹
57.62万热度
#
我的2026第一条帖
7.65万热度
#
特朗普突袭委内瑞拉
6963 热度
#
Gate新币推荐
6891 热度

热门 Gate Fun
查看更多

1
PEEL
PEEL
市值:$3679.31持有人数:1
0.00%
2
<h1>dsfd
<h1>dsfd
市值:$3679.31持有人数:1
0.00%
3
<h1>dsfd
<h1>dsfd
市值:$3679.31持有人数:1
0.00%
4
<h1>dsfd
<h1>dsfd
市值:$3679.31持有人数:1
0.00%
5
<h1>dsfd
<h1>dsfd
市值:$3682.75持有人数:1
0.00%

AI多模态浪潮来了！ChatGPT迎重磅升级算力需求喷发可期

▌多模态大模型成兵家必争之地算力需求显著攀升

热门话题

Gate2025年度报告

加密市场开年反弹

我的2026第一条帖

特朗普突袭委内瑞拉

Gate新币推荐

热门 Gate Fun

PEEL

PEEL

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

置顶

2025年报的关键词：增长
用户、份额、合规，全在推进

AI多模态浪潮来了！ChatGPT迎重磅升级 算力需求喷发可期

▌多模态大模型成兵家必争之地 算力需求显著攀升

热门话题

Gate2025年度报告

加密市场开年反弹

我的2026第一条帖

特朗普突袭委内瑞拉

Gate新币推荐

热门 Gate Fun

PEEL

PEEL

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

<h1>dsfd

置顶

2025年报的关键词：增长 用户、份额、合规，全在推进

AI多模态浪潮来了！ChatGPT迎重磅升级算力需求喷发可期

▌多模态大模型成兵家必争之地算力需求显著攀升

2025年报的关键词：增长
用户、份额、合规，全在推进