GPT-4o

GPT-4o
开发者	OpenAI
首次发布	2024年5月13日，5个月前
前任	GPT-4 Turbo
类型	多模态（英语：Multimodal learning）; 大型语言模型; 基于转换器的生成式预训练模型; 基础模型;
许可协议	专有软件
网站	openai.com/index/hello-gpt-4o

GPT-4o（英语：Generative Pre-trained Transformer 4 Omni）是由OpenAI训练的多语言、多模态（多种类型数据，例如文本、图像、音频等）GPT大型语言模型。GPT-4o于2024年5月13日发布。 ^[1] 该模型比其前身GPT-4快两倍，而价格仅为其50%。该模型由米拉·穆拉蒂在OpenAI直播演示中宣布。 ^[1] OpenAI声称该模型将对所有用户免费，并为付费ChatGPT Plus用户提供高达5倍的消息上限。^[2]

背景

GPT-4o最初在LMSYS上以3个不同模型的形式暗中发布。这3个模型分别称为gpt2-chatbot、im-a-good-gpt2-chatbot和im-also-a-good-gpt2-chatbot。2024年5月7日，萨姆·奥尔特曼透露OpenAI发布了这些神秘的新模型。^[3]

功能

GPT-4o在语音、多语言和视觉基准测试中获取了最先进的成果，在音频语音识别和翻译领域创下了新纪录。^[4] GPT-4o在MMLU基准测试中的得分为88.7，而GPT-4 的得分为86.5。^[4] ^[5]

根据该公司的演示，GPT-4o将有效地将ChatGPT转变为可以进行实时语音对话的数字个人助理。它还能够使用文本和“视觉”进行交互，这意味着它可以查看用户上传的屏幕截图、照片、文档或图表，并就它们进行对话。OpenAI演示了与ChatGPT的语音对话，以获得解决数学问题的实时说明、讲述睡前故事并获得编码建议。^[6] 免费ChatGPT用户将可以与新的GPT-4o模型进行有限次数的交互，然后该工具会自动恢复依赖更小的GPT-4o mini模型；付费用户将可以使用最新GPT-4o访问更多数量的消息。^[6]

该模型支持超过50种语言，覆盖超过97%的口语语言。它目前是LMSYS Elo Arena基准测试中的领先模型。^[7]

GPT-4o mini

OpenAI于2024年7月18日发布了GPT-4o mini，比起GPT-4o更小，而且价格更便宜。^[8]

根据OpenAI的说法，其低成本预计对那些希望将其集成到服务中的公司、初创企业和开发者特别有用，因为他们通常会进行大量的API调用。其API的费用为每百万输入标记15美分，每百万输出标记60美分，相比之下，GPT-4o分别为5美元和15美元。它的性能也比GPT-3.5更好，而且比后者便宜60%。

参见

参考资料

^ ^1.0 ^1.1 Wiggers, Kyle. OpenAI debuts GPT-4o 'omni' model now powering ChatGPT. TechCrunch. 2024-05-13 [2024-05-13]. （原始内容存档于2024-05-22）（美国英语）.
^ Mauran, Cecily. OpenAI announces GPT-4o, a multimodal voice assistant that's free for all ChatGPT users. Mashable. 2024-05-13 [2024-05-13] （英语）.
^ Sam Altman "https://twitter.com/sama/status/1787222050589028528" Twitter, X. Retrieved 14 May 2024.
^ ^4.0 ^4.1 Hello GPT-4o. OpenAI. [2024-05-13]. （原始内容存档于2024-05-14）.
^ OpenAI教谷歌做语音助手！新模型GPT-4o科幻级语音交互，零延迟满情绪，AI进入HER时代, 郭晓静、郝博阳腾讯科技 2024-05-13 18:15.
^ ^6.0 ^6.1 OpenAI unveils newest AI model, GPT-4o. 2024-05-13 [2024-05-13] （英语）.
^ Fedus, William. GPT-4o is our new state-of-the-art frontier model..
^ OpenAI. GPT-4o mini: advancing cost-efficient intelligence. [2024-07-21].

外部链接

[:0-1] 1.0 ^1.1 Wiggers, Kyle. OpenAI debuts GPT-4o 'omni' model now powering ChatGPT. TechCrunch. 2024-05-13 [2024-05-13]. （原始内容存档于2024-05-22）（美国英语）.

[2] Mauran, Cecily. OpenAI announces GPT-4o, a multimodal voice assistant that's free for all ChatGPT users. Mashable. 2024-05-13 [2024-05-13] （英语）.

[3] Sam Altman "https://twitter.com/sama/status/1787222050589028528" Twitter, X. Retrieved 14 May 2024.

[:1-4] 4.0 ^4.1 Hello GPT-4o. OpenAI. [2024-05-13]. （原始内容存档于2024-05-14）.

[5] OpenAI教谷歌做语音助手！新模型GPT-4o科幻级语音交互，零延迟满情绪，AI进入HER时代, 郭晓静、郝博阳腾讯科技 2024-05-13 18:15.

[:2-6] 6.0 ^6.1 OpenAI unveils newest AI model, GPT-4o. 2024-05-13 [2024-05-13] （英语）.

[7] Fedus, William. GPT-4o is our new state-of-the-art frontier model..

[8] OpenAI. GPT-4o mini: advancing cost-efficient intelligence. [2024-07-21].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

查论编
产品	ChatGPT DALL-E GitHub Copilot OpenAI Five（英语：OpenAI Five） Sora Whisper（英语：Whisper (speech recognition system)） SearchGPT
基础模型	OpenAI Codex GPT家族 GPT-1 GPT-2 GPT-3 GPT-4 GPT-4o o1（英语：OpenAI o1）
相关人物	萨姆·阿尔特曼格雷格·布罗克曼米拉·穆拉蒂伊尔亚·苏茨克维
有关	AI Dungeon（英语：AI Dungeon） Auto-GPT "Deep Learning（英语：Deep Learning (South Park)）" Microsoft 365 Copilot Microsoft Bing
分类共享资源

查论编自然语言处理
一般术语	语料库口语语料库停用词词袋完全人工智能（英语：AI-complete） n元语法（双字母组、三元语法（英语：Trigrams））
文本挖掘	文本分割词性标注（英语：Part-of-speech tagging）拆句处理（英语：Shallow parsing）复合词处理（英语：Compound term processing）搭配提取（英语：Collocation extraction）词干提取词形还原命名实体识别指代文本情感分析概念挖掘（英语：Concept mining）语法分析词义消歧术语提取（英语：Terminology extraction）真实大小写处理（英语：Truecasing）
自动摘要（英语：Automatic summarization）	多文档摘要（英语：Multi-document summarization）句子抽取（英语：Sentence extraction）文本简化（英语：Text simplification）
分布语义（英语：Distributional semantics）模型	潜在语义学 Seq2Seq模型 Word2vec 语言模型大型语言模型基础模型 LLaMA ChatGPT GPT-4 文心一言词嵌入
机器翻译	电脑辅助翻译基于实例（英语：Example-based machine translation）基于规则（英语：Rule-based machine translation）
自动识别与数据采集	语音识别语音合成光学字符识别自然语言生成提示工程
主题模型	弹珠分布（英语：Pachinko allocation）隐含狄利克雷分布潜在语义索引
计算机辅助审查（英语：Computer-assisted reviewing）	自动作文评分（英语：Automated essay scoring）语料库检索工具（英语：Concordancer）文法检查器（英语：Grammar checker）预测文本（英语：Predictive text）拼写检查语法猜测（英语：Syntax guessing）
自然语言用户界面（英语：Natural language user interface）	自动在线助手聊天机器人文字冒险游戏问答系统