谷歌(Google)、OpenAI 和 Mistral 在短短 12 小时内就发布了各自尖端人工智能模型的新版本。
Meta 也即将推出 Llama 3 模型,OpenAI 备受期待的 GPT-5 也在筹备中。
最初由 ChatGPT 主导的这一高度小众的产品类别,现在已经充斥着超越大技术和开放与闭源鸿沟的替代产品。
谷歌双子座专业版 1.5
谷歌的 Gemini Pro 1.5 首先引起了轰动,它在长语境理解方面取得了进步,向 Claude 3 Opus 发起了挑战,后者在这一领域独占鳌头。
Gemini Pro 1.5 能够处理多达 100 万个标记,可同时处理大量信息,包括 70 万个单词、一小时的视频或 11 小时的音频。
其 Mixture-of-Experts (MoE) 架构可针对特定任务使用专门的模型,从而提高效率和性能。
谷歌的 Gemini 模型花名册相当复杂,但这是其最能胜任典型任务的模型。
新版 GPT-4 Turbo
OpenAI 随后发布了新版本 GPT-4 Turbo,具有更强的数学和视觉处理能力。
根据 X 发布的消息,"带有视觉功能的 GPT-4 Turbo 现在可以在 API 中使用。视觉请求现在还可以使用 JSON 模式和函数调用"。
OpenAI 预计将很快发布 GPT -5 以及文本到视频模型 Sora,后者目前还没有明显的竞争对手(不过会有所改变)。
Mixtral 8x22B
然而,最大的惊喜可能来自 Mistral,他们大胆地将 Mixtral 8x22B 型号发布为可通过洪流免费下载的 281GB 文件。
这个采用 Apache 2.0 许可证的开源模型拥有令人印象深刻的 1760 亿个参数和 65000 个代币的上下文长度,有望超越 Mistral 之前的 Mixtral 8x7B 模型,而后者已经在各种基准测试中超越了 Llama 2 70B 等竞争对手。
Mixtral 8x22B 先进的 MoE 架构实现了高效计算,性能较之前的迭代产品有所提高。
Meta Llama 3 即将推出
有报道称,Meta 公司也不甘落后,最早可能在下周发布其备受期待的 Llama 3 型号的小型版本,而完整的开源型号仍将在 7 月份发布。
预计 Llama 3 将有各种尺寸,从与 Claude Haiku 或 Gemini Nano 竞争的超小型机型,到可与 GPT-4 或 Claude 3 Opus 匹敌的较大型、反应灵敏且具备推理能力的机型。
模型倍增
曾经由 ChatGPT 主导的生成式人工智能生态系统现在充斥着各种替代方案。
几乎所有大型科技公司都直接或通过大量投资参与其中。随着每家公司的加入,由一家公司主导市场的希望越来越渺茫。
我们现在还看到,OpenAI、Anthropic、谷歌等公司的闭源模型与 Mistral、Meta 等公司的闭源替代模型之间的差距正在缩小。
更多的人还很难接触到开源模型,但这种情况也有可能改变。
那么,这些模型究竟是代表了机器学习的真正进步,还是更多的相同但更好的东西呢?这取决于你问谁。
有些人,比如埃隆-马斯克,预测人工智能将在一年内超过人类智能。
另一些人,比如 Meta 首席科学家 Yann LeCun,则认为人工智能在任何可靠的智能衡量标准上都远远落后于我们。
LeCun 在二月份谈到目前的法学硕士时解释说:"所以基本上,他们不能发明新东西。它们会从公共数据中反刍出它们接受过训练的内容,这意味着你可以从谷歌获得这些数据。人们一直在说,'天啊,我们需要监管法律硕士,因为他们会很危险'。事实并非如此。
Meta公司的目标是创建 "对象驱动型 "人工智能,它能更真实地理解世界,并尝试围绕世界进行规划和推理。
"我们正在努力研究如何让这些模型不仅会说话,而且能够真正进行推理、规划............拥有记忆。 ......拥有记忆,"Meta 公司人工智能研究副总裁 Joelle Pineau 解释说。
OpenAI 的首席运营官布拉德-莱特凯普(Brad Lightcap)也表示,他的公司正致力于提高人工智能的推理能力和处理更复杂任务的能力。
"我们将开始看到能以更复杂的方式承担更复杂任务的人工智能,"他在最近的一次活动上说,"我认为随着时间的推移......我们将看到模型走向更长、更复杂的任务,而这隐含地要求提高它们的推理能力。"
随着 2024 年夏天的到来,人工智能界和整个社会都将密切关注这些科技巨头的实验室会有哪些突破性的发展。
到今年年底,这将是一个相当丰富多彩的评选。