谷歌发布了其最新的人工智能模型 "Gemini 1.5",该模型具有该公司所称的 "实验性 "一百万令牌上下文窗口。
这项新功能允许 Gemini 1.5 处理超长文本段落(多达一百万字符),以理解上下文和含义。这使以前的人工智能系统(如 Claude 2.1 和 GPT-4 Turbo)相形见绌,它们的最大处理能力分别为 20 万和 12.8 万字符:
"谷歌研究人员在一份技术论文(PDF)中说:"Gemini 1.5 Pro 在各种模式的长语境检索任务中实现了近乎完美的召回率,提高了长文档质量保证、长视频质量保证和长语境 ASR 的先进水平,并在一系列广泛的基准测试中达到或超过了 Gemini 1.0 Ultra 的先进性能。
谷歌最新模型的高效性归功于其创新的专家混合(MoE)架构。
"谷歌DeepMind首席执行官德米斯-哈萨比斯(Demis Hassabis)解释说:"传统的Transformer是一个大型神经网络,而MoE模型则被划分为更小的'专家'神经网络。
"根据输入的类型,MoE 模型学会有选择地激活其神经网络中最相关的专家通路。这种专业化大大提高了模型的效率。
为了展示 100 万个令牌上下文窗口的威力,谷歌展示了双子座 1.5 如何摄取整个 326914 个令牌的阿波罗 11 号飞行记录,然后准确回答相关的具体问题。它还能根据提示总结出一部拥有 684,000 个令牌的无声电影的关键细节。
谷歌最初为开发者和企业提供免费访问有限的 Gemini 1.5 预览版的机会,该预览版有一个 100 万令牌的上下文窗口。12.8万个令牌的公众通用版本将于稍后发布,同时还将提供详细的定价信息。
目前,一百万代币的功能仍处于试验阶段。但如果 Gemini 1.5 能够实现其早期承诺,那么它将为人工智能理解复杂、真实世界文本的能力设定一个新标准。
有兴趣测试 Gemini 1.5 Pro 的开发者可以在 AI Studio 注册。谷歌表示,企业客户可以联系他们的 Vertex AI 客户团队。
通过DeepL.com(免费版)翻译