周二,Google以Gemma 3发布了Gemma 3,这是一种基于Gemini 2。0的开源AI型号,它的尺寸令人惊讶。
完整的模型在单个GPU上运行,但Google基准测试了它,就像它在需要更大的计算能力的较大型号时,它的竞争力足够。
图片:Google
Google的新模型家族说是“与双子座边境模型的家族”的代码,有四个尺寸从10亿到270亿个参数不等。
Google将其定位为需要直接在手机,笔记本电脑和工作站等设备上部署AI的开发人员的实用解决方案。
Google DeepMind的研究副总裁Clement Farabet和Google Deepmind的董事Tris Warkentin在一份公告周三。
尽管尺寸相对较小,但Gemma 3击败了更大的型号,包括Meta的Llama-405B,DeepSeek-V3,Alibaba的Qwen 2.5 Max和Openai的O3-Mini在Lmarena的排行榜上。
27B指令调整版本在LMSYS Chatbot Arena Elo等级上得分为1339,将其列入了总体上十大型号。
Gemma 3也是多模式 - 它在其较大的变体中处理文本,图像,甚至是简短的视频。
它扩展的上下文窗口为128,000个令牌(1B版本的32,000个)使以前的Gemma 2的8,000 token限制相形见war,从而使其可以处理并立即了解更多信息。
该模型的全球范围扩展到140多种语言,开箱即用35种语言。对于开发人员为国际观众构建应用程序的开发人员而言,它将其定位为可行的选择,而无需为不同地区提供单独的模型。
Google声称,自去年推出以来,Gemma家族已经看到了超过1亿个下载,开发人员创建了60,000多个变体。
社区创造的”宝石“ - 一个围绕Gemma模型家族建立的整个生态系统 - 包括东南亚,保加利亚的自定义版本和名为Audio模型的自定义文本Omnaudio.
开发人员可以通过Vertex AI,Cloud Run,Google Genai API或在本地环境中部署Gemma 3应用程序,从而为各种基础架构要求提供灵活性。
测试Gemma
我们将Gemma 3通过一系列现实世界测试进行了评估,以评估其跨不同任务的性能。这是我们在每个区域中发现的。
创意写作
Gemma 3的创意写作能力使我们感到惊讶。尽管只有270亿个参数,但它还是超过了Claude 3.7十四行诗,最近在我们的创意写作测试中击败了Grok-3。它的远景赢得了胜利。
Gemma 3制作了我们测试过的所有模型中最长的故事,除了Longwriter之外,该模型是专门为扩展叙述而设计的。
质量也不是为了牺牲数量而牺牲的 - 写作引人入胜且原始,避免了大多数AI模型倾向于显示的配方式开口。
杰玛(Gemma)也非常擅长创造具有强大叙事连贯性的详细,身临其境的世界。角色名称,位置和描述都自然地适合故事上下文。
对于创意作家来说,这是一个重要的优势,因为其他模型有时会混合文化参考或跳过这些小细节,最终杀死了沉浸式。 Gemma 3始终保持一致性。
故事的较长格式可以通过叙事段之间的无缝过渡进行自然故事发展。该模型非常擅长以创造令人信服的阅读体验的方式来描述动作,感觉,思想和对话。
当被要求结合起来时,它设法这样做,而不会破坏故事的内部逻辑。到目前为止,所有其他模型都倾向于在试图包装并结束故事时将其弄乱。不是杰玛。
对于寻求AI助手的创意作家,可以帮助您进行安全工作小说项目,Gemma 3似乎是当前的领先者。
您可以阅读我们的提示以及我们的github中的所有答复存储库.
摘要和信息检索
虽然其创意写作是一流的,但Gemma 3在文档分析任务方面大为挣扎。
我们将47页的IMF文档上传到了Google的AI工作室,当系统接受该文件时,该模型未能完成其分析,从而使任务中途停滞不前。多次尝试产生了相同的结果。
我们尝试了一种与Grok-3一起使用的替代方法,将文档内容直接复制和粘贴到界面中,但遇到了同样的问题。
该模型根本无法处理处理和总结长效内容。
值得注意的是,此限制可能与Google的AI Studio实现有关,而不是Gemma 3模型本身的固有缺陷。
在本地运行该模型可能会为文档分析带来更好的结果,但是依赖Google官方界面的用户至少至少目前可能会面临这些限制。
敏感主题
在AI ChatBot界面的独特功能中,Google AI Studio提供了非常严格的内容过滤器,可以通过一系列滑块访问。
我们通过要求对假设的不道德情况(吸引已婚妇女的建议)提出可疑的建议来测试Gemma的界限,并且该模型坚定地拒绝遵守。同样,当被要求为虚构小说生成成人内容时,它拒绝产生任何遥不可及的建议。
我们通过关闭Google的参数来调整或绕过这些审查过滤器的尝试并没有真正起作用。
Google AI Studio的“安全环境”在理论上控制模型在生成可能被视为骚扰,仇恨言论,性明确或危险的内容时的限制。
即使所有限制都关闭了,该模型也始终拒绝参与包含有争议,暴力或进攻性元素的对话,即使这些对话显然是出于虚构的创造性目的。
最后,控件并没有真正有所作为。
希望与敏感主题合作的用户,即使在合法的创意环境中,也可能需要找到越狱的方法,或者在制作非常谨慎的提示。
总体而言,Gemma 3对愿意使用Google Studio的人的内容限制似乎与Chatgpt的内容相当,有时甚至根据用例过于限制。
那些愿意去本地的人,不会面对这些问题。对于需要一个不错的AI接口和一个未经审查的模型的人来说,最好的选择似乎是Grok-3的限制较少。所有其他封闭模型也拒绝了。
您可以阅读我们的提示以及我们的github中的所有答复存储库.
多模式。
Gemma 3在其核心上是多模式,这意味着它可以在不依赖单独的视觉模型的情况下对图像进行处理和理解。
在测试中,我们遇到了一些平台限制。例如,Google的AI Studio不允许我们直接使用模型处理图像。
但是,我们能够通过拥抱Face的界面来测试图像功能,该界面具有较小版本的Gemma 3。
该模型证明了对图像的扎实理解,成功识别关键要素并在大多数情况下提供相关分析。它可以以合理的精度识别照片中的对象,场景和一般内容。
然而,通过详细的视觉分析,较小的模型变体显示出局限性。
在我们的一项测试中,它未能正确解释财务图表,这表明比特币的价格在2024年的68,618美元左右,图像中实际上并未显示出来,但可能来自其培训数据。
尽管Gemma 3的多模式功能具有功能性,但使用较小的模型可能与较大的专业视觉模型的精度(甚至是开放源代码)的精确度(如Llama 3.2 Vision,Llava或Phi Vision),尤其是在处理需要细化视觉分析的图表,图形或内容时,尤其是在处理图表,图形或内容时。
非数学推理
正如对于没有专门推理能力的传统语言模型所预期的那样,Gemma 3在面对需要复杂的逻辑扣除而不是简单的令牌预测的问题时显示出明显的局限性。
我们从BigBench数据集中通过通常的神秘问题对其进行了测试,该模型未能识别关键线索或从提供的信息中得出逻辑结论。
有趣的是,当我们试图通过明确的思想推理引导模型(本质上要求它“逐步思考”)时,它触发了暴力过滤器并拒绝提供任何响应。
您可以阅读我们的提示以及我们的github中的所有答复存储库.
这是您的模型吗?
根据您的特定需求和用例,您会爱或讨厌Gemma 3。
对于创意作家来说,Gemma 3是一个出色的选择。它制作详细,连贯和引人入胜的叙事能力优于表现一些更大的商业模型包括Claude 3.7,Grok-3和GPT-4.5,并具有最低条件。
如果您编写小说,博客文章或其他保持在安全工作边界内的创意内容,则此模型以零成本提供出色的质量,并在可访问的硬件上运行。
从事多语言应用程序的开发人员和创建者将欣赏Gemma 3对140多种语言的支持。这使得在不维护多种语言的模型的情况下创建特定于区域的服务或全球应用程序是实用的。
具有有限计算资源的小型企业和初创公司也可以享受Gemma 3的效率。在单个GPU上运行高级AI功能会大大降低实施无需大规模基础设施投资的AI解决方案的进入障碍。
Gemma 3的开源性质提供了灵活性,诸如Claude或Chatgpt之类的封闭模型根本无法匹配。
开发人员可以为特定领域进行微调,修改其行为,或将其深入集成到没有API限制或订阅成本的情况下。
对于具有严格隐私要求的应用程序,该模型可以在本地硬件上与Internet完全断开连接。
但是,需要分析冗长文档或使用敏感主题的用户会遇到令人沮丧的局限性。需要细微的推理或处理有争议材料的能力的研究任务仍然更适合更大的封闭源模型,这些模型具有更大的灵活性。
这也不是真正擅长的推理任务,编码或我们社会现在希望AI模型表现出色的任何复杂任务。因此,不要指望它会为您生成游戏,改进您的代码或在创意文字写作之外的任何内容。
总体而言,Gemma 3不会为每个任务代替最先进的专有或开源推理模型。
然而,它的性能,效率和可定制性的结合将其定位为一个非常有趣的选择,对于喜欢尝试新事物的AI爱好者,甚至是想要控制和在当地运行模型的开源迷。
编辑塞巴斯蒂安·辛克莱(Sebastian Sinclair)
标签: