Meta推出Llama 3.2视觉模型，多模态功能助力AI交互新体验

志斌 • 2024年10月10日上午10:32 • 人工智能

大模型之家讯在Meta Connect大会上，Meta公司推出了其最新的Llama 3.2模型，这也是Meta首个能够理解图像和文本的旗舰视觉模型。Llama 3.2包含中型（11B参数）和小型（90B参数）两个版本，以及更轻量化的纯文本模型（分别拥有1B与3B参数），后两款模型主要面向特定移动与边缘设备。

Meta公司CEO扎克伯格在开幕主题演讲中表示，Llama 3.2是Meta的首个开源多模态模型，它将支持多种需要视觉理解的应用场景。与前代版本一样，Llama 3.2支持12.8万个token的上下文长度，这意味着用户可以输入大量文本，处理更为复杂的任务。

Meta还首次分享了官方的Llama技术栈发行版，以便开发人员可以在各种环境下使用这些模型，包括本地、设备端、云端和单节点场景。扎克伯格表示，开源将成为最具成本效益、可定制、值得信赖且性能最高的选择，并认为这一趋势已经开始成为行业标准。

在功能方面，两个最大的Llama 3.2模型（11B与90B）已能支持图像用例，能够理解图表与图形、为图像添加标题并从自然语言描述当中精确定位对象。例如，用户可以询问模型某个月份的销售情况，模型则能根据可用的图表推理出答案。这两个大模型还可以从图像中提取细节以创建标题。与此同时，两个轻量级模型则可以帮助开发人员在个人环境中构建个性化智能体应用，如总结消息、发送日历邀请等。

Meta表示，Llama 3.2在图像识别和其他视觉理解任务上的表现，已经能够与Anthropic的Claude 3 Haiku以及OpenAI的GPT 4o-mini相媲美。此外，它在指令遵循、总结、工具使用和提示词重写等领域的表现还优于其他模型。

目前，Llama 3.2模型已经在llama.com、Hugging Face以及Meta各合作伙伴的平台上开放下载。Meta还在着手扩展AI商业应用，以便企业能够在WhatsApp和Messenger上使用点击消息广告，通过智能体为常见问题生成答案、讨论产品细节并完成购买操作等。Meta声称，已有超过100万家广告商正在使用它的生成式AI工具，由这些工具制作的广告数量庞大。与未使用生成式AI的广告宣传相比，使用Meta生成式AI技术的广告内容平均点击率要高出11%，转化率则高出7.6%。

最后，Meta AI现在还拥有了多种语音选项，新的Llama 3.2支持Meta AI中的全新多模态功能，而且能够以名人的音色做出回应。扎克伯格在主题演讲中指出，语音是一种比文本更自然的AI交互方式。该模型将以名人的音色在WhatsApp、Messenger、Facebook和Instagram上响应语音或者文本命令。Meta AI还能根据聊天中分享的照片生成回复，包括添加、删除或更改图像以及添加新背景。Meta方面表示，他们还在Meta AI当中试验新的翻译、视频配音与口型同步工具，并豪言Meta AI有望成为世界上使用率最高的助手。

原创文章，作者：志斌，如若转载，请注明出处：http://www.damoai.com.cn/archives/7511