共计 1727 个字符,预计需要花费 5 分钟才能阅读完成。
随着前两天 Google Gemini 2.0 的发布,Google 不仅放出了实验性质的模型(Gemini 2.0 Flash experimental model),还发布了^1
- Project Astra 项目,探索人工智能助手未来功能,未来可能集成到 Google 搜索,Maps,Lens 等等使用场景,真正成为日常生活的助理
- Astra 拥有更好的记忆力,可以同时拥有长达 10 分钟的会话记忆能力
- 更低的延迟,借助流媒体和本机音频,可以以更低的延迟来理解人类语言
- Project Mariner,同浏览器开始探索人机交互的未来
- Mariner 可以理解和推理浏览器屏幕中的信息,包括像素,文本,代码,图像和表单等元素
- 为了安全,目前 Mariner 只能在浏览器中输入,滚动和单机,如果需要获取敏感数据,则需要用户进一步确认
- Jules,一个实验性质 AI 驱动的代码助手,可以辅助开发人员进行编码
- 直接集成到 GitHub 工作流中
- 在开发人员的指导和监督下解决问题,制定计划并执行
随着 Gemini 2.0 的发布,Google 在多模态模型上的进步非常迅速,目前已经可以在 Google AI Studio 以及 Vertex AI 中来体验到新的模型。Gemini 2.0 Flash 在 1.5 Flash 的基础上更进一步提升了文本,图像,视频,音频的多模式输入,2.0 新增了原生音频输入/输出功能,这也就意味着 Gemini 目前可以原生输出文字,图片等等。
多模态
在深入理解 Google Gemini 之前, 我们首先要来了解一下什么叫做多模态。
多模态指的是利用多种不同形式或感知渠道的信息,进行表达、交流和理解方式,通常包括视觉、听觉、文本等多种感官输入和输出方式。
在计算机科学、人工智能和机器学习领域、多模态技术指的是通过整合来自不同模态的数据,包括文字,图像,音频、视频等,从而增强模型的理解能力和推理能力。
多模态 AI 和生成式 AI 有什么不同?
生成式 AI (Generative AI)是一个概括性术语,指用机器学习模型基于已有的内容创建新内容,例如通常通过某种类型的提示生成文本、图片、音乐、音频和视频。
[[生成式 AI]] 基于可以执行多任务处理和执行开箱即用任务(包括总结、问答、分类等)的基础模型(大型 AI 模型)。此外,只需少量训练,即可针对使用场景调整基础模型,所需示例数据极少。
多模态 AI 在这些生成功能的基础上进行扩展,能够处理来自图片、视频和文本等多种模态的信息。多模态可以视为赋予 AI 处理和理解不同感官模式的能力。实际上,这意味着用户可使用的输入和输出类型不限于一种,而且可以使用几乎任何输入来提示模型生成几乎任何类型的内容。
Gemini 2.0
- Flash 2.0 模型比 1.5 Pro 模型快两倍
- 2.0 新增了原生音频输入/输出功能,可以直接原生输出音频和图片
- 全新的多模态 Live API 实时接口,可以直接接入音频和视频流输入
- 改进了空间理解能力,可以更准确地理解和标记图片中的小对象
图片相关操作
- 通过文字直接修改图片,比如将一辆车修改成敞篷车
- 通过文字描述,一键移除图片中的多余物品,比如拍照的时候不小心拍到的东西
- 将两张图片合并到一起
- 让模型生成物体的不同角度
- 通过标记让模型修改图片的一部分
Multimodal Live API 实时音频对话
Gemini 2.0 发布后,Google 在 AI Studio 中释放出了 Multimodal Live API,多模态实时 API,通过这个 API ,可以立即拥有一个实时音频助手,这个助手可以帮助用户学习英语,帮助用户识别看到的物体,可以通过共享告诉助手让其提供更多的信息,并且 Google 非常大方地给了非常充足的调用次数。
- 每分钟 15 次请求,每天 1500 次请求免费。token 限制每分钟 100 万以内免费
React Starter
GitHub Repository Multimodal Live API Web console 是一个 React 项目用来展示 Multimodal Live API 的能力。
使用场景
- 让 Gemini 作为英语口语练习的老师,指导口语中的问题
- 让 Gemini 识别视频流中出现的物品
- 让 Gemini 根据看到的内容给出建议,比如看网页,给出修改意见,比如看项目代码,给出修改的意见
- 让 Gemini 在玩游戏时提供建议
- 让 Gemini