Gemini 1.5 谷歌,支持文本,语音,视频输入:
对于文本处理,Gemini 1.5 Pro在处理高达530,000 token的文本时,能够实现100%的检索完整性,在处理1,000,000 token的文本时达到99.7%的检索完整性。
在音频处理方面,Gemini 1.5 Pro能够在大约11小时的音频资料中,100%成功检索到各种隐藏的音频片段。
Gemini 1.5的设计,基于的是谷歌在Transformer和混合专家(MoE)架构方面的前沿研究。
不同于传统的作为一个庞大的神经网络运行的Transformer,MoE模型由众多小型的「专家」神经网络组成。
这些模型可以根据不同的输入类型,学会仅激活最相关的专家网络路径。
这样的专门化,就使得模型效率大幅提升。
而谷歌通过Sparsely-Gated MoE、GShard-Transformer、Switch-Transformer、M4研究,早已成为深度学习领域中MoE技术的领航者。
Gemini 1.5的架构创新带来的,不仅仅是更迅速地掌握复杂任务、保持高质量输出,在训练和部署上也变得更加高效。
因此,团队才能以惊人的速度,不断迭代和推出更先进的Gemini版本。
性能比肩Ultra,大幅超越1.0 Pro
在涵盖文本、代码、图像、音频和视频的综合性测试中,1.5 Pro在87%的基准测试上超越了1.0 Pro。
与1.0 Ultra在相同基准测试的比较中,1.5 Pro的表现也相差无几。
论文:https://link.zhihu.com/?target=https%3A//storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf