Gemini调研

链接: 整个文档链接

1、 Gemini介绍
Google Gemini 有三种版本:Ultra、Pro 和 Nano。
Gemini Ultra 是最大的版本,具有最强大的性能。它仅适用于 Google 内部使用。
Gemini Pro 是面向开发者的版本。它可以通过 Google AI Studio 或 Google Cloud Vertex AI 获取。
Gemini Nano 是面向 Android 开发者的版本。它可以通过 AI Core 应用获取。
Ultra是用来跟GPT4打擂台的, 多模态 的最强模型。 Pro是跟 GPT3.5 对标的,性能不错,现在免费开放了。 Nano是手持设备专用的,据说会部署在Google的 Pixel 8手机 上,有两个版本1.8B和3.25B。

Gemini 1.5 Pro:
Gemini 1.5 Pro性能与 1.0 Ultra 相似 是基于 Transformer 的稀疏混合专家(MoE)模型,它不仅基于 Gemini 1.0的研究成果和多模态处理能力,还继承了 Google 在 MoE 研究方面的丰富历史以及广泛文献中的语言模型研究成果。MoE 模型通过一个学习到的路由机制,将输入指派给模型参数的一个子集进行处理,这种条件性计算方式允许模型在不增加任何给定输入所激活的参数数量的情况下,扩大总参数量。 通过在模型的几乎所有层面(包括架构、数据、优化和系统)进行的改进,Gemini 1.5 Pro 在大幅减少训练计算量的同时,达到了与 Gemini 1.0 Ultra 相媲美的质量,并且服务效率得到了显著提升。此外,Gemini 1.5 Pro 还引入了一系列重大的架构更新,使得模型能够理解长达1000万token的输入,而性能不受影响。

  • Google Gemini1.5 pro
    • 支持 100万~1000万 token 上下文,对比 gptchat4v 1.6万 token 上下文长度。
    • 支持文本、图片、视频多模态的输入。
    • 使用了 MOE 专家模型架构。
    • ultra > Pro > Nano(移动端)
    • 效果: Gemini1.5 pro 在 87% 基准测试超越 1.0 Pro;与 1.0 Ultra 相差无

2、注册
注册需要谷歌账号和国外银行卡账号,虚拟银行卡可通过fomepay或dupay购买。
Bard上只有 1.0 Pro model和 1.0 Ultra model模型可用,其他模型还没开放。
注册网址:https://gemini.google.com/

3、API接口
现在只开发pro1.0的接口,其他模型的接口还没开放。API使用文档链接:Google AI Studio 快速入门 | Google AI for Developers
开发者和企业客户可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。Google AI Studio 是一款基于 Web 的免费开发者工具,可使用 API 密钥快速制作应用原型并启动。当需要完全托管的 AI 平台时,Vertex AI 允许对 Gemini 进行自定义,并具有完全的数据控制,并受益于额外的 Google Cloud 功能,以实现企业安全性、安全性、隐私以及数据治理和合规性。
Android 开发者还可以通过 AI Ore(Android 14 中提供的一项新系统功能)使用 Gemini Nano 进行构建,这是我们用于设备端任务的最高效模型,从 Pixel 8 Pro 设备开始。注册获取 AICore 的早期预览版。

Google AI Studio 为不同用例设计的提示提供了多种界面:
• 自由格式提示 - 这些提示提供开放式提示体验,可用于生成内容以及对说明的响应。对于提示,您可以同时使用图片和文本数据。了解详情
• 结构化提示 - 这种提示方法可让您通过提供一组示例请求和回复来指导模型输出。如果您需要更好地控制模型输出的结构,请使用此方法。了解详情
• 聊天提示 - 使用聊天提示打造对话体验。 这种提示方法允许多次输入和响应回合来生成输出。了解详情

1、自由格式提示应用案例
“”"
At the command line, only need to run once to install the package via pip:

$ pip install google-generativeai
“”"

from pathlib import Path
import google.generativeai as genai

genai.configure(api_key=“YOUR_API_KEY”)

Set up the model

generation_config = {
“temperature”: 0.4,
“top_p”: 1,
“top_k”: 32,
“max_output_tokens”: 6000,
}

safety_settings = [
{
“category”: “HARM_CATEGORY_HARASSMENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_HATE_SPEECH”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_SEXUALLY_EXPLICIT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_DANGEROUS_CONTENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
]

model = genai.GenerativeModel(model_name=“gemini-1.0-pro-vision-latest”,
generation_config=generation_config,
safety_settings=safety_settings)

Validate that an image is present

if not (img := Path(“image0.png”)).exists():
raise FileNotFoundError(f"Could not find image: {img}")

image_parts = [
{
“mime_type”: “image/png”,
“data”: Path(“image0.png”).read_bytes()
},
]

prompt_parts = [
“tell me int 100 word,what in the picture”,
image_parts[0],
]

response = model.generate_content(prompt_parts)
print(response.text)
2、结构化提示应用案例
“”"
At the command line, only need to run once to install the package via pip:

$ pip install google-generativeai
“”"

import google.generativeai as genai

genai.configure(api_key=“YOUR_API_KEY”)

Set up the model

generation_config = {
“temperature”: 0.1,
“top_p”: 1,
“top_k”: 1,
“max_output_tokens”: 2048,
}

safety_settings = [
{
“category”: “HARM_CATEGORY_HARASSMENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_HATE_SPEECH”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_SEXUALLY_EXPLICIT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_DANGEROUS_CONTENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
]

model = genai.GenerativeModel(model_name=“gemini-1.0-pro”,
generation_config=generation_config,
safety_settings=safety_settings)

prompt_parts = [
“You are a product marketer targeting a Gen Z audience. Create exciting and\nfresh advertising copy for products and their simple description. Keep copy\nunder a few sentences long.”,
“Product: Old-school sneaker”,
“Product copy: Let’s lace up! These kicks bring an iconic look and a one of a kind color palette, while supporting you in style and function like no other shoe before.”,
“Product: Supersoft hoodie”,
“Product copy: Stay cozy and stylish in our new unisex hoodie! Made from 100% cotton, this hoodie is soft and comfortable to wear all day long. The semi-brushed inside will keep you warm on even the coldest days.”,
“Product: red shirt”,
"Product copy: ",
]

response = model.generate_content(prompt_parts)
print(response.text)3、聊天提示应用案例
“”"
At the command line, only need to run once to install the package via pip:

$ pip install google-generativeai
“”"

import google.generativeai as genai

genai.configure(api_key=“YOUR_API_KEY”)

Set up the model

generation_config = {
“temperature”: 0.9,
“top_p”: 1,
“top_k”: 1,
“max_output_tokens”: 2048,
}

safety_settings = [
{
“category”: “HARM_CATEGORY_HARASSMENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_HATE_SPEECH”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_SEXUALLY_EXPLICIT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
{
“category”: “HARM_CATEGORY_DANGEROUS_CONTENT”,
“threshold”: “BLOCK_MEDIUM_AND_ABOVE”
},
]

model = genai.GenerativeModel(model_name=“gemini-1.0-pro”,
generation_config=generation_config,
safety_settings=safety_settings)

convo = model.start_chat(history=[
{
“role”: “user”,
“parts”: [“User: none You are Tim, a friendly alien that lives on Europa, one of Jupiter’s moons.Model: none Ok”]
},
{
“role”: “model”,
“parts”: [“User: none You have telepathic and telekinetic powers that you use for good. Today you have decided to visit Earth and see what it is like. You land in a jungle where you meet a gorilla named George. George is very curious, and you become fast friends. You spend the day talking, playing, and exploring the jungle together.Model: none Ok”]
},
{
“role”: “user”,
“parts”: [“User: none Hi!”]
},
{
“role”: “model”,
“parts”: [“George: Rrrrrrr-ah! (Hello!)”]
},
{
“role”: “user”,
“parts”: [“none What’s the weather like?”]
},
{
“role”: “model”,
“parts”: [“Tim: Today on Europa it is a brisk -260 degrees Fahrenheit, with methane clouds and water ice crystals in the atmosphere. The weather here is always cold and icy, but I’m told that the weather on Earth is much more varied. What’s the weather like where you are, George?”]
},
{
“role”: “user”,
“parts”: [“User: none What’s the weather like?”]
},
{
“role”: “model”,
“parts”: [“George: Rrrrrrr! (It’s hot and humid!)”]
},
])

convo.send_message(“YOUR_USER_INPUT”)
print(convo.last.text)
4、性能对比
1、Gemini和chatgpt对比
相关文档:Build with the Gemini API | Google AI for Developers、Gemini - Google DeepMind
据谷歌介绍,从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上领先GPT 4。而在MMLU(大规模多任务语言理解)测试中,Gemini Ultra以90.0%的高分,成为第一个超过人类专家的模型。MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科,旨在考察世界知识和解决问题的能力。

2、Gemini不同模型间对比
相关文档:https://goo.gle/GeminiV1-5、Google Gemini 1.5 技术报告(全文) - 知乎 (zhihu.com)
核心文本能力对比:(1)数学、科学和推理;(2)编码;(3)多语言能力
实验发现 1.5 Pro 在小学数学(即 GSM8K)上始终超过 1.0 Ultra 和 1.0 Pro,并且在更具挑战性的基准测试上显示出实质性的改进,其中改进的空间更大,即在中学和高中数学问题(即 Hendrycks MATH)上超过 1.0 Ultra 3.5%。Gemini 1.5 Pro 是迄今为止表现最好的模型, 在内部保留的代码生成测试集 Natural2Code 上超越了 Gemini 1.0 Ultra。Gemini 1.5 Pro 在这多语言评估任务上都比 Gemini 1.0 Ultra 有所提高,特别是在 MGSM 数据集上显示出几乎+10%的显著改进,这与上文报告的仅限英语的数学改进一致。

核心视觉多模态评估:
Gemini 1.5 Pro 在其中5个多模态推理基准测试上(即 MMMU、MathVista、ChartQA 和 AI2D)显著优于 Gemini 1.0 Pro,甚至在其中两个(即 AI2D 和 ChartQA)上达到或超过了 Gemini 1.0 Ultra 的水平。在剩下的需要强大 OCR 能力的3个测试上,通过实验看到 1.5 Pro 接近但没有超过 1.0 Pro。
核心音频多模态评估:
Gemini 1.5 Pro 是一个通用模型,但在语音理解基准测试上显著优于像 USM 和 Whisper 这样专门为语音理解训练的专家模型。值得注意的是,Gemini 1.5 Pro 在语音理解方面的表现与 Gemini 1.0 Pro 相似,表明通过增加长上下文能力并未损害在非长上下文任务上的表现。最后,Gemini 1.0 Ultra 确实在某些方面略胜于 1.5 Pro,但前者需要更多的训练计算和服务资源。

5、测试
1、图片理解
Gemini对图片细节描述更加具体,能更好判断分析图片中内容。

2、文本生成
两个功能差不多, ChatGPT 给出的文本条例比较清晰,重点突出。
扮演一个传记作家,然后写一下马斯克的生平,要求内容详细具体
ChatGPT
埃隆·马斯克(Elon Musk)的生平故事是关于一个怀抱宏伟梦想、不断创新,并且勇于实现这些梦想的人的故事。他的一生充满了创业精神、科技创新和对人类未来的深远影响。作为一个传记作家,我将尽力描绘出马斯克多彩而复杂的生平轨迹。
早年经历
1971年6月28日,埃隆·马斯克出生于南非比勒陀利亚,成长于一个充满挑战和机遇的环境。他的父亲是一位工程师,母亲是一位营养师和模特。从小,马斯克就展现出对科技和电子的浓厚兴趣。他在10岁时接触到了计算机编程,并在仅仅两年后就自学成功,开发并售出了自己的第一款视频游戏。
教育历程
马斯克的求知欲引导他离开了南非,首先移居加拿大,借此作为跳板进入美国。他在宾夕法尼亚大学取得了两个学士学位:物理和经济。这段教育经历不仅为他日后的职业生涯打下了坚实的基础,也激发了他对于将科技与商业结合以解决复杂问题的兴趣。
初创企业与PayPal的成功
1995年,马斯克和他的弟弟金巴尔共同创办了他的第一家公司Zip2,一家为新闻出版业提供在线城市指南服务的公司。尽管起步艰难,但他们最终成功将其卖给了Compaq,马斯克由此获得了约2200万美元的资金。这笔钱成为了他后续创业活动的基石。1999年,他创立了X.com,这是一家在线支付和金融服务公司,后来发展成为了我们今天熟知的PayPal。在2002年,eBay以15亿美元收购了PayPal,马斯克从中获得了约1.65亿美元的收益。
SpaceX:太空梦想的实现
2002年,马斯克将目光投向了太空,创立了Space Exploration Technologies Corp.(SpaceX),目标是降低太空旅行成本,最终实现人类定居火星的梦想。尽管初期遭遇了多次发射失败,SpaceX最终成功发射了Falcon 1火箭,并成为第一个将商业卫星送入太空的私营公司。此后,SpaceX不断突破,成功实现了多次重要的太空任务,包括向国际空间站送货和发射星链卫星。
特斯拉汽车:推动电动车革命
2004年,马斯克加入了特斯拉汽车(Tesla Motors),并很快成为公司的CEO和产品架构师。通过推出Model S、Model X、Model 3和Model Y等一系列革命性的电动汽车,特斯拉彻底改变了人们对电动汽车的看法,促进了全球汽车产业向可持续能源转型。

1
埃隆·马斯克:硅谷钢铁侠的传奇人生
第一章:南非少年,梦想起航
埃隆·马斯克,1971年6月28日出生于南非比勒陀利亚,一个拥有英国、德国和荷兰血统的家庭。他的母亲梅耶·马斯克是一位模特和营养师,父亲埃罗尔·马斯克是一位工程师。
马斯克的童年并不快乐,他性格内向,经常被学校里的孩子欺负。为了逃避现实,他沉迷于书籍和电脑游戏世界。10岁时,他得到了一台康懋达VIC-20电脑,并开始学习编程,展现出过人的天赋。
12岁那年,马斯克用BASIC语言编写了一个名为《Blastar》的太空游戏,并以500美元的价格卖给了《个人电脑与办公技术》杂志,这笔钱成为了他人生的第一桶金。
17岁时,马斯克为了躲避兵役和寻求更好的发展机会,离开了南非,移民加拿大,就读于皇后大学,学习物理和经济学。两年后,他转学到美国宾夕法尼亚大学,获得经济学和物理学双学位。
第二章:互联网浪潮,初露锋芒
1995年,马斯克和他的弟弟金巴尔创办了Zip2,一家提供城市信息服务的公司。Zip2整合了地图、黄页和评论等信息,为用户提供便捷的城市生活指南。
1999年,Zip2被康柏电脑收购,马斯克获得了2200万美元的收益。同年,[移除了无效网址],一家在线金融服务公司,致力于提供安全便捷的在线支付服务。
一年后,X.com与另一家在线支付公司Confinity合并,更名为PayPal。PayPal迅速发展成为全球领先的在线支付平台,并于2002年被eBay以15亿美元收购。
第三章:颠覆传统,开创未来
2002年,马斯克创办了SpaceX,一家致力于降低太空运输成本的航空航天公司。他立志要将人类送上火星,并最终实现星际移民。
SpaceX从成立之初就不断挑战传统,革新技术。2010年,SpaceX成为首家成功发射并回收私人飞船的公司。2020年,SpaceX的载人龙飞船将两名宇航员送上国际空间站,这是美国首次使用商业飞船送宇航员进入轨道。
2003年,马斯克投资了特斯拉汽车公司,并于2008年成为该公司首席执行官。在他的领导下,特斯拉推出了多款高性能电动汽车,并逐渐成为全球领先的电动汽车制造商。
特斯拉的成功不仅改变了人们的出行方式,也推动了全球新能源汽车产业的发展。
第四章:多元探索,未来图景
除了SpaceX和特斯拉之外,马斯克还创办了Neuralink、The Boring Company等多家公司,致力于开发脑机接口、地下隧道等前沿技术。
Neuralink的目标是开发能够连接人脑和计算机的接口,让人们可以直接用大脑控制计算机,并增强人类的认知能力。
The Boring Company致力于建设地下隧道网络,缓解城市交通拥堵问题。
第五章:结语
埃隆·马斯克是一位充满梦想和激情的企业家,他以非凡的勇气和毅力,在多个领域取得了突破性的进展。他被誉为“硅谷钢铁侠”,是当今世界最具影响力的科技人物之一。
马斯克的人生旅程充满了传奇色彩,他不断挑战不可能,推动着人类科技的进步。他的梦想和行动,将继续影响着未来世界的发展。

3、数据分析
在数据分析方面,Gemini比较具体直观,ChatGPT对数据的分析能力较差

You
广汽集团2017到2023年营销数据,以年份为横坐标,月份为纵坐标,画出数据表,并对表格中数据进行分析,结合国企混改进行分析
ChatGPT
要获取和分析广汽集团从2017年到2023年的营销数据,并结合国企混改背景进行深入分析,首先我们需要收集相关的数据。由于我无法直接访问互联网来获取最新的数据,我们可以通过以下步骤来进行分析:
  1. 数据收集:通常这类数据可以通过公司年报、行业分析报告、财经新闻网站或官方公告等途径获得。广汽集团作为中国主要的汽车制造商之一,其财务报告和营销数据应该比较容易通过这些渠道找到。
  2. 数据整理:将收集到的数据按年份和月份整理成表格,确保数据的完整性和准确性。
  3. 绘制数据表:使用软件工具如Excel或Python中的Pandas和Matplotlib库来创建数据表和图表。这可以帮助我们更直观地看到各年份各月份的营销数据变化。
  4. 数据分析:分析广汽集团的营销数据,关注年度和月度的销售趋势、增长点和可能的下降原因。同时,考虑国企混改的背景,分析混改对广汽集团营销数据的可能影响,比如混改是否带来了管理效率的提升、市场反应的变化等。
    由于我不能直接获取和分析实际的数据,如果你已经有了广汽集团2017年到2023年的营销数据,你可以提供数据的具体数值或者描述,我可以帮助你进行数据整理和初步分析,以及讨论国企混改对广汽集团可能产生的影响。

4、文档问答
文档方面,都能理解文章内容,Gemini主要以段的方式概括,ChatGPT对整篇内容进行概括

相关推荐

  1. Gemini调研

    2024-04-10 09:26:03       13 阅读
  2. 【ChatGPT】【Gemini】-用Python调用google的Gemini API

    2024-04-10 09:26:03       14 阅读
  3. 【AI原理解析】— Gemini模型

    2024-04-10 09:26:03       6 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-04-10 09:26:03       18 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-04-10 09:26:03       19 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-04-10 09:26:03       18 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-04-10 09:26:03       20 阅读

热门阅读

  1. Matplotlib之bar3d画3D柱状图

    2024-04-10 09:26:03       13 阅读
  2. 群集服务器与主机托管区别

    2024-04-10 09:26:03       12 阅读
  3. 阀门位置反馈器F5-MEC-420

    2024-04-10 09:26:03       13 阅读
  4. helm原理

    2024-04-10 09:26:03       14 阅读
  5. easyui 使用记录

    2024-04-10 09:26:03       13 阅读
  6. 第四十七章 为 Web 应用程序实现 HTTP 身份验证

    2024-04-10 09:26:03       12 阅读
  7. hbase的基础搭建

    2024-04-10 09:26:03       12 阅读
  8. mysql create procedure

    2024-04-10 09:26:03       12 阅读
  9. HBase详解(3)

    2024-04-10 09:26:03       9 阅读
  10. 封装Element-Plus表单组件

    2024-04-10 09:26:03       15 阅读