Devin,第一位AI软件工程师

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

遇见Devin,全球首位全能自主AI软件工程师。

Devin是个不知疲倦的技术搭档,无论是并肩作战还是独立完成任务,它都能让你大开眼界。

有了Devin,工程师们可以将精力集中在更加有趣的问题上,工程团队也能追求更高的目标。

Devin的技能包括:

借助我们在长期推理和规划方面的进步,Devin能够规划并执行复杂的工程任务,这些任务需要成千上万的决策。Devin能够在每一步都回忆起相关上下文,随时间学习,并修正错误。

我们还为Devin装备了常见的开发工具,包括shell、代码编辑器和浏览器,这一切都在一个沙盒计算环境中——就像一个人类工程师需要的一样。

最后,我们让Devin能够与用户积极协作。Devin能够实时报告进度,接受反馈,并在设计选择上与你协同工作。

下面是Devin能做的一些示例:

  • Devin能学习如何使用不熟悉的技术。在阅读了一篇博客文章后,Devin运行ControlNet在Modal上产生含有隐藏信息的图片给Sara。
  • Devin能够端到端构建和部署应用程序。Devin创建了一个模拟生命游戏的互动网站!它逐步添加用户请求的功能,然后将应用部署到Netlify。
  • Devin能够自主地在代码库中找到并修复bug。Devin帮助Andrew维护和调试他的开源竞技编程书。
  • Devin能够训练和微调自己的AI模型。Devin仅凭一个指向GitHub研究仓库的链接就设置了大型语言模型的微调。
  • Devin能够处理开源仓库中的bug和功能请求。仅凭一个GitHub问题的链接,Devin就完成了所有的设置和上下文收集工作。
  • Devin甚至能够为成熟的生产仓库做出贡献。这个例子是SWE-bench基准测试的一部分。Devin在sympy Python代数系统中解决了一个对数计算的bug。Devin设置了代码环境,重现了bug,并独立完成了编码和测试。
  • 让Devin在Upwork上接真实的工作,它也能做到!在这里,Devin编写和调试代码来运行一个计算机视觉模型。Devin采样结果数据并在最后编制了一份报告。

Devin的表现

我们在SWE-bench上评估了Devin,这是一个挑战性的基准测试,要求代理解决在开源项目中找到的真实世界GitHub问题,如Django和scikit-learn。

Devin正确解决了13.86%*的问题,远远超过了之前的最好成绩1.96%。即使给定了确切的文件来编辑,以前的最好模型也只能解决4.80%的问题。

*Devin在数据集的随机25%子集上进行了评估。Devin是无人协助的,而所有其他模型都是有协助的(意味着模型被明确告知需要编辑哪些文件)。

相关推荐

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-03-15 07:24:01       75 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-03-15 07:24:01       80 阅读
  3. 在Django里面运行非项目文件

    2024-03-15 07:24:01       64 阅读
  4. Python语言-面向对象

    2024-03-15 07:24:01       75 阅读

热门阅读

  1. 【图解物联网】第零章 前言

    2024-03-15 07:24:01       37 阅读
  2. Mac 配置环境变量和处理路径中空格

    2024-03-15 07:24:01       39 阅读
  3. 齐次变换矩阵

    2024-03-15 07:24:01       40 阅读
  4. 游戏测试 - 面经 - 创梦天地科技

    2024-03-15 07:24:01       44 阅读
  5. MapReduce面试重点

    2024-03-15 07:24:01       38 阅读
  6. Loader,Plugin

    2024-03-15 07:24:01       42 阅读
  7. Android如何获取蓝牙设备连接状态

    2024-03-15 07:24:01       35 阅读