Talk|香港科技大学陈铠:吃一堑长一智-大模型自我分析实现自对齐

本期为TechBeat人工智能社区567线上Talk。

北京时间1月25(周四)20:00,香港科技大学博士生陈铠的Talk已准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 吃一堑长一智-大模型自我分析实现自对齐,系统地介绍了他的团队在基于自然语言错误分析的大语言模型自对齐框架等相关工作所做的研究。本工作已入选ICLR 2024。

Talk·信息

主题:吃一堑长一智-大模型自我分析实现自对齐

嘉宾:香港科技大学博士生 陈铠

时间:北京时间 1月25日(周四)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=845

Talk·介绍

本次分享将介绍“从错误中学习”的大语言模型自对齐框架。不同于现有算法高度依赖人类标注和清洗“正确回复”数据,我们提出“以毒攻毒”,给大模型输入自己的“错误回复”,再引导其分析错误原因,反而能让模型真正理解“错在哪儿”,从而有效规避错误输出,无需额外人工标注或奖励模型,就能实现大模型价值观的自对齐。

Talk大纲

1、背景 - 大模型需要对齐人类价值观的原因和现有方案介绍

2、观察 - 相较于生成,大模型更擅长进行错误分析

3、方案 - 基于自然语言错误分析的大语言模型自对齐框架

4、实验 - 保持通用能力的同时,显著提升大模型对于指令攻击的鲁棒性

5、结论 - 未来工作展望

Talk·预习资料

Image

论文链接:

https://arxiv.org/abs/2310.10477

Image

论文链接:

https://arxiv.org/abs/2109.01652

Image

论文链接: 

https://arxiv.org/abs/2203.02155

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

Image

陈铠

香港科技大学·博士生

香港科技大学在读博士生,师从Dit-Yan Yeung教授,本科毕业于复旦大学(上海市优秀毕业生)。研究方向包括大语言模型价值观对齐、视觉感知数据生成以及自监督表征学习,相关工作发表于CVPR、ICCV、ECCV、ICLR、NeurIPS等计算机视觉和机器学习的顶级学术会议。

个人主页: https://www.techbeat.net/grzytrkj?id=37039


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

最近更新

  1. TCP协议是安全的吗?

    2024-01-27 12:56:01       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-27 12:56:01       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-27 12:56:01       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-27 12:56:01       18 阅读

热门阅读

  1. MySQL十部曲之三:字符集和排序规则

    2024-01-27 12:56:01       30 阅读
  2. apache 前30个开源项目

    2024-01-27 12:56:01       39 阅读
  3. Jenkins CLI 任意文件读取漏洞复现(CVE-2024-23897)

    2024-01-27 12:56:01       35 阅读
  4. 283.移动零(力扣LeetCode)

    2024-01-27 12:56:01       35 阅读
  5. 架构设计面试系列-01

    2024-01-27 12:56:01       38 阅读
  6. STL标准库(三)之forward_list

    2024-01-27 12:56:01       29 阅读
  7. PostgreSQL(十一)coalesce() 函数的用法

    2024-01-27 12:56:01       30 阅读