算法面试题2024-05-11

用语言介绍一下 Transformer 的总体流程

深度学习的三种并行方式:数据并行,模型并行,流水线并行

Deepspeed分布式训练的理解,zero 0-3的理解

对于CLIP的理解

说几种对比学习的损失函数,以及它们的特点和优缺点

说说大模型生成采样的几种方式,它们的特点和优缺点比较

损失函数中温度的作用

BLIP 的细节。面试中提的问题是 BLIP 为什么将训练分成两个阶段

Visual Encoder 有哪些常见的类型?

深度学习中常用的优化器有哪些?

SimCSE 的理解

prenorm 和 postnorm

LLaMA 2 的创新、ChatGLM的创新点、Qwen的创新点、Baichuan的创新点

LLM 的评估方式有哪些?特点是什么?

文本生成模型中生成参数的作用(temperature,top p,top k,num beams)

LoR A的作用和原理

CoT 的作用

神经网络经典的激活函数以及它们的优缺点

softmax 函数求导的推导

BERT 的参数量如何计算?

AUC 和 ROC

batch norm 和 layer norm

大模型训练的超参数设置

经典的词向量模型有哪些?

InstructGPT 三个阶段的训练过程,用语言描述出来

大模型推理加速的方法

Transformer 中注意力的作用是什么

RNN、CNN 和 Transformer 的比较(复杂度,特点,适用范围等)

产生梯度消失问题的原因有哪些?

大模型的幻觉问题

大模型训练数据处理

RLHF 的计算细节

构建 CoT 样本的时候,怎么保证覆盖不同的场景?

回收的三个指标:Recall、NDCG、RMSE

RoPE 和 ALiBi

交叉熵、NCE 和 InfoNCE 的区别和联系

贝叶斯学派和概率学派的区别

一个文件的大小超过了主存容量,如何对这个文件进行排序?应该使用什么算法?

Python 中的线程、进程和协程

python 中的生成器和迭代器

相关推荐

  1. 算法面试2024-05-11

    2024-05-15 21:34:13       10 阅读
  2. 2024/03/16----面试中遇到的一些面试

    2024-05-15 21:34:13       17 阅读
  3. 复试 || 就业day11(2024.01.07)算法

    2024-05-15 21:34:13       34 阅读
  4. 每日一道算法 3(2023-12-11

    2024-05-15 21:34:13       27 阅读

最近更新

  1. TCP协议是安全的吗?

    2024-05-15 21:34:13       19 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-05-15 21:34:13       20 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-05-15 21:34:13       20 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-05-15 21:34:13       20 阅读

热门阅读

  1. Spring底层入门篇-前言

    2024-05-15 21:34:13       9 阅读
  2. Android UI:动画:帧动画

    2024-05-15 21:34:13       11 阅读
  3. jQuery

    2024-05-15 21:34:13       8 阅读
  4. Mysql面试夺命18问

    2024-05-15 21:34:13       9 阅读
  5. MySQL约束之最详细讲解

    2024-05-15 21:34:13       11 阅读
  6. LeetCode hot100-36-N

    2024-05-15 21:34:13       12 阅读
  7. Python 自动化脚本系列:第5集

    2024-05-15 21:34:13       12 阅读
  8. NIUKE SQL:大厂面试真题(三) 【某东商城】

    2024-05-15 21:34:13       13 阅读
  9. react 对输入做出反应与状态

    2024-05-15 21:34:13       13 阅读
  10. cocos creator 帧率60 不生效meta50 能刷新到90

    2024-05-15 21:34:13       10 阅读