最近这一两周看到不少互联网公司都已经开始秋招提前批了。
不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。
最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。
合集:
喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们
大家好,今天继续聊聊科技圈发生的那些事儿~
OpenAI 文本转语音 API
OpenAI 近日正式宣布将文本转语音 API 添加到了开发者 Playground 中,此次集成的新功能,赋予了开发者前所未有的便捷性。
只需输入文本消息,即可在六种预设声音中生成音频。
会根据文本自动匹配对应语言的语音,不需要选择语言国家。
方便开发者轻松构建应用。
在线体验:https://platform.openai.com/playground/tts
用户不仅能够灵活选择输出音频的格式(包括mp3、opus、aac、flac、pcm等),以满足不同场景下的需求,还能轻松调整音频参数,确保生成的语音内容既符合个性化要求,又具备高度的专业性和适应性。
智谱开源视频理解大模型
智谱开源视频理解大模型 CogVLM2-Video,GPT4V 级别,基于开源 Llama3-8B 版本。
CogVLM2-Video 通过引入多帧视频图像和时间戳作为编码器输入,解决了现有视频理解模型在处理时间信息丢失问题上的局限。
模型利用自动化的时间定位数据构建方法,生成了3万条与时间相关的视频问答数据,为训练提供丰富的时间定位数据。
CogVLM2-Video 在多个公开评测集上展现了卓越性能,包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。
体验链接:http://cogvlm2-online.cogviewai.cn:7868/
PaintsUndo
PaintsUndo 输入静态图像,自动帮你生成整个绘画的全过程视频
只需要提供一张图片,PaintsUndo会根据提供的图像自动生成对应的绘画全过程视频。
不仅限于某一种类型的图像,PaintsUndo可以应用于各种不同类型的图像,生成相应的绘画过程视频。
该项目主要是为了研究和再现数字绘画中的绘画行为,从而为数字艺术创作提供新的工具和方法。
同一张静态图像可以生成多种不同风格和细节程度的绘画过程视频。
链接:https://lllyasviel.github.io/pages/paints_undo/
阿里开源音频大模型
阿里开源音频生成大模型 FunAudioLLM,项目地址:https://fun-audio-llm.github.io
能理解和生成各种人类语音
主要模型构成:SenseVoice 和 CosyVoice。
SenseVoice:语音识别模型,这个模型可以识别多种语言的语音,识别说话人的情感,检测音频中的特殊事件(比如音乐、笑声等)。它可以快速而准确地转录语音内容。
CosyVoice:语音生成模式,这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人,甚至可以用几秒钟的音频样本来克隆一个人的声音。