推荐 4 个 yyds 的AI开源项目！

2024-07-15 16:58:05
开发
20

最近这一两周看到不少互联网公司都已经开始秋招提前批了。

不同以往的是，当前职场环境已不再是那个双向奔赴时代了。求职者在变多，HC 在变少，岗位要求还更高了。

最近，我们又陆续整理了很多大厂的面试题，帮助一些球友解惑答疑，分享技术面试中的那些弯弯绕绕。

合集：

《大模型面试宝典》(2024版) 正式发布！

喜欢本文记得收藏、关注、点赞。更多实战和面试交流，文末加入我们

大家好，今天继续聊聊科技圈发生的那些事儿~

OpenAI 文本转语音 API

在这里插入图片描述

OpenAI 近日正式宣布将文本转语音 API 添加到了开发者 Playground 中，此次集成的新功能，赋予了开发者前所未有的便捷性。

只需输入文本消息，即可在六种预设声音中生成音频。
会根据文本自动匹配对应语言的语音，不需要选择语言国家。
方便开发者轻松构建应用。

在线体验：https://platform.openai.com/playground/tts

用户不仅能够灵活选择输出音频的格式（包括mp3、opus、aac、flac、pcm等），以满足不同场景下的需求，还能轻松调整音频参数，确保生成的语音内容既符合个性化要求，又具备高度的专业性和适应性。

智谱开源视频理解大模型

智谱开源视频理解大模型 CogVLM2-Video，GPT4V 级别，基于开源 Llama3-8B 版本。

CogVLM2-Video 通过引入多帧视频图像和时间戳作为编码器输入，解决了现有视频理解模型在处理时间信息丢失问题上的局限。
模型利用自动化的时间定位数据构建方法，生成了3万条与时间相关的视频问答数据，为训练提供丰富的时间定位数据。
CogVLM2-Video 在多个公开评测集上展现了卓越性能，包括在VideoChatGPT-Bench和Zero-shot QA以及MVBench等量化评估指标上的优异表现。

体验链接：http://cogvlm2-online.cogviewai.cn:7868/

PaintsUndo

PaintsUndo 输入静态图像，自动帮你生成整个绘画的全过程视频

只需要提供一张图片，PaintsUndo会根据提供的图像自动生成对应的绘画全过程视频。
不仅限于某一种类型的图像，PaintsUndo可以应用于各种不同类型的图像，生成相应的绘画过程视频。
该项目主要是为了研究和再现数字绘画中的绘画行为，从而为数字艺术创作提供新的工具和方法。
同一张静态图像可以生成多种不同风格和细节程度的绘画过程视频。

链接：https://lllyasviel.github.io/pages/paints_undo/

阿里开源音频大模型

阿里开源音频生成大模型 FunAudioLLM，项目地址：https://fun-audio-llm.github.io

能理解和生成各种人类语音
主要模型构成：SenseVoice 和 CosyVoice。
SenseVoice：语音识别模型，这个模型可以识别多种语言的语音，识别说话人的情感，检测音频中的特殊事件（比如音乐、笑声等）。它可以快速而准确地转录语音内容。
CosyVoice：语音生成模式，这个模型主要生成自然且情感丰富的语音。它可以模仿不同的说话人，甚至可以用几秒钟的音频样本来克隆一个人的声音。

原文地址:https://blog.csdn.net/2401_84033492/article/details/140430444 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1812773617889579008.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

推荐 4 个 yyds 的AI开源项目！

OpenAI 文本转语音 API

智谱开源视频理解大模型

PaintsUndo

阿里开源音频大模型

相关推荐

最近更新

热门阅读