根据语义切分视频

2024-07-17 19:16:04
开发
19

背景

现在有个需求，拿到一个完整视频，然后需要将视频切分成2min左右的段落，然后总结每一段的内容。

需求点

1.切分要完整，切完了之后的所有视频还能拼回一个完整视频
2.切分要有完整性，切分点要选择一句说刚好说完的位置。
3.最好有逻辑性，每段都能表达一个完整意思。

解决方案

第一版；

1.通过whisper提取视频字幕。
2.将字幕扔给chatgpt，要求他根据我的需求切分
3.拿到chatgpt的回复，提取出切分建议
4.切分视频
5.切分字幕
6.将小段字幕发给chatgpt，要求进行总结
总的来说，流程是跑通了，但是最大的问题是第二步，chatgpt的回复不尽如人意，要么答非所问，要么回答的格式不合适。
猜测是输入文本太长，指令不能很好的遵守，所以切分点会非常的飘，每次的结果都是一次惊吓。

第二版

目前不带满意的地方其实就是第二步，所以只改进第二步，不使用大模型去切分，直接根据句子数量切分，基本没有智能，但是因为提取的字幕直接就是完整的句子作为一行，所以句子拼接段落也挺丝滑，最大的问题可能就是切分点不太合适，但是这种办法非常稳定，不会出现不需要的内容。

第三版

还是想试试人工智能能不能干这事儿，所以先把所有字幕提取出来，拼接成完整文本，不带时间戳那种，扔给人工智能直接分段，这一步，不同的大模型表现千差万别，gpt-4o表现的比国产的好一些，返回的结果也能用，缺点是一次不能给过多文本，优点是比第二种切分点更合适。

总结

目前尝试了能跑通的是这三种方法，其他一些跑不通的没记录，之后如果有更好的方案再记录。

原文地址:https://blog.csdn.net/u013036688/article/details/140413080 本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：https://www.suanlizi.com/kf/1813533117961605120.html 如若内容造成侵权/违法违规/事实不符，请联系《酸梨子》网邮箱：1419361763@qq.com进行投诉反馈，一经查实，立即删除！

阅读全部

最近更新

题解 - 序列

2024-07-17 19:16:04 90 阅读
CST热仿真案例——电动车直流快充Cable热仿真

2024-07-17 19:16:04 77 阅读
docker php8.1+nginx base 镜像 dockerfile 配置

2024-07-17 19:16:04 70 阅读
Could not load dynamic library ‘cudart64_100.dll‘

2024-07-17 19:16:04 74 阅读
NoSQL之Redis非关系型数据库

2024-07-17 19:16:04 77 阅读
2024.7.22 作业

2024-07-17 19:16:04 77 阅读
GDB调试正在运行的程序

2024-07-17 19:16:04 62 阅读
昇思25天学习打卡营第18天| DCGAN生成漫画头像

2024-07-17 19:16:04 62 阅读
在Django里面运行非项目文件

2024-07-17 19:16:04 62 阅读
SSD基本架构与工作原理

2024-07-17 19:16:04 67 阅读
在誉天学习完HCIE就业吗？

2024-07-17 19:16:04 75 阅读
【合同专题】合同终止协议书、项目合作协议、交底纪要、管理台账

2024-07-17 19:16:04 65 阅读
驾驭云原生日志洪流：高效分析与管理的策略集

2024-07-17 19:16:04 67 阅读
go 协程池的实现

2024-07-17 19:16:04 68 阅读
Shell脚本循环语句与函数

2024-07-17 19:16:04 68 阅读
连锁店收银系统源码（收银称重pos+聚合支付+ERP进销存+营销+会员管理）

2024-07-17 19:16:04 72 阅读
TIA博途V19无法勾选来自远程对象的PUT/GET访问的解决办法

2024-07-17 19:16:04 67 阅读
四大引用——强软弱虚

2024-07-17 19:16:04 70 阅读
Python语言-面向对象

2024-07-17 19:16:04 72 阅读
如何分清楚常见的 Git 分支管理策略Git Flow、GitHub Flow 和 GitLab Flow

2024-07-17 19:16:04 66 阅读
网站安全-CDN篇

2024-07-17 19:16:04 67 阅读

热门阅读

量化交易对市场波动的反应机制

2024-07-17 19:16:04 20 阅读
3D问界—在MAYA中使用Python脚本进行批量轴居中

2024-07-17 19:16:04 24 阅读
Spring Cloud Eureka快读入门Demo

2024-07-17 19:16:04 23 阅读
独家原创 | 基于NRBO-Transformer-BiLSTM多输入单输出回归预测【Matlab24年新算法】

2024-07-17 19:16:04 25 阅读
[京东一面]如何用 Redis 统计用户访问量？

2024-07-17 19:16:04 23 阅读
Html_Css问答集(11)

2024-07-17 19:16:04 19 阅读
超声波清洗机哪个牌子好用？2024年超声波清洗机推荐，新手小白如何选购？

2024-07-17 19:16:04 20 阅读
数模打怪（五）之相关系数

2024-07-17 19:16:04 23 阅读
Jenkins整合Owasp DependencyCheck实现SCA

2024-07-17 19:16:04 23 阅读
ZStack Cloud 5.1.8正式发布

2024-07-17 19:16:04 21 阅读
美图秀秀在线一键抠图要收费怎么办？

2024-07-17 19:16:04 19 阅读
ELK日志管理

2024-07-17 19:16:04 22 阅读
最全—航班信息管理系统【数组版】

2024-07-17 19:16:04 18 阅读
前端通过Camunda工作流引擎调用Python服务并将结果响应给前端

2024-07-17 19:16:04 21 阅读
STM32智能农业灌溉系统教程

2024-07-17 19:16:04 21 阅读
git clone 报错 Unable to negotiate

2024-07-17 19:16:04 19 阅读
0基础学python-13：古希腊掌管时间的模块——datetime和time

2024-07-17 19:16:04 23 阅读
统计一个页面用到的html,css,js

2024-07-17 19:16:04 21 阅读
Vue+Echarts做图表展示

2024-07-17 19:16:04 22 阅读
什么是HTTP协议攻击

2024-07-17 19:16:04 20 阅读
AnyConv OGG 转换器：轻松转换音频格式

2024-07-17 19:16:04 24 阅读
Web3时代的教育技术革新：智能合约在学习管理中的应用

2024-07-17 19:16:04 26 阅读
Abaqus基于CT断层扫描的三维重建插件CT2Model 3D

2024-07-17 19:16:04 21 阅读
Mybatis＜collection＞实现一对多

2024-07-17 19:16:04 22 阅读
Local Cache（二）demo

2024-07-17 19:16:04 20 阅读
Git简要笔记

2024-07-17 19:16:04 21 阅读
爬虫-存储数据

2024-07-17 19:16:04 25 阅读
Windows的包管理器Chocolatey

2024-07-17 19:16:04 22 阅读
数据库（创建数据库和表）

2024-07-17 19:16:04 21 阅读
2024年充电宝推荐！哪个牌子充电宝好？充电宝选购大全！

2024-07-17 19:16:04 24 阅读