人工智能时代,如何借助新技术实现突破?| 圆桌对话

继上篇介绍完干货满满的议题分享后,更精彩的圆桌论坛衔尾相随。本次圆桌对话以“人工智能时代,如何借助新技术实现突破?”为主题,由华锐技术机构市场团队负责人-高媛主持,邀请了AMD中国区数据中心事业部资深架构师-梁朝军,火山引擎证券行业解决方案负责人-陈祎溦,鸣石基金CTO-李涛涛,甄投资产量化投资总监-李兆薇四位嘉宾进行了深入探讨分析。

Q1:今天我们的圆桌有需求方,也有供给方;有消费者,也有服务者。在人工智能的浪潮下,大家从不同的角度出发,谈谈如何借助新技术实现性能优化,策略突破以及效率提升。

AMD中国区数据中心事业部资深架构师-梁朝军

随着AI浪潮及数据量的爆发式增长,AMD作为全球领先的高性能和自适应计算解决方案提供商,我们会向市场推出算力更强功耗更低的产品。从去年11月AMD发布第4代EPYC处理器,到今年6月发布了算力更强的96核Genoa X以及128核Bergamo处理器,AMD为云和技术计算工作负载提供了全新且领先的解决方案,为企业的独特需求提供专业化工作负载。未来我们会坚守承诺持续推出更多创新技术和产品;AI是塑造下一代计算的决定性技术,也是 AMD 更大的战略增长机会。AMD的AI 平台战略,为客户提供从云到边缘再到终端的硬件产品组合,通过深入的行业软件协作,开发可扩展且普适的AI 解决方案。今年AMD数据中心将赛灵思的AI团队等整合成立AI部门,同时与高校、研究机构密切合作,对上层工具进行底层的运算库优化等手段,让大家可以更好更方便的使用AMD的CPU进行策略的升级迭代。

火山引擎证券行业解决方案负责人-陈祎溦

火山引擎作为字节跳动旗下的云服务平台,成立已三年多时间。公司对金融服务领域一直在保持坚定投入,在算法、机器学习、实时数据处理、存储、网络等方面均有坚实的技术储备,并与生态伙伴联合探索为量化私募机构提供科技服务。我们认为在私募机构初期或高速发展成长期,使用云或者混合云模式是比较合适的。通过技术优化,火山引擎可以为私募机构提供极具性价比的云服务,帮助大家在高速增长阶段,快速构建相应的IT能力,无需特别担心硬件采购及运维等繁琐的事务性工作。同时,大家知道,抖音的推荐算法、智能特效、智能创作等功能是很重要的产品特色。火山引擎也在今年推出了大模型服务平台火山方舟,迄今为止已经服务了抖音集团50多条业务线,和外部金融、招聘、物流、游戏等行业场景。在量化行业,我们也希望和各位一起探索看大模型是否可以有新的应用场景。

鸣石基金CTO-李涛涛

目前量化私募行业大多数玩家都会采用混合云架构,混合云架构在可以实现短期灵活调配资源的同时也可以兼顾公司未来长期的技术架构演进。

鸣石基金也采用行业共识的混合云架构,从规模上说,这样的架构可以覆盖20-200亿规模的大多数量化私募,200亿后在自建算力和数据中心方面会有更多资源的倾斜。

数据方面,量化行业一天的数据量只在TB级别,而且随着数据供应商的成熟,量化数据在源数据层面会逐渐倾于同质化,在数据方面很难有新的特色和突破。不过衍生数据上可以借助AI的技术生产各种有特质、有差异的数据。

算力方面,随着英伟达高算力显卡的禁售,以及接下里只会推出的阉割版显卡。混合云架构的优势更加凸显。首先大多数量化私募不会一次性采购大批量卡,在供应商层面传统云厂商相对量化私募有更强的议价能力;同时高算力显卡需要大量财力人力资源的投入。采用混合云架构,可以在云上按需灵活调配显卡资源,可以先做技术、架构的POC,需求长期稳定后也可以考虑在自建算力中心中增加卡的资源。这样既可以满足研究回测需求,也可以在成本可控的前提下推进公司算力平台的建设。

算法方面,相对数据和算力,算法强烈依赖人才的培养和输出。现在的量化研究已经摆脱“调包”的方法论,更多的方面在研究如何做到“人有我优,人无我有”。所有人都在用的算法,需要研究如何做到用的比别人更加高效,同时也在加强力量投入研究新算法、新模型、新范式。

甄投资产量化投资总监-李兆薇

我主要从策略方向分享一下甄投的情况,我们以前主做偏中低频策略,对数据和算法的正确性和丰富度有很强的要求,对计算速度的要求相对较低。今年开始布局高频策略,一方面人工挖掘因子,这类因子在逻辑上更加通顺,有效周期较长,但更新速度也相对较慢;后续使用机器学习挖掘因子,在这个技术方向下,产生的因子预测周期更短,这对信号产生速度、交易效率都提出了更高的要求,是数据、算力和算法的综合实力比拼。基于此,我们今年开始上云,对于初始布局算力的公司,云是一个比较低门槛的算力布局方式,不管是弹性服务还是本地运维都能让我们降本增效。

Q2:从需求方的角度,量化私募现阶段主要遇到的算力问题有哪些?您们是如何看待和应用云服务的,要不要上云?上云对您们来说最大的挑战是什么?

鸣石基金CTO-李涛涛

鸣石从几年前就开始上云,而且在多地都有云中心。当初我们在考虑是否上云。只会关注两个问题,一是在能力范围内,能否满足当下最直接的诉求;二是下一个阶段或跨入下一个阶段,能否平滑的迁移架构。

如果对上云有疑惑,我觉得可以看看行业中大多数玩家的技术架构。在2019年之前,业内还是有一些坚决不上云,或者对云比较抵触的,但是基本在2020年后都开始上了。而且这个行业还有个规律,一旦上云了,基本就很难下来,用量也会上升得很快。

在云和自建IDC的权衡中。如果公司当前资源有限,首先将大量资源投入在在IT和运维上也不是很现实,其次在没有明确的技术架构方向前投入大量资金买机器、建机房、做网络规划等也不是一个明智的选择。这种情况下还是可以先上云,上云可以迅速满足业务需求,同时在业务发展到一定阶段后可以逐步迁移到混合云的模式,后期可以再根据公司发展和技术路线在公有云和自建算力中心中做资源的倾斜。

甄投资产量化投资总监-李兆薇

甄投目前处于正在上云的阶段,以前做中低频策略,主要是用公司的几台服务器跑策略,在20-40倍这个换手率区间内能够做到稳定的超额收益。今年我们感受到,一方面是策略基本盘前期开发完善了,现在复杂度在上升,另一方面是往高频拓展过程中数据量在提升,目前的算力布局是跟不上投研需求的。在扩建算力时,如果去部署本地服务器,不论是前期落地时间,还是维护成本方面,都是比较大的问题,同时研究员对算力需求的不平均,我们也希望有个弹性的解决方案,因此我们认为上云是个比较好的解决方案。

目前在上云过程中主要有两个挑战,一是如何适应云上开发的模式,对于IT和研究员的学习成本有多少,IT需要思考如何模块化地拆分代码放到云上,怎么进行资源的调度和分配,研究员需要在云上构建一个完整的研发流程;另一方面我们的数据按表归类数量巨大,前期做基本面时数据广度比较深,也包括很多处理过的中间数据,在数据上云的过程中,怎样寻找一个非常合适的存储和调度方案,以及进行大批量的迁移。

Q3:从服务者的角度,哪些技术手段和措施可以帮助量化私募解决当前面临的挑战和问题?是否有具体的实践案例可以给大家分享?

AMD中国区数据中心事业部资深架构师-梁朝军

AMD一方面会做的是在解决核心密集度高的同时提升每个核心的性能,将带宽增大,还包括与火山引擎在内的云厂商一起优化CPU的使用率,比如核心怎么分配,怎么调度等;另一方面是将生态系统建好,在量化领域提供相对成熟的解决方案。

火山引擎证券行业解决方案负责人-陈祎溦

刚才李兆薇总提到的学习成本确实很重要,国内完善的私募云服务生态是我们和生态伙伴努力的方向,争取为大家提供一个开箱即用的一站式云服务平台。大家对使用云服务的性价比可能有顾虑,但本质上来说用的人多了,整个成本势必会降低的,比如监管机构、券商、三方机构等整个生态体系都可以在某些应用方面积极上云。

Q4:人工智能时代,在量化投资的关键环节以及各位所处的领域,对于大数据和大模型的叠加,未来可能会在哪些方面尝试应用?已经取得了哪些突破性的进展?

AMD中国区数据中心事业部资深架构师-梁朝军

随着AGI的爆发增长,明年AMD将会发布核心密集度更高的CPU和适用于中国市场的GPU,同时将生态做的更加完善,兼容包括CPU推理库在内的库,降低学习和开发成本,从而使得云厂商的基础设施维护成本下降,客户使用云服务的算力成本便会更低。未来AMD会和包括火山引擎在内的云厂商一起在这个方向继续努力,提供更好的服务给大家。

火山引擎证券行业解决方案负责人-陈祎溦

我认为大模型对投资是有用的,当前做法是对海量数据时序化,然后根据一些时序数据预测未来。在大模型时代,量化投资可能不需要做太繁琐的数据清洗工作并按时序分类,整个世界背景的文本语料远大于我们想象,推理可能并不是完全严格按照时序来操作了,正如电影《降临》中尝试了对语言、时间两者关系的重新定义。火山引擎的方舟大模型平台有十几个模型可用,有数学、文本、语音等不同侧重点应用,未来会综合的去做更多应用探索。全球领先的对冲基金桥水公司会将每天所有会议内容数字化,后续怎样应用于投资现在也在探索,也可能被应用于大模型做投资决策,具体怎么用依赖于各位的奇思妙想。火山引擎除了会在其中提供好算力和云服务,也愿意与各位一起探索大模型之于私募的场景落地。

鸣石基金CTO-李涛涛

量化投资的传统定义是是借助现代金融学、统计学和数学的方法,将投资理念和研究成果量化为客观的数理模型,同时利用计算机技术来实现这整个投资过程。在AI时代,我觉得可以再给量化投资做这样一个新的定义:量化投资是做投资的科技公司。

回答这个问题,我们先拆解一下量化投资从0到1的步骤:从基础数据到衍生数据,利用这些数据做因子计算,然后是因子混合/信号生成,接着进行策略回测,模拟交易,实盘交易,最后做归因分析,每天循环往复,优化各个节点。

我认为AI在每个环节都可以被应用。现在不管是ChatGPT还是国内大模型本质上都是对整个世界的通识模型,或者技术层面上讲是对整个世界知识的有损压缩,训练参数足够大才可以将这些知识装到计算机里。根据OPENAI的报告,当前的模型参数在10B以上模型会开始出现涌现能力,在60B以上会开始产生思维链。

而在投资这个领域,我相信未来会在通识模型的基础上衍生出针对行业调优的领域大模型。未来可能会出现模型参数50B以内,但同时具有涌现能力和思维链的金融大模型。借助这样的领域大模型,我们可以用新的范式来辅助量化投资,比如生成公司股票的实时舆情,从非标数据生成另类的标准数据,发现公司之间隐含的依赖链条关系等应用。这跟原来的方法论有很大差异,当前还不能确认能否带来明显的超额收益,但是这个方向肯定是值得尝试和验证的。

另一方面是做因子计算和分析时,量化领域有两种加速方式,一是单任务加速,前提是任务间没有依赖关系;二是按任务级别做并行,比如若有一万个策略或者参数的值,想当天看到结果,可以认真考虑用云弹性的job服务,瞬间起上万个核三五十秒即可运算完。云这样的灵活调度是自建IDC完全不具备的能力。

我觉得在当下考虑AI到底能给我们带来什么时,要反思三个点,第一从数据到订单发出去哪些步骤需要优化?以前不用深究,别人怎么做,我也这么做就好了。现在问题是大家都这样做,那怎样把每个步骤都拆解得更细,利用AI、算力等技术助力投研?第二投资产出比,我们今年11月下旬开始测试ARM架构服务器,因为传统X86服务器对计算密集性任务不是那么友好,需要考虑用这些机器带来的业绩提升能否cover额外的成本,如果说能,那我们100%会用。第三是要积极拥抱前沿的技术,投入一定的人力财力物力来跟上最新的技术节奏,在AI的时代,我们的竞争范式已经从“人人互卷”到“人机互卷”的模式。所以更广泛来说,当前最重要是要仔细去拆解当前做的每件事情和环节,仔细思考能否利用AI的能力把事情做得更深入、更专业、更先进,只要比别人更有那么一点点特色,可能就会让你的节奏比别人快一点,只要快一点点,积少成多,也会拥抱质变。

甄投资产量化投资总监-李兆薇

我认为目前大模型现有应用领域和投资有着非常大差别,一方面是数据量,不管是语料库还是图片库数据量非常大,而金融行业的交易、财务、舆情、另类等数据量很小,没有办法在大模型中训练,另一方面是任务稳定性,交易任务变化非常快,在投资领域不管是因交易者变化还是交易行为的变化,包括量化投资的兴起,对任务的稳定性有很大的冲击。大模型直接去应用于投资领域是比较困难的,还是要拆分投资环节看能做些什么。

在另类数据领域,现在都是基于文字做舆情分析,未来有没有可能拓展到图片或者视频领域。在算法层面,目前是使用机器学习和深度学习,以后会不会用到强化学习对预测和决策进行耦合。从策略角度,风控可能也是应用领域,我们关注在极端行情下交易组合的表现,如果大数据和大模型结合能模拟一些极端行情,这对我们风控是非常有利的,大家讨论的很多,也有很多人持质疑态度,是由于金融行业信噪比太低,不一定能从历史数据中提取真正有效的信息,模拟出来的行情可能也没有很好的指导作用。这些都是大家目前在探索的一些方向。

科技发展日新月异,量化行业作为前沿科技的弄潮儿,不断探索如何将前沿技术应用到量化投资领域,以提高投资决策的准确性和风险管理能力,其中有的机构全生态自建只求百分百契合,有的机构借力打力利用现有产品轻装上阵。没有完美的技术和产品,也不存在单一方案可以解决各类型客户全周期的需求,适合自己的才是最好的。希望各位管理人都可以按需规划,用技术助力投资取得新突破!

最近更新

  1. TCP协议是安全的吗?

    2024-01-04 10:40:03       16 阅读
  2. 阿里云服务器执行yum,一直下载docker-ce-stable失败

    2024-01-04 10:40:03       16 阅读
  3. 【Python教程】压缩PDF文件大小

    2024-01-04 10:40:03       15 阅读
  4. 通过文章id递归查询所有评论(xml)

    2024-01-04 10:40:03       18 阅读

热门阅读

  1. flink on k8s几种创建方式

    2024-01-04 10:40:03       37 阅读
  2. 网站的数据是如何收集和分析的?

    2024-01-04 10:40:03       43 阅读
  3. 用python写个爬虫蜘蛛

    2024-01-04 10:40:03       50 阅读
  4. php composer安装

    2024-01-04 10:40:03       44 阅读
  5. 通用异构参数服务器技术

    2024-01-04 10:40:03       35 阅读
  6. Word2Vector介绍

    2024-01-04 10:40:03       42 阅读
  7. 客户投诉处理常用的ChatGPT通用提示词模板

    2024-01-04 10:40:03       48 阅读
  8. python 27例子(持续更新)

    2024-01-04 10:40:03       38 阅读
  9. 计算机网络期末复习题(一)

    2024-01-04 10:40:03       31 阅读
  10. Vue 3 中的 watch 函数:实战指南

    2024-01-04 10:40:03       29 阅读