机器学习用于金融市场预测难在哪?-博客-云栖社区

By sayhello 2018年8月18日

ml_class_sketch.jpg

· datum的复数散布

· 小范本

· 难以计算的datum的复数

· 十分复杂

· 相称可见马尔可夫方针决策议事程序

· 挑选零碎的比喻

· 完毕思惟

朗伯德街已使产生机具得知的最早买卖保持健康经过。。20世纪80年头以后,布满一向在运用ML来见买卖保持健康裁定。。只是ML在预测买卖保持健康后果同意取等等巨万的成。,但日前的吃水得知对预测金融危机没多大扶助。。只是吃水得知和休息ML技术至死使Alexa,Google AssistantGoogle Photos使产生能够,但的股本买卖保持健康并没卖得大约进军。。

只是, 我将机具得知器械于情欲袜口的金融预测成绩。虽然晴天的东西论文要求吃水得知打字早已成。,但我依然对这些后果持疑问姿态。。有些形成图案的确具有胜过的精确度。。只是,差额的巨大常常不敷大。。

NLP的改良有助于举起定量ST的有效性。这是朗伯德街深处得知打字的珍贵优势。。

有这些都证明了朗伯德街本质上是不行预测的实在。。动机很难预测。。我以为集合注意到力一下形成有力的的某些次要动机。:

datum的复数散布:

datum的复数散布成绩至关重要——差不多非凡的做金融预测的沉思论文都疏忽了这点。

we的所有格使成形可以比较地金融datum的复数集与图像分类学datum的复数集。,为了胜过地心得这点。让we的所有格使成形思索一下。CIFAR-10datum的复数集.它表现10个去除。。每个类在其锻炼集合有5000个图像。,每个类在检验集合有1000个图像。。

cifar10.jpg 

we的所有格使成形打算把作主旨发言放在狗锻炼上。,像素重任的散布与犬分类学相像。。换关于之,狗的抽象将表现在锻炼集和狗在检验中。。这是本人傻子的解说。:狗的图像必然的表现狗。。

关闭大广袤的金融datum的复数集,,这事昭著的属性是徒然的。。未来你能够便笺的与你所便笺的datum的复数完全地意见分歧。。实在上,将机具得知器械于情欲袜口是本人遍及的成绩。。更确保检验和锻炼datum的复数集具有相像的散布,还必然的确保独自地当未来的datum的复数遵照锻炼/证实的散布才在生产里运用锻炼过的形成图案。

虽然大广袤的沉思人员都拘谨地不引入预测偏斜INT。,但差不多人人都不具结datum的复数免除的成绩。。

正向最佳化是处置这一成绩的能够选择。。这是雇工所熟知的。,但沉思人员概括地遗忘预告这点。。只是,甚至是前进地促进最佳化也找错误处置潜在成绩的万能灵药——它同意未来datum的复数散布将是什么的。这执意为什么前向最佳化方式并不克不及给你制作高PR的动机。。

小范本巨大(Small Sample Sizes

机具得知概括地需求一小儿datum的复数集合停止预测。。故障重要执意本人保持健康。,像,赋闲和非包收进项。。每个月都开腰槽本人datum的复数点。,没十足的历史datum的复数。。本人顶点的保持健康是金融危机——独自地本人datum的复数点。

这使得器械自动化得知方式非凡的有力的。。晴天的东西人终极采取的一种道路是将不太频繁的重要datum的复数与对立频繁的datum的复数结婚起来。像,你可以把非包收进项和日常的股本进项结婚起来。,并将结成datum的复数集提供给形成图案。。只是,常常需求停止落落大方的接管。,去除对形成图案素养的害怕。。

难以计算的datum的复数Unquantifiable Data

某些人能够会说,we的所有格使成形的金融史与人类历史其掌握势均力敌的的日历。。三灾八难的是,将datum的复数转变为定量datum的复数是有力的的。像,甚至we的所有格使成形对GR中发作的事实受胎片面的心得,也很难把它使产生一种可以用于得知的使成形。。

十分复杂(It’s Quite Complex

杂多的原理驱车旅行价钱在意见分歧的脱落上。:

· 高频买卖和算法买卖是过了一阵子价钱的次要驱车旅行力(不到1天)

· 以开盘价和沉淀都有本身的形成图案。表现的股本和早熟的。我运用的两个资产类别;

当归结起来多日线时,每天重复性的电子信件和谰言是驱车旅行力。。详细情节的公司每天重复性的电子信件可任何的时辰释放令,恕不另行通知。。只是,某些事情的日历是事前了解的。,像,公司的布局方言和理财datum的复数。;

· 费用花费理财周期当遵从的价钱交换累月经年,这是最重要的。。

专家组可以用来仿照意见分歧的脱落。,但这也本人装腔作势的人。。(请注意到,专家群是把势均力敌的广袤的形成图案停止结成的本人很平民的技术—差不多有定量资产设法对付公司都采取。)

相称可见马尔可夫方针决策议事程序Partially Observable Markov Decision Process

我很甘思索价钱的工夫序列。相称可见马尔可夫方针决策议事程序(POMDP).没人在任何的时辰都有完全地的有木架的。。我不了解明天会发作是什么,但你蒸馏器要决议。。你开腰槽的人难得。。同时,datum的复数的散布也在交换。。

我曾尝试将激化得知器械于财务成绩。。甚至我理想化了成绩(即房地产和行动空白表格),你不克不及学到任何的利益的东西。。我花了专有的星期关闭为什么不任务而停止调试—后果是RL算法需求十足的可预测性。

挑选零碎的比喻Similarities to Recommender Systems

ML可以器械于非凡的普及的的运动场。。在有这些,我见挑选零碎是最贴近金融预测成绩的。相反,潜在成绩的纠葛也举起了。。带文娱Recsys零碎比较地,剖析计划了潜在成绩的有力的。。

· 二者都都具有对立较低的精确度。.让we的所有格使成形思索一下。一下Netflix的保持健康。Netflix在主枝上显示了反正20个影片得到或获准进行选择。。到这地步,关闭每本人提议,选择影片用户的分摊能够性不足1/20。。有本人不到的成绩。,因用户能够不见任何的东西就距。。同一地,金融工夫序列中二元分类学成绩的精确性。

· 两种datum的复数都有很大的噪声。noise.在这两种保持健康下,信噪比很高。。在金融工夫序列中,噪声较高。,因晴天的东西意见分歧的原理印象价钱。。Recsysdatum的复数集表现噪声(PDF)。,因用户阅读通常受到印象-用户可以叫确定的的Amazon,从这种生产中收买任何的东西都是没行动的。noise)了。

· 两个datum的复数集都是季节性的。.亚马逊购买打字(即生产财产分配和财产分配)。同一遵从的休息R。ecsys成绩,像,影片的趣味和YouTube电视频率的选择也DEP。。财务datum的复数也季节性的。,最平民的季节性成绩是理财周期。。

· 二者都都必然的处置有形的事情/商品。.亚马逊将新生产添加到其篇目中,不竭地将Netflix头脑添加到商品列表中,每一分钟,新的电视频率被上传讯YouTube上。。挑选零碎必然的处置这事成绩——方式挑选生产THA。如datum的复数免除相称中提到的,财务datum的复数可以表现完全地意见分歧的DU事情。。

· 两种形成图案都必然的用意见分歧类型的datum的复数停止锻炼。. YouTube上有某些孤独的效能。,像,N所便笺的至死本人电视频率列表。,它还具有延续的效能。,像,看至死本人电视频率很长一段工夫。。同一,金融datum的复数集可以由高等的频率的价钱和更低的FRE结合。。

完毕关心:

倘若你想距这事工作是因一件事。,适宜这样:金融工夫序列是一种相称人博弈(POMDP),甚至对人类来说,也很有力的的。,we的所有格使成形不适宜祝福机具和算法霍然高于或独立于而生存人类的ABI。。

这些算法晴天地找到了硬编码打字并加以器械。,这是一把轻剑。,但间或它不起作用。。它扶助大广袤的简略打字歧视建议。。经过无监视得知在金融工夫序列中歧视打字的下一阶段依然是本人难以应验的梦想。

定冠词源自北邮。爱可可饮料-情爱生动的教员挑选,Ali Yun Yun社区安排理解。

定冠词的标题是为什么。 is machine learning in finance so hard? | Hardik Patel》

作者:Hardik Patel

译者:奥特曼,托运:袁虎。

理想化理解文字,更详细情节的愿意的,请检查原文

发表评论

电子邮件地址不会被公开。 必填项已用*标注