12-10-2022 · 市场观点

科普贴:有关量化投资的另类数据,你需要知道的在这里

获得最佳数据的概念并不新鲜:在拿破仑战争期间,一群欧洲银行家建立了一个遍布欧洲的信使和信鸽站网络,以尽快收集战场信息。

    作者

  • Laurens Swinkels - Head of Quant Strategy

    Laurens Swinkels

    Head of Quant Strategy

  • Mike Chen - Head of Next Gen Research

    Mike Chen

    Head of Next Gen Research

  • Kristina Ūsaitė - Researcher

    Kristina Ūsaitė

    Researcher

从那时起,投资者已尝试用不同的方法来获取信息以获得优势。传统的财务数据通常由财务报表和其他公司披露组成,并结合经济信息。大多数数据来自少数集中来源,由公司本身,卖方分析师和证券交易所主导。

但自从21世纪互联网和智能手机的大规模采用以来,另类数据现在更加流行。这可以来自各种来源,例如卫星图像,信用卡支出,甚至网络博客评论。研究表明,大约有180个数据市场,2,000个数据提供者和超过200,000个数据集。1 获取此数据的平均支出也有所上升,如下图所示:

7wdsr40n.bmp

资料来源:荷宝,AlternativeData.org,阿兹科伊特,伊奥达努和劳塔里斯(2021)

四个V

与传统财务数据相比,另类数据源的特征可以总结为四个 V:

  1. 数据量大(Volume):来自另类财务数据源的信息量使标准财务数据的信息量相形见绌

  2. 传输速度快(Velocity):另类金融数据的创建和传播速度要快得多

  3. 数据性质多样性(Variety):无穷无尽的各种来源,例如图形,文本,图像,甚至是更丰富的音频/视频文件

  4. 较低的准确性(Veracity):它可以在没有严格控制的情况下进行众包和传播,并且可能是虚假或误导性的。

因此,另类数据市场是一个兼具优点和缺点的丰富生态系统。那么,使用另类数据的投资者需要技能来提取有价值的见解并避免误导性信息。


数据的应用

另类数据还可以让用户获得与使用传统数据的投资者不同的见解或观点。一个很好的例子可以在中国散户投资者用来深入了解A股市场的股吧/微博中看到。2 与等待下一季度报告发布的投资者相比,阅读这些博客的投资者在短线交易(?)方面更具有信息优势。

在ESG和可持续投资方面,另类数据可能至关重要。关于企业的碳排放或性别多样性等问题的传统数据,往往具有滞后性。了解公司计划如何与能源转型保持一致需要更具前瞻性的方法。在社交网站上查看高管和员工的个人资料,使分析师能够更好地了解公司的实际多样性水平。

投资流程中的另类数据

那么,机构投资者如何在投资过程中使用另类数据呢?从广义上讲,这可以分为定量或定性研究。量化投资者最早开始,并且一直在大规模使用另类数据。他们的投资过程涉及建立投资假设,通过对金融数据的统计和数学分析来测试 - 经典的科学方法。

另类数据的广泛性拓宽了量化投资者可以调查的投资假设类型。例如,假设我们要检查更好的员工士气是否会导致公司的长期表现。如果您仅使用财务报表或股票价格数据,则无法回答此问题。然而,使用来自Glassdoor等网站的信息意味着研究人员可以检查员工情绪高的公司是否会胜过士气低落的公司。3

相反,基本面投资者大多没有采用另类数据,因为投资决策往往是基于个别基金经理的判断,他们检查财务报表,与公司管理层交谈,并观察各种产品和服务的受欢迎程度。因此,另类数据封装的许多无形信息都是通过人类活动直接观察到的。

常见问题

仍然存在常见问题,其中最常见的问题是投资者可以从何处获得另类数据?最直接的方法是使用另类数据平台和代理,例如 Neudata 或 Eagle Alpha;另一个受欢迎的渠道是彭博社和FactSet等服务提供商,他们现在还提供另类数据以及传统的财务数据。

另一个普遍的问题是它要花多少钱?没有人们想象的那么多。在2010年代初,另类数据,即使是应用面较窄或颗粒度不高的信息数据集,供应商时常要求超过一百万美元。而现在由于另类数据已逐渐成为主流,成本已降至10万美元以下,数据集价格中位数目前约为每年1.7万美元。4

那么,处理它需要什么呢?许多投资者意识到,瓶颈不在于寻找另类数据,而在于拥有加入和处理这些数据所需的技术技能和基础设施。传统的财务数据可以存储在电子表格中并使用简单的统计工具进行处理,而另类数据则需要更复杂的工具,如机器学习。

最后,应该选择什么数据集?虽然投资者通常可以免费试用另类数据,但正确调查它是否真正增加了价值所需的时间仍然很重要。根据我们的经验,有经验的另类数据用户通常每年只输入五到十个新数据集。而数据量如此之少的部分原因是投资的时间要求。

基金管理仍然是必要的

最终,无论是基本面投资还是量化投资,投资人都需要通过将另类数据转化为可执行的投资决策,并在投资过程中创造真正的价值。

然而,基于另类数据,我们可以提出更令人兴奋的研究问题,并通过更符合客户目标的增强业绩和投资解决方案创造更多价值。

脚注

1Azcoitia, S., Iordanou, C., and Laoutaris, N. (2021). “What is the price of data? A measurement study of commercial data marketplaces”, ArXiv working paper 2111.04427.
2Chen, M., Lee, J., and Mussalli, G. (2020). “Teaching machines to understand Chinese investment slang”, Journal of Financial Data Science 2(1), 116-125.
3Filbeck, G., and Zhao, X. (2022). “Glassdoor best places to work: how do they work for shareholders?”, Studies in Economics and Finance (forthcoming).
4Neudata (2022). “What is the Price of Data?”, Neudata Literature Review

免责声明:

本文由荷宝私募基金管理(上海)有限公司(“荷宝上海”)编制, 本文内容仅供参考, 并不构成荷宝上海对任何人的购买或出售任何产品的建议、专业意见、要约、招揽或邀请。本文不应被视为对购买或出售任何投资产品的推荐或采用任何投资策略的建议。本文中的任何内容不得被视为有关法律、税务或投资方面的咨询, 也不表示任何投资或策略适合您的个人情况, 或以其他方式构成对您个人的推荐。本文中所包含的信息和/或分析系根据荷宝上海所认为的可信渠道而获得的信息准备而成。荷宝上海不就其准确性、正确性、实用性或完整性作出任何陈述, 也不对因使用本文中的信息和/或分析而造成的损失承担任何责任。荷宝上海或其他任何关联机构及其董事、高级管理人员、员工均不对任何人因其依据本文所含信息而造成的任何直接或间接的损失或损害或任何其他后果承担责任或义务。本文包含一些有关于未来业务、目标、管理纪律或其他方面的前瞻性陈述与预测, 这些陈述含有假设、风险和不确定性, 且是建立在截止到本文编写之日已有的信息之上。基于此, 我们不能保证这些前瞻性情况都会发生, 实际情况可能会与本文中的陈述具有一定的差别。我们不能保证本文中的统计信息在任何特定条件下都是准确、适当和完整的, 亦不能保证这些统计信息以及据以得出这些信息的假设能够反映荷宝上海可能遇到的市场条件或未来表现。本文中的信息是基于当前的市场情况, 这很有可能因随后的市场事件或其他原因而发生变化, 本文内容可能因此未反映最新情况, 荷宝上海不负责更新本文, 或对本文中不准确或遗漏之信息进行纠正。