如何实现智能投资？来自JP摩根的大数据和 AI 策略

时间：2020-06-24 相关资料下载

大数据与人工智能是密不可分的，大数据的发展离不开人工智能，没有人工智能的加持大数据就无法拥有智能。而人工智能的发展又离不开数据的支持，它需要海量数据作为思考决策的基础。

“大数据”这个词热了十几年，“人工智能”这个词也热了超过三年。回顾近几年的发展，我们会发现在很多领域机器其实都超过了人类。

海量的大数据在很多狭窄的领域远远击败人类所能够做的极限，可以说，在这些领域人类基本不会有任何机会胜过机器。比如：我们读一本书的速度是很慢的，而IBM人工智能参加电视比赛的时候，一天就能够把全部美国国会图书馆的所有藏书读完。

大数据正在各个领域帮助人类创造价值。今天人们都在做大数据的人工智能，如百度的一条搜索，今日头条的排序，淘宝推荐的每个产品，滴滴每次对接司机……这背后都是人工智能。

结合大数据的人工智能，可以广泛应用于传统领域，比如银行、保险、券商、炒股。早在2017年，J.P.摩根的 280 页研究报告《大数据和 AI 策略——面向投资的机器学习和另类数据方法》，就极为详尽地梳理、评述、预测了对冲基金和投资者使用机器学习技术利用、分析另类数据的现状与未来。

| 机器学习：另类数据可用以及分析的新定量技术

大数据和机器学习“革命”：目前，联网设备以电子方式获得了大多数的记录和观察。这原则上允许投资者实时访问广泛的市场相关数据。例如，可用于评估通货膨胀数百万项目的在线价格，可以实时估计销售量的商店访问和交易的客户数量，可以评估石油钻井平台或农业活动产量的卫星图像。

鉴于可用的数据量，有经验的量化投资者在理论上可以接近获得实时的某公司特定的数据，而这些数据不能从传统的数据源获得。在实践中，有用的数据不容易获得，需要购买，需要组织和分析另类数据集以提取可交易信号。大型或非结构化数据集的分析通常使用机器学习来完成。在设计定量策略方面，成功应用机器学习技术需要一定的理论知识和很多实践经验。

在苦苦追寻 Alpha（对于非金融领域的读者，可以简单地将 Alpha 理解为超额回报）的过程中，基金经理越来越多地采用量化策略。

另类数据的可用以及分析这些数据的新定量技术——机器学习，正在成为竞争优势的新来源。这种“数据的工业革命”旨在通过信息优势和发现新的不相关信号的能力来提供 Alpha。

大数据信息优势来自手机、卫星、社交媒体等新技术创造的数据。大数据的信息优势与专家、行业网络甚至企业管理能力不直接相关，更多体现的是收集大量数据并实时分析数据的能力。在这方面，大数据有能力深刻改变投资环境，进一步将投资行业趋势从自由决定性转变为量化投资风格。

有三个趋势使大数据革命成为可能：

1）可用数据量的指数增加；

2）提高计算能力和数据存储容量的成本降低；

3）分析复杂数据集的机器学习方法取得了进展。

| 另类数据的收集

在投资管理中，大数据革命的核心在于能够提供具有信息优势的数据资源。另类数据带来的优势可能是在于发现传统的信息源中没有包含的新信息，或者发现的是相同的信息，但是速度更快，时间更早。例如，矿井或者土地的卫星图片能够在媒体或者官方报告前，揭示供应短缺。

我们旨在提供大数据的框架或分类。首先，我们根据数据的生成方式对数据进行分类。然后，我们考虑的是数据集的属性，也就是与投资专业直接相关的，例如将数据集映射到资产类别或投资风格，alpha内容，数据质量，技术规格等。

我们首先在高水平上对数据来源进行分类，指出它们到底是由个人（如社交媒体帖子）生成，还是通过业务流程（如电子商务或信用卡交易数据）生成，或由传感器（比如卫星图片、雷达等等）生成。

上图展示了这一分类。这种一方法扩展了Kitchin（2015年）和联合国报告（2015年）在非财务文本中早期的尝试。

虽然这种分类法在某种程度上只是理论上的，但是，在分析这三个类型的数据时，确实存在共同特征，分析方法和共同的挑战。例如，个人生成的数据通常是非结构化的文本格式，需要自然语言处理。传感器生成的数据往往是非结构化的，并且可能需要分析技术，例如计数对象，或消除天气/云从卫星图像的影响。许多商业上生成的数据集，如信用卡交易和公司的“废弃”数据都面临共同的法律和隐私问题。

| 机器学习技术的分类：怎样才算是人工智能

大型和较少结构化的数据集通常不能用简单的电子表格工作和散点图进行分析。我们需要新的方法来解决新数据集的复杂性和规模。例如，使用金融分析师的标准工具不可能对非结构化数据（如图像，社交媒体和新闻稿）进行自动分析。即使在大型传统数据集上，使用简单的线性回归往往会导致过度拟合或不一致的结果。机器学习方法可用于分析大数据，以及更有效地分析传统数据集。

在机器学习中，给予计算机一个输入（一组变量和数据集），输出是输入变量的结果。该机器然后发现或“学习”在输入和输出之间起到链接作用的规则。

最终，这个学习任务的成功会被进行“样本外测试”，也就是，在未知的情景下，测试它所获得的这种连接变量和可能的预测结果之间的关系能力。

机器学习可以是监督的或无监督的。

| 在另类数据中实施机器学习的主要步骤

鉴于风险和不确定的回报，许多投资者都在思考何时应该采用更具量化性的、数据驱动型的投资方法。首先我们简要概述实施过程中的主要步骤（例如有多少需要外包、内部构建大数据/机器学习所需的人才、典型的技术设置等等）。如下图所示：

大数据与机器学习革命将深刻改变投资环境。随着越来越多的投资者采用大数据，市场的反应将更快，并将越来越多地期待传统或“旧”数据源。这将为量化经理和愿意采用和了解新数据集和分析方法的人们提供优势。

那些不学习、拒绝进化的人将面临过时的风险。不管这些变化的时间表如何，我们认为，分析师，投资组合经理、交易者和首席信息官最终将不得不熟悉大数据和机器学习的发展和相关的交易策略。

以上就是JP摩根报告的部分内容，在报告中详细介绍了结合数据的人工智能在传统金融行业的应用，对于这方面感兴趣的同学肯定有了新的思考。但要实现这个目标我们需要具备什么呢？

编程语言是实现大数据应用和AI应用的一个重要环节。开源统计分析语言Ｒ被广泛应用于互联网、制药、环境保护等行业，可以进行经济计量、财经分析、人文科学研究、用户行为分析、以及人工智能相关的计算。

Ｒ语言具有的灵活性、开放性，使Ｒ语言在大数据处理中的应用也越来越被学界和业界所重视。多种大数据架构平台上已经提供了基于R语言的编程插件。借助R的高效性，可以使得对大数据的分析事半功倍。现代深度学习库，例如Keras都已经支持了R语言。因此，R语言是横跨大数据和人工智能的易学编程语言。

在编程语言和相关理论基础的支持下，数据分析与人工智能暑期线上学术营，通过典型案例分析，使学员在短时间内了解与掌握大数据的知识与技能，培养其科学与创新思维，提高分析和解决实际问题的综合能力，为未来研究和工作奠定基础。

点击阅读:

HiMCM IGEM 传统数学竞赛高中生国际金融商赛青少年科技创新大赛专利辅导高中生科研