企业数据管理中的快速机器学习

发表于 2019年8 月15日星期四下午 9:05:47

作者：资产控制美洲战略解决方案总监Boyke Baboelal

多年来，机器学习（ML）一直在金融服务中得到充分利用，以推动新业务，提高盈利能力，降低风险并提高客户满意度。

Boyke Baboelal

但是，在数据管理方面，广泛采用尚未取得进展。一个问题是运营团队并不总能理解与数据管理相关的ML的用例和功能。另一个原因是明显的使用案例需要高水平的准确性，而ML方法的准确性目前被认为难以预测。最重要的是，日常的重点是向下游应用程序提供清洁数据，例如风险，贸易支持和合规引擎，几乎没有时间改进或开展感知的大型项目。

然而，在数据管理中存在许多ML的潜在用例，通过提高生产力，通过上下文驱动的用户界面提供更好的用户体验，降低风险以及通过更有效的操作改进服务和数据质量，可以降低运营成本。

ML可以快速增值的一个领域是测量和控制数据风险并检查控制的有效性。现在正是时候了，因为近年来监管指南中对“数据质量”的提及已经大大增加。例如，在内部模型目标审核（TRIM）中，欧洲央行专门针对其国家主管部门的“数据质量管理流程”的重要性。 TRIM指出“机构应建立并实施有效的数据质量框架。”在偿付能力监管标准II中，存在类似的指导方针，需要识别和管理数据风险，包括管理相应的控制措施。

ML可以快速增值的一个领域是测量和控制数据风险并检查控制的有效性

在控制框架内，ML可以帮助降低通过高性能大数据分析检查大量数据的成本，通过利用深度学习技术提高控制的有效性，并使用处理非结构化数据并发现流程和异常用户活动的ML算法提高对策略的遵从性从数据风险和控制开始的好处是，所有这些改进都可以用很少的投资来完成，而不会影响常规业务活动。

ML为关键控件增加重要价值的一个用例是异常处理。这可能是数据管理中最重要的控制。其及时准确的数据检查的关键功能有助于发现异常，随后需要数据清理器进行验证。只有将正确的规则应用于数据对象，异常处理才有效。跨数据领域的检查的一致应用，特别是在大型Cosmos中，可能难以评估，这是ML（即异常检测）可以通过识别未正确检查的数据对象来实现差异的地方，以便操作用户可以分配适当的规则，并提高异常处理控制的有效性。

有许多ML算法，例如基于距离，密度，聚类和分类方法，可用于异常检测，所有这些都有其优点和缺点。其中最有效的是使用自动编码器（也称为复制器神经网络（RNN））进行深度异常检测，以检查控制设置中的不一致性。 RNN使用神经网络内的多个层将输入数据编码为摘要表示。随后，解码器尝试使用摘要表示重新创建原始数据。这个想法是，如果大多数数据Cosmos都是正常的，神经网络会将解码偏向正常值。原始数据和解码值之间的差异是检测异常的基础。即，这些值越不同，异常得分越高。

与传统的ML方法相比，RNN具有许多优点。它们可以很好地扩展到大型数据集，可以使用许多功能来检测异常，有效地发现非线性特征，并允许计算异常分数。 RNN不需要标记数据以在正常值和异常值之间进行学习，因此更易于设置和维护，并且更具成本效益。在市场数据或参考数据管理的情况下，RNN的缺点是有限的，因为与例如处理图像相比，特征的数量非常有限，并且市场和参考数据是相对非常结构化的。

鉴于许多组织已经启动了数据质量计划，并且ML使用在其他行业已经成熟，现在是开始研究数据管理的人工智能的好时机。

通过正确的使用案例，数据管理团队可以 – 很少投资 – 快速体验ML带来的好处。由于分析库通常可用，成本可以保持较低，而ML专业知识在不同行业（包括金融服务）中更为普遍。通过使用新的分析，数据管理生产力将提高，控制将得到改善，风险将降低，数据质量将提高，同时在准备更严格的数据质量法规（即需要数据质量框架，数据风险）方面迈出重要一步需要进行识别，监测和控制，并且需要定期评估控制措施的有效性并加以改进。

一旦数据团队在日常流程中接受ML，就可以在异常处理和用户界面等领域进一步改进，以便通过上下文驱动的UI和动态工作流更好地检测可疑数据并提升用户体验。

鉴于许多组织已经启动了数据质量计划，并且ML使用在其他行业已经成熟，现在是开始研究数据管理的人工智能的好时机。使用ML的数据质量智能是实现数据质量和运营效率的下一步。

请关注并喜欢我们：

资讯来源：由0x资讯编译自THEFINTECHTIMES。版权归作者The Fintech Times所有，未经许可，不得转载