问答:副总裁讨论可灵活部署的Vertica v10和交付透明,可复制的ML

跟上技术变革的浪潮,这是一个疯狂的旅程。一些公司错过了这一波,而另一些公司则抓住了它,只是在波峰消失时就消失了。在大数据世界中,Vertica养成了习惯,一波又一波地捕捉,定位自身,用力划桨,然后在成交量发时悬挂十个。

从模型视图演示者架构,使用Hadoop分布式文件系统(HDFS)的大数据到数据科学和数据分析,再到云和机器学习,Vertica顺利地从一种趋势过渡到了另一种趋势。它是当前唯一可在内部和云中提供分类计算的平台,并且随着Vertica版本10的发布,该平台正在采用更高级别的部署灵活性。

Micro Focus International PLC Vertica产品管理和市场营销副总裁Joy King(如图)说:“ Vertica的核心是一种真正的工程文化。” “这意味着我们不假装知道即将发生的一切。但是我们致力于拥抱技术趋势,创新。 …我们并不假装一无所知;我们就做这一切。”

推荐阅读
1的5,195

在虚拟的Vertica大数据会议上,King与SiliconANGLE Media移动直播工作室CUBE的主持人Dave Vellante进行了交谈。他们讨论了数据趋势以及Vertica如何使机器学习模型透明和可复制。 (*以下披露。)

[Editor’s note: The following content has been condensed for clarity.]

我已经对许多客人说,Vertica一直善于应对潮流。你看到的当前趋势是什么?你正在骑的巨浪。

金:数据增长和数据孤岛是趋势之一。 Hadoop是一头非常有能力的大象,但她不能成为一个完整的动物园。因此,市场上有很多令人失望的地方,但是HDFS中的数据很多。你将其与云对象存储的爆炸式增长相结合,可以说的是更多的数据,但更多的数据孤岛。

趋势二是云现实。云带来了很多优势;公共云计算提供了很多机会。但是我想我们已经学到了足够的知识,知道还有一些现实。它的价格比我们预期的要贵一些,存在一些安全性和隐私问题,有些工作负载无法传输到云中,因此混合部署以及多云部署是下一个必不可少的趋势。

在改变世界方面,也许是最令人兴奋的趋势,而且我们现在可以使用一点变化,这种趋势正在使机器学习投入运营。该技术具有巨大的潜力,但在某种程度上,它在很大程度上一直滞留在科学项目和数据科学实验室中,现在是时候将其投入运营。

我认为我们都知道,数据分析,机器学习不会带来真正的价值,除非那里的数据量能够真正预测和影响未来。在过去的七到十年中,正确地收集了数据,并将数据放到了一个公共位置。 HDFS为此进行了精心设计。现在的关键是,我们如何利用所有这些数据?现在,这正是Vertica所关注的。

Vertica 10.0刚刚发布。有哪些亮点?

King:Eon模式下的Vertica允许工作负载隔离,这意味着分配不同用例所需的计算资源,而又不让它们干扰其他用例并允许所有人访问数据。因此,这是将企业界团结在一起但又彼此保护的绝佳途径。

借助Vertica 10.0,我们将在Google Cloud上为HDFS引入Eon模式下的Vertica和Eon模式下的Vertica。 HDFS的Eon模式是一种将ANSI SQL数据库管理平台应用于HDFS基础结构和HDFS文件存储中的数据的方法。这是利用许多公司在HDFS上进行投资的好方法。我认为对大象好好对待是公平的。

你击败了许多云计算提供商,它们具有分别在本地和云中进行计算和存储的功能。假设你要给我那种云经验,许可和定价能力,这对Vertica来说是与众不同的。你能解释一下Vertica如何处理许可和费用吗?

金:毫无疑问,公共云引入了计算和存储的分离以及这些优势。但是他们没有能力或没有兴趣在内部复制该内容。对于Vertica,我们天生只有软件。我们不作为底层硬件的盘点收费,因此我们完全有动力独立于此,并不断优化软件以使其尽可能高效。

Vertica根据客户的使用情况为客户提供每个节点和每个TB的数据。我们还为需要CAPEX的客户提供永久许可证。但是,我们也提供订阅服务,说“不。我必须拥有OPEX。’这肯定会给我们的现场组织带来一些复杂性;我们知道,这全都与选择有关,当今世界每个人都希望为我量身定制个性化产品,而这正是我们在定价和许可方面所做的。

因此,我在这里的重点是选择性和定价方式。那很棒。现在,我们来谈谈存储的可选性。你已经拥有Amazon Web Services Inc.,我想现在是Google LLC,Pure Storage Inc.是合作伙伴……

King:我们支持Google对象存储,Amazon S3对象存储,HDFS,Pure Storage FlashBlade(这是本地对象存储),并且我们将继续这条道路。因为最终,我们知道客户需要拥有下一代数据中心体系结构的选择,这种体系结构是一种共享或公共存储,因此所有数据都在一个地方,但是可以根据该数据独立地管理工作负载,并且这正是我们正在做的。

我们来谈谈将机器智能应用于数据,即机器学习的一部分。你在那里的故事是什么?

金:几年前,我们开始在Vertica中构建一些数据库内,本地数据库内机器学习算法。我们这样做的原因是,我们知道MPP列式执行的体系结构将大大提高性能。我们还知道很多人都讲SQL。那么,如果我们可以通过SQL访问数据库中的机器学习并提供这种性能呢?这就是我们开始的旅程。

然后我们意识到,众所周知,实际上,机器学习不仅仅是算法。因此,我们建立了完整的端到端机器学习功能,从数据准备到模型训练,模型评分和评估,一直到完整部署。并且所有这些都可以通过SQL访问。你说SQL;你对数据说话。这种方法的另一个优势是,我们意识到如果你降低采样率,则会降低准确性。

如果你将一部分数据从数据库移至专业的机器学习平台,那么你将面临准确性以及行业称之为可复制性的挑战。这意味着,如果模型做出了决定(例如信用评分),并且该决定受到了任何形式的挑战,那么,你必须能够复制它,以证明你做出了正确的决定。

不久前,媒体上出现了关于信用评分决定似乎被性别偏见的报道,但是不幸的是,由于无法复制该模型,因此无法反驳这一事实,那就是不是一件好事。

因此,所有这些均内置于Vertica中,而对于Vertica 10,我们已迈出了下一步。与Hadoop一样,我们知道创新发生在Vertica内部,但也发生在Vertica外部。我们看到数据科学家真的很喜欢他们喜欢的语言,例如Python。他们喜欢TensorFlow等工具和平台。现在,通过Vertica 10,我们可以与Python进行更多的集成,但同时还可以与TensorFlow集成和PMML集成。

这意味着什么?这意味着,如果你使用所需的机器学习平台在Vertica外部构建和训练模型,则可以将该模型导入Vertica中并在完整的端到端过程中运行,但可以在所有数据。 MPP列式执行不再需要准确性方面的挑战,因此它的速度非常快。而且,如果有人想知道模型做出决定的原因,则可以复制该模型并解释原因。

它还带来了文化统一。它将说SQL的业务分析师社区与喜欢他们的工具(如TensorFlow和Python)的数据科学家社区统一起来。

在这么多的机器智能和人工智能中,存在一个黑匣子问题,你无法复制模型。那么你确实会遇到潜在的性别偏见。能够复制并打开并使机器智能透明非常重要。

金:确实如此,可复制性和准确性至关重要,因为如果你降低采样率并在不同的数据集上运行模型,事情就会变得混乱。 Vertica允许在数据库中进行操作或训练模型,然后将其导入数据库进行生产。这是开拓ML足迹的下一步。

你的客户在推动你做什么?你要交付什么?

金:我们客户目前要求的第一件事是部署灵活性。我告诉他们的是,不可能知道将要执行的命令或将来可能有的选择;关键是不必选择。他们对此非常非常致力于。

我想说的是对机器学习进行操作的兴趣,但不一定迫使分析团队就最好的工具来敲击数据科学团队,这可能是第二。

然后,我要说的第三点是大规模的性能。看一下Uber Technologies Inc.或The Trade Desk Inc.或AT&T Corp.之类的公司。当他们说毫秒时,他们认为这很慢。当他们说PB时,他们会说,“是的,那是昨天。”因此,对于Vertica而言,足够好的规模性能永远都不够好。这就是为什么我们不断在核心上构建下一代执行引擎,数据库设计器,优化引擎以及所有这些东西的原因。

观看下面的完整视频访谈,并确保查看更多SiliconANGLE和CUBE对虚拟Vertica大数据会议的报道。 (*披露:TheCUBE是Vertica大数据会议的付费媒体合作伙伴。CUBE活动报道的赞助商Vertica和其他赞助商都没有对CUBE或SiliconANGLE内容的编辑控制权。)

照片:SiliconANGLE

资讯来源:由0x资讯编译自SILICONANGLE。版权归作者Betsy Amy-Vogt所有,未经许可,不得转载
关注我们:Twitter | Facebook | Linkedin | Medium | Telegram | Weibo | WeChat