Kaskada數據科學自動化平台旨在加快機器學習模型的生產速度

在宣布計劃實現人工智慧項目的特徵工程階段自動化的一年多之後,總部位於西雅圖的初創公司Kaskada Inc.將其首款產品推向市場。

Kaskada表示,其目標是使要素工程民主化,這是一個通常很費力的過程,需要數據科學家在將其投入生產之前,先選擇,清理和驗證要輸入到機器學習訓練模型中的數據。

例如,旨在預測房價的模型將使用預測數據進行特徵工程設計,例如房地產的平方英尺,卧室數量和位置。 訓練數據集越大越完整,結果越好。

收集數據並將機器學習模型投入生產所需的資源是如此巨大,以至於除了最大的公司以外,所有其他公司都無法實現這些功能。 Kaskada說,其平台具有用於團隊工程設計的協作界面和用於跨基於事件的數據進行計算並提供生產功能的專有數據基礎結構。

Kaskada的首席執行官兼Google LLC和Microsoft Corp.的前軟體工程師Davor Bonaci說:「我們致力於建立培訓與生產之間的橋樑。我們正在推出一個自助服務平台,以幫助數據科學家將工作投入生產通過自動化基礎架構。 您可以入職,並沒有太大的採用曲線,或者需要讓您的組織中的每個人都同意嘗試。」

該公司的自助服務平台是一個獨立的數據科學工作室,具有預先構建的機器學習模型以及通過應用程序介面提供支持它們所需的特徵向量。 「您可以獲得用於實時欺詐檢測等功能的最新特徵向量,」 Bonaci說。 「您不必編寫數據管道或處理流數據。 我們運行模型所需的數據處理。」

事件驅動的焦點

自宣布以來,Kaskada的平台發生了一些變化,其中最重要的一點是更加關注事件驅動的數據收集。 這是一種處理類型,可根據滑鼠單擊和事務等實時事件做出決策。

事件驅動的處理在諸如預測客戶購買產品或信用卡交易將成為欺詐行為的可能性之類的場景中特別有用。 實時數據處理需要高效的數據基礎架構,以便在任意時間點計算功能並將其交付給培訓和生產環境。 「我們已經建立了很多功能,可以根據時間進行思考,」 Bonaci說。

該公司還把更多的精力放在自動化數據科學流程上,而不是數據工程上。 這兩個功能應該協同工作,但經常無法有效地通信,因為數據科學家專註於數據,而工程師則致力於將模型投入生產。

Bonaci說:「由於科學和工程團隊的價值觀不同,投入生產可能會有摩擦。」 「我們減少了將工作投入生產所需的摩擦。」

Kaskada是一項雲原生服務,客戶可以將其部署在自己的雲實例中,作為託管服務運行或安裝在本地基礎架構上。 該公司提供了一種獨特的定價模型,其中包括數據容量有限的免費套餐,精選的公共數據集,示例項目以及個人提交和版本歷史記錄。 付費計劃支持團隊開發,批量數據上傳,直接數據連接和實時功能。 沒有提供詳細信息。

圖片:Starline / Freepik

資訊來源:由0x資訊編譯自SILICONANGLE。版權歸作者Paul Gillin所有,未經許可,不得轉載
提示:投資有風險,入市需謹慎,本資訊不作為投資理財建議。請理性投資,切實提高風險防範意識;如有發現的違法犯罪線索,可積極向有關部門舉報反映。
你可能還喜歡