支持不同的存儲方案和計算方案,靈活滿足客戶的各類場景
支持 HDFS、Hbase、Kudu 等從 GB 到 PB 級別的存儲方案,支持 Hive 和 MapReduce 等批量計算、Spark 內存計算、Kylin 多維分析、Impala 和流式計算(開源 Spark Streaming 和自研 Sloth)等計算方案,靈活滿足客戶的各類場景。
支持全量離線接入和關系型數據庫和日志的增量實時/準實時接入
全量離線接入:將業務數據從各類數據源(MySQL、Oracle、PostgreSQL、MongoDB 等)離線導入數據倉庫以及其他相關大數據環境,適用于對數據導入實時性要求不高以及靜態數據源的場景,例如將某業務上個月的所有數據導入數據倉庫用于數據分析。關系型數據庫和日志的增量實時/準實時接入:分別使用了自研的 NDC 系統和 DataStream,將業務庫中增量數據和 APP 日志實時導入到大數據環境,延遲可控制在秒級,適用于對數據導入實時性要求高,且業務快速增長的場景。
提供 SQL 開發、依賴配置與調度管理、交互式查詢等,提高開發效率
傳統軟件的開發過程中,有大量豐富的軟件保證開發、調試、發布等步驟井然有序地進行。從業人員的高素質和這些管理過程的工具保證了線上應用的高質量。但目前大數據商用軟件領域,很少有足夠好用的 IDE 來幫助企業構建數據應用。猛犸提供了 SQL 開發、依賴配置與調度管理、交互式查詢等,協助管理開發過程,提高開發效率。
提供元數據管理,標準化企業內部的元數據定義
元數據管理的主要目標是標準化企業內部的元數據定義。而隨著數據依存度逐年增加,追蹤數據流動,了解數據含義和血緣關系越發困難。猛犸通過數據地圖、數據字典、數據血緣三個方面保證企業的元數據標準。同時對主題、維度、指標進行一致性定義和管理解決了數據生產過程中的質量問題。
通過認證、授權、審計三個方面來保證數據安全
平臺采用 Kerberos 做用戶級別的認證。基于加密方法建立用戶(和系統)識別自己的方法,對個人通信以安全的手段進行身份認證,用戶和服務器都能驗證對方的身份。針對角色授權數據訪問。對 HDFS、Hive 等實現了統一的,細粒度的數據權限控制。從數據角度,可以查看當前何種角色有何種權限。從角色角度,可以查看對哪些數據有何種權限。審計提供較直觀事件跟蹤,包括實時監測對系統敏感信息的訪問和操作行為,根據規則設定報警并及時阻斷違規操作,收集并記錄用戶行為。