“袋鼠云經(jīng)過(guò)長(zhǎng)年的摸索和積累,確定了獨(dú)有的數(shù)據(jù)中臺(tái)產(chǎn)品化方向和技術(shù)架構(gòu),打磨出的“數(shù)棧DTinsight”產(chǎn)品顯著異于其他廠商,某種意義上講,我們認(rèn)為它很好地詮釋了云原生數(shù)據(jù)中臺(tái),是新一代的數(shù)字化基礎(chǔ)設(shè)施。”—— 袋鼠云數(shù)棧事業(yè)部總經(jīng)理閔佳

袋鼠云數(shù)棧事業(yè)部總經(jīng)理閔佳
今年中國(guó)信息通信研究院發(fā)布了《中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展白皮書》,報(bào)告指出2020年中國(guó)數(shù)字經(jīng)濟(jì)規(guī)模達(dá)到39.2萬(wàn)億元,占GDP比重為38.6%,同比名義增長(zhǎng)9.7%。能夠看出國(guó)內(nèi)數(shù)字經(jīng)濟(jì)的發(fā)展勢(shì)頭十分迅猛,企業(yè)自身的數(shù)字化建設(shè)和轉(zhuǎn)型迫在眉睫,其中對(duì)數(shù)據(jù)的治理、管理、應(yīng)用是企業(yè)運(yùn)營(yíng)關(guān)注的首要焦點(diǎn)。
8月中旬,當(dāng)我們?cè)诓稍L閔佳先生的過(guò)程中提及:“數(shù)據(jù)中臺(tái)”概念正處于大熱炒作期或?qū)⒚媾R紅海競(jìng)爭(zhēng),袋鼠云的數(shù)據(jù)中臺(tái)產(chǎn)品應(yīng)當(dāng)如何破局時(shí),閔佳的回答得十分從容,顯得胸有成竹。
“數(shù)據(jù)中臺(tái)還處于一個(gè)龐大的增量市場(chǎng)中,我們的產(chǎn)品與解決方案還顯著區(qū)別于其他廠商的,陷入紅海競(jìng)爭(zhēng)的概率并不大。”閔佳說(shuō)到。
企業(yè)數(shù)字化轉(zhuǎn)型道路上,面臨的障礙與難關(guān)“在過(guò)去服務(wù)客戶與服務(wù)項(xiàng)目的過(guò)程中,我們總結(jié)了關(guān)于企業(yè)推進(jìn)數(shù)字化建設(shè)的痛點(diǎn),”閔佳認(rèn)為,數(shù)據(jù)中臺(tái)如何將自身業(yè)務(wù)產(chǎn)生的數(shù)據(jù)資產(chǎn)化是一項(xiàng)重要任務(wù),數(shù)據(jù)資產(chǎn)的質(zhì)量也決定了其應(yīng)用效果,而數(shù)據(jù)資產(chǎn)化有賴于高效的數(shù)據(jù)質(zhì)量管理工作。
“想要將數(shù)據(jù)轉(zhuǎn)化為資產(chǎn),首先需要經(jīng)過(guò)一套完整的數(shù)據(jù)清晰流程,包括建立數(shù)據(jù)管理標(biāo)準(zhǔn)、數(shù)據(jù)接入渠道、數(shù)據(jù)質(zhì)量核查評(píng)估體系等。”閔佳向我們列舉了在企業(yè)發(fā)展過(guò)程中,隨著各種信息系統(tǒng)的上線所逐步產(chǎn)生的數(shù)據(jù)采集方式,覆蓋了從業(yè)務(wù)數(shù)據(jù),行為數(shù)據(jù),系統(tǒng)日志數(shù)據(jù),IOT數(shù)據(jù)等,數(shù)據(jù)類型涵蓋結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)到非結(jié)構(gòu)化數(shù)據(jù)等來(lái)源不一、形式不一、標(biāo)準(zhǔn)不一的復(fù)雜數(shù)據(jù)類型。“如此多的原始數(shù)據(jù)蘊(yùn)含的信息量和價(jià)值是龐大的,但是用人力去做計(jì)算、清理工作量和成本是龐大的,而且?guī)缀鯚o(wú)法完成,這就是為什么許多企業(yè)懂得數(shù)據(jù)資產(chǎn)的重要性,卻遲遲不能建立數(shù)據(jù)資產(chǎn)庫(kù)的原因,它本身就是一件知易行難的事情。”
企業(yè)在試圖挖掘數(shù)據(jù)價(jià)值,實(shí)現(xiàn)數(shù)據(jù)業(yè)務(wù)化的過(guò)程中,常常面臨各種痛點(diǎn)和難點(diǎn):
第一是數(shù)據(jù)孤島嚴(yán)重的問(wèn)題。煙囪式的應(yīng)用開發(fā)模式,導(dǎo)致數(shù)據(jù)分散在不同的業(yè)務(wù)系統(tǒng)中,數(shù)據(jù)割裂嚴(yán)重,無(wú)法有效整合打通,很難做統(tǒng)一的分析與統(tǒng)計(jì),難以發(fā)揮全域數(shù)據(jù)的價(jià)值;
第二是重復(fù)開發(fā)。缺少數(shù)據(jù)沉淀、數(shù)據(jù)共享機(jī)制,當(dāng)有新的數(shù)據(jù)需求時(shí),重復(fù)開發(fā)導(dǎo)致人力資源、計(jì)算資源浪費(fèi)嚴(yán)重;
第三是數(shù)據(jù)管理困難。數(shù)據(jù)沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)和定義,分散在不同的存儲(chǔ)上,沒(méi)有統(tǒng)一的數(shù)據(jù)入口,元數(shù)據(jù)維護(hù)、在線化管理困難;
第四是技術(shù)門檻高。數(shù)據(jù)采集、離線處理、實(shí)時(shí)處理、數(shù)據(jù)挖掘等需要用到不同的技術(shù)和組件,并且技術(shù)更新快,組件版本升級(jí)頻繁,熟練掌握這些技術(shù),需要花費(fèi)大量的精力;
最后是需求響應(yīng)慢。為了滿足不同業(yè)務(wù)方的數(shù)據(jù)需求,需要從多個(gè)業(yè)務(wù)系統(tǒng)中進(jìn)行數(shù)據(jù)采集,再做復(fù)雜的轉(zhuǎn)換加工,缺乏工具和平臺(tái)方面的支撐,疲于應(yīng)付臨時(shí)性提數(shù)分析需求,無(wú)暇顧及平臺(tái)級(jí)建設(shè)和數(shù)據(jù)治理,惡性循環(huán)。
從單機(jī)數(shù)據(jù)庫(kù)到數(shù)據(jù)中臺(tái):四代數(shù)倉(cāng)技術(shù)的變革歷程“顯而易見,企業(yè)數(shù)字化轉(zhuǎn)型中遭遇的一系列痛點(diǎn)在呼喚催生數(shù)據(jù)中臺(tái),但數(shù)據(jù)中臺(tái)的概念產(chǎn)生和實(shí)際落地并非一步到位,而是經(jīng)歷漫長(zhǎng)了的發(fā)展過(guò)程。”閔佳向我們展示了關(guān)于四代數(shù)倉(cāng)發(fā)展的一個(gè)簡(jiǎn)要?dú)v史資料——為了解決數(shù)據(jù)孤島的問(wèn)題,實(shí)現(xiàn)數(shù)據(jù)分析,數(shù)據(jù)支撐業(yè)務(wù)決策,賦能業(yè)務(wù)的需求,二十世紀(jì)九十年代,數(shù)據(jù)倉(cāng)庫(kù)之父Bill Inmon提出數(shù)據(jù)倉(cāng)庫(kù)的概念,在之后的30年時(shí)間里,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)經(jīng)過(guò)了四代的發(fā)展和變革。

第一代:SMP架構(gòu)
share-storage共享存儲(chǔ)架構(gòu),采用EMC/IBM高端存儲(chǔ),優(yōu)點(diǎn)是使用簡(jiǎn)單方便,和OLTP的數(shù)據(jù)庫(kù)技術(shù)棧一致,缺點(diǎn)是存儲(chǔ)昂貴,磁盤數(shù)據(jù)讀寫效率低,并且只能擴(kuò)展到十幾個(gè)節(jié)點(diǎn),比較典型的是Orale、Oracle RAC、DB2等產(chǎn)品。
第二代:MPP架構(gòu)
為了解決節(jié)點(diǎn)擴(kuò)展性問(wèn)題,出現(xiàn)了share-nothing的MPP架構(gòu),內(nèi)存、存儲(chǔ)都是自控制的,不存在共享。每個(gè)節(jié)點(diǎn)都是一個(gè)單獨(dú)的數(shù)據(jù)庫(kù),采用本地計(jì)算的模式,節(jié)點(diǎn)之間的數(shù)據(jù)交互通過(guò)節(jié)點(diǎn)互聯(lián)網(wǎng)絡(luò)實(shí)現(xiàn)。通過(guò)將數(shù)據(jù)分布到多個(gè)節(jié)點(diǎn)上來(lái)實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ),通過(guò)并行查詢處理來(lái)提高查詢性能,這種架構(gòu)以TeraData, HP Vertica,EMC GreenPlum等產(chǎn)品為代表。缺點(diǎn)是,新的節(jié)點(diǎn)加入的時(shí)候,數(shù)據(jù)需要重新分布,每次計(jì)算的時(shí)候,如果數(shù)據(jù)不在本節(jié)點(diǎn),需要通過(guò)網(wǎng)絡(luò)把數(shù)據(jù)移動(dòng)過(guò)來(lái),當(dāng)節(jié)點(diǎn)較多的時(shí)候,移動(dòng)數(shù)據(jù)耗費(fèi)大量的IO和網(wǎng)絡(luò)資源,這樣就導(dǎo)致當(dāng)集群規(guī)模到100個(gè)節(jié)點(diǎn)規(guī)模的時(shí)候,就很難繼續(xù)橫向擴(kuò)展。
第三代:分布式架構(gòu)
隨著數(shù)據(jù)量的增長(zhǎng),為了解決更大規(guī)模的節(jié)點(diǎn)擴(kuò)展性問(wèn)題,Google在2006年發(fā)表了三篇設(shè)計(jì)論文,也就是著名的三駕馬車: GFS、MapReduce、BigTable。依據(jù)此理論,產(chǎn)生了HDFS、MapReduce、 HBase等優(yōu)秀的分布式組件,Hadoop生態(tài)圈開始蓬勃發(fā)展,直至今日,Hadoop在各行各業(yè)廣泛應(yīng)用,為了支持不同的場(chǎng)景,不斷地有新的組件加入到Hadoop體系,例如Kudu 、Presto、Spark、Flink等。同時(shí)為了解決各種大數(shù)據(jù)組件繁瑣的安裝、管理、服務(wù)等問(wèn)題,也產(chǎn)生了一些專門做Hadoop發(fā)行版的商業(yè)化公司,例如Cloudera、MapR、華為等。
第四代:新一代數(shù)倉(cāng)架構(gòu)-數(shù)據(jù)中臺(tái)
Hadoop的橫空出世,雖然解決了海量數(shù)據(jù)量下的節(jié)點(diǎn)擴(kuò)展性,和各種計(jì)算場(chǎng)景的支持問(wèn)題,但Hadoop生態(tài)圈,技術(shù)組件繁多,版本更新頻繁,相當(dāng)于一個(gè)重型武器,因此大數(shù)據(jù)相關(guān)人才需要花費(fèi)大量的時(shí)間才能掌握此技術(shù),并且開發(fā)效率低,管理復(fù)雜,而且后續(xù)組件和任務(wù)運(yùn)維都要投入非常大的資源。為了解決這些問(wèn)題,最近幾年,數(shù)據(jù)中臺(tái)的理念開始在各行各業(yè)普及和落地,數(shù)據(jù)中臺(tái)最核心的價(jià)值是沉淀公共數(shù)據(jù)能力和產(chǎn)品技術(shù)能力,強(qiáng)調(diào)數(shù)據(jù)和技術(shù)能力的復(fù)用性,數(shù)倉(cāng)架構(gòu)也從以前主要解決存儲(chǔ)和計(jì)算問(wèn)題,轉(zhuǎn)到數(shù)據(jù)管理和數(shù)據(jù)應(yīng)用,屏蔽底層技術(shù)的復(fù)雜性、多樣性,形成一站式、智能化的數(shù)倉(cāng)產(chǎn)品,通過(guò)這些產(chǎn)品高效的支持?jǐn)?shù)據(jù)應(yīng)用的快速創(chuàng)新。
“數(shù)據(jù)中臺(tái)不再是一個(gè)產(chǎn)品,更多的是一種強(qiáng)調(diào)資源整合、集中配置、能力沉淀、分步執(zhí)行的運(yùn)作機(jī)制,是一系列數(shù)據(jù)組件或模塊的集合,指向企業(yè)的業(yè)務(wù)場(chǎng)景。”閔佳總結(jié)道。
數(shù)據(jù)中臺(tái)賦能企業(yè)數(shù)字化轉(zhuǎn)型,成為降本增效新引擎第四代數(shù)倉(cāng)架構(gòu),也就是數(shù)據(jù)中臺(tái)的誕生為企業(yè)提供了全新的數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、數(shù)據(jù)管理、數(shù)據(jù)共享,通過(guò)數(shù)據(jù)處理和沉淀形成對(duì)于前臺(tái)業(yè)務(wù)提供復(fù)用價(jià)值的數(shù)據(jù)資產(chǎn),打通數(shù)據(jù)間、業(yè)務(wù)間的隔閡。“實(shí)際上數(shù)據(jù)中臺(tái)早已逐漸脫離純粹的技術(shù)層面概念,而是成為企業(yè)在管理層面的平臺(tái)和工具。”這是閔佳和袋鼠云對(duì)數(shù)據(jù)中臺(tái)的一個(gè)全新理解。
我們了解到,數(shù)據(jù)中臺(tái)的核心在于業(yè)務(wù)及數(shù)據(jù)的一體化,它提供的是一種方法和通路,因此不受限于企業(yè)規(guī)模、業(yè)務(wù)種類、復(fù)雜程度等因素,能夠被廣泛應(yīng)用到各行各業(yè)中,如商業(yè)領(lǐng)域的金融、零售、電商、快消、地產(chǎn)、公共事務(wù)領(lǐng)域的教育、軍工、政務(wù)等一系列場(chǎng)景,實(shí)現(xiàn)多領(lǐng)域及行業(yè)的“中臺(tái)化”。對(duì)此閔佳表示贊同,并且通過(guò)簡(jiǎn)單的舉例,向我們展示了數(shù)據(jù)中臺(tái)對(duì)企業(yè)的具體賦能和作用:“我們認(rèn)為數(shù)據(jù)中臺(tái)幫助企業(yè)降本增效的效果是明顯的,拿外賣店家或品牌門店來(lái)講,在過(guò)去一家多門店,多SKU的企業(yè)希望掌握,應(yīng)用自身在各個(gè)環(huán)節(jié)、端點(diǎn)、業(yè)務(wù)線上產(chǎn)生的數(shù)據(jù),需要巨大的人力、物力和時(shí)間成本,易受數(shù)據(jù)源混亂,數(shù)據(jù)難治理等問(wèn)題的影響,最終會(huì)放大決策結(jié)果的不可控性;但是在引入數(shù)據(jù)中臺(tái)后,數(shù)據(jù)中臺(tái)通過(guò)商家接入的外賣平臺(tái)、小程序、APP客戶端或線下門店等數(shù)據(jù)源采集治理數(shù)據(jù),形成從訂單、物料、會(huì)員到門店的一系列整合數(shù)據(jù),指導(dǎo)商家在渠道整合、物料留存、用戶資產(chǎn)和運(yùn)營(yíng)效益方面的管理,同時(shí)這些數(shù)據(jù)資產(chǎn)能夠?yàn)樯碳疫M(jìn)一步的業(yè)務(wù)優(yōu)化提供決策依據(jù),如新品開發(fā)、供應(yīng)鏈管理、營(yíng)銷手段的調(diào)整等等。”
袋鼠云“數(shù)棧DTinsight”這樣定義數(shù)據(jù)中臺(tái)
“我們也做過(guò)市場(chǎng)調(diào)研,目前市面上的數(shù)據(jù)中臺(tái)服務(wù)商非常多,有從做前臺(tái)、后臺(tái)產(chǎn)品轉(zhuǎn)入做中臺(tái)的,也有云供應(yīng)商拓展業(yè)務(wù)涉足數(shù)據(jù)中臺(tái)領(lǐng)域的。如果作為一個(gè)對(duì)數(shù)據(jù)中臺(tái)沒(méi)有了解的客戶,僅看各家廠商對(duì)自家產(chǎn)品的描述會(huì)很容易產(chǎn)生選擇困難癥,無(wú)所適從,但是在我們實(shí)際與客戶接觸洽談過(guò)后,多數(shù)客戶反饋能夠記住我們的產(chǎn)品特性,這本質(zhì)上是由于我們對(duì)數(shù)據(jù)中臺(tái)有著顯著差異于其他廠商的定義。”閔佳在談及數(shù)棧DTinsight時(shí),向我們?cè)敿?xì)展示了許多來(lái)自客戶或合作伙伴的反饋意見。
從閔佳對(duì)數(shù)棧DTinsight的介紹中,我們主要從兩個(gè)方面進(jìn)行了總結(jié):依據(jù)數(shù)據(jù)中臺(tái)滿足企業(yè)治理、管理、應(yīng)用數(shù)據(jù)需求的賦能標(biāo)準(zhǔn),袋鼠云從產(chǎn)品化方向和技術(shù)架構(gòu)兩個(gè)維度對(duì)數(shù)棧DTinsight進(jìn)行了獨(dú)特的設(shè)計(jì)與定義。

在產(chǎn)品化方向上,袋鼠云在整合企業(yè)業(yè)務(wù)數(shù)據(jù)、運(yùn)維數(shù)據(jù)和設(shè)備數(shù)據(jù)的基礎(chǔ)上,設(shè)計(jì)了企業(yè)數(shù)據(jù)“平臺(tái)化”、“資產(chǎn)化”和“服務(wù)化”的三個(gè)核心步驟:
一.平臺(tái)化:Hadoop相關(guān)技術(shù)組件使用復(fù)雜、技術(shù)門檻高、版本更新迭代快,完成整條數(shù)據(jù)處理鏈路,涉及到數(shù)據(jù)采集、數(shù)據(jù)加工處理、任務(wù)發(fā)布管理、任務(wù)調(diào)度、任務(wù)運(yùn)維等多個(gè)環(huán)節(jié)。從計(jì)算場(chǎng)景上,又分批處理、流式處理、數(shù)據(jù)挖掘等。因此在開發(fā)平臺(tái)層產(chǎn)品上,需要屏蔽存儲(chǔ)和計(jì)算引擎層的技術(shù)復(fù)雜度,支持多種不同的計(jì)算任務(wù)類型,同時(shí)通過(guò)一站式、一體化的平臺(tái),把整個(gè)數(shù)據(jù)鏈路全部集成和打通,從而降低技術(shù)的門檻,提高開發(fā)、運(yùn)維管理的效率。
二.資產(chǎn)化:開發(fā)平臺(tái)經(jīng)過(guò)ETL處理后,產(chǎn)生了大量的可以被業(yè)務(wù)直接使用的有價(jià)值的數(shù)據(jù),但是數(shù)據(jù)質(zhì)量如何保障?數(shù)據(jù)資產(chǎn)如何高效管理起來(lái)?這成為企業(yè)面臨的大問(wèn)題,因此需要建設(shè)資產(chǎn)平臺(tái),校驗(yàn)數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)產(chǎn)出的正確性和有效性,同時(shí)可以在線的、可視化的對(duì)數(shù)據(jù)進(jìn)行管理,完善元數(shù)據(jù)信息,制定數(shù)據(jù)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)進(jìn)行分級(jí)分類,安全性管理,并分析數(shù)據(jù)熱度,數(shù)據(jù)血緣關(guān)系,提供統(tǒng)一的數(shù)據(jù)訪問(wèn)入口。
三.服務(wù)化:沉淀有效的數(shù)據(jù)資產(chǎn),最終需要給業(yè)務(wù)應(yīng)用提供數(shù)據(jù)服務(wù),產(chǎn)生數(shù)據(jù)價(jià)值,因此在數(shù)據(jù)服務(wù)的時(shí)候,需要統(tǒng)一的數(shù)據(jù)服務(wù)的出口,保障數(shù)據(jù)在安全,可控的范圍內(nèi)使用,并進(jìn)行實(shí)時(shí)在線的訪問(wèn)監(jiān)管。
在技術(shù)架構(gòu)維度,數(shù)棧DTinsight主要包含六類設(shè)計(jì):
一.云原生:云原生主要涉及到計(jì)算的彈性伸縮和計(jì)算存儲(chǔ)分離。大數(shù)據(jù)計(jì)算任務(wù)大部分都是在凌晨開始運(yùn)行,傳統(tǒng)的基于Yarn的資源調(diào)度模式,面臨晚上計(jì)算資源不足,白天又浪費(fèi)嚴(yán)重,因此需要基于云原生的架構(gòu),容器化編排,統(tǒng)一計(jì)算調(diào)度,根據(jù)任務(wù)量情況,自動(dòng)彈性伸縮,提高資源的利用率。
大數(shù)據(jù)場(chǎng)景對(duì)計(jì)算資源的要求要高于存儲(chǔ)資源,計(jì)算資源和存儲(chǔ)資源需求不均衡,大部分情況下先碰到計(jì)算資源不足,在計(jì)算和存儲(chǔ)資源耦合的情況下,為了擴(kuò)展計(jì)算能力,存儲(chǔ)資源也一起擴(kuò)展了,帶來(lái)了大量的存儲(chǔ)浪費(fèi),因此計(jì)算和存儲(chǔ)分離后,可以根據(jù)需求,單獨(dú)擴(kuò)充計(jì)算資源,降低成本。
二.信創(chuàng):信息技術(shù)應(yīng)用創(chuàng)新發(fā)展是目前的國(guó)家戰(zhàn)略,也是當(dāng)今形勢(shì)下國(guó)家經(jīng)濟(jì)發(fā)展的新動(dòng)能,我國(guó)明確了“數(shù)字中國(guó)”建設(shè)戰(zhàn)略,搶占數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)鏈制高點(diǎn)的目標(biāo)。在信創(chuàng)數(shù)據(jù)中臺(tái)產(chǎn)品上,主要體現(xiàn)核心技術(shù)自主可控,以及開源開放等兩方面。核心技術(shù)自主可控是大趨勢(shì),因此基于開源框架,具備源碼二次開發(fā)和優(yōu)化能力,并沉淀技術(shù)能力、自主知識(shí)產(chǎn)權(quán),同時(shí)產(chǎn)品也需要擁抱信創(chuàng)生態(tài)體系,包含對(duì)國(guó)產(chǎn)數(shù)據(jù)庫(kù)、操作系統(tǒng)、服務(wù)器等多個(gè)領(lǐng)域全面國(guó)產(chǎn)化適配。
三.湖倉(cāng)一體:數(shù)據(jù)倉(cāng)庫(kù)屬于強(qiáng)schema,事先建模,主要存儲(chǔ)的是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、清洗后,再導(dǎo)入到目標(biāo)表中。優(yōu)勢(shì)在數(shù)據(jù)管理方便,弱點(diǎn)在于靈活性。
數(shù)據(jù)湖屬于弱schema,事后建模,主要存儲(chǔ)任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)成本也更為廉價(jià),讀取的時(shí)候再進(jìn)行schema解析。優(yōu)勢(shì)在于靈活性,快速得到結(jié)果,存儲(chǔ)成本低,弱點(diǎn)在于缺少數(shù)據(jù)管理能力,以及對(duì)數(shù)據(jù)質(zhì)量的保障。而企業(yè)對(duì)數(shù)據(jù)的需求中,這兩種場(chǎng)景都存在,因此為了管理方便,通過(guò)湖倉(cāng)一體的架構(gòu),打通多種不同的數(shù)據(jù)存儲(chǔ),并構(gòu)建統(tǒng)一的元數(shù)據(jù)管理,實(shí)現(xiàn)數(shù)據(jù)湖和數(shù)倉(cāng)的一體化。
四.批流一體:大數(shù)據(jù)處理主要分批處理和流式處理,傳統(tǒng)一般采用Lambda架構(gòu),批處理和流處理分別采用不同的技術(shù)架構(gòu),然后在數(shù)據(jù)服務(wù)層合并成統(tǒng)一的數(shù)據(jù)視圖,此種方式需要維護(hù)兩套分布式系統(tǒng),和兩套不同的ETL代碼,增加了大量的開發(fā)和維護(hù)成本。為了提高開發(fā),運(yùn)維的效率,因此需要統(tǒng)一的技術(shù)框架,通過(guò)一套計(jì)算引擎、一套代碼實(shí)現(xiàn)批處理、流式處理等多種計(jì)算場(chǎng)景,大幅度提高開發(fā)效率。
五.多引擎兼容:在企業(yè)發(fā)展過(guò)程中,隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的演進(jìn),會(huì)存在多種計(jì)算引擎共存的情況,例如有Oracle、GreenPlum、Hadoop等多套大數(shù)據(jù)環(huán)境,每套環(huán)境中都有大量的業(yè)務(wù)數(shù)據(jù),和任務(wù)在運(yùn)行,因此需要一套統(tǒng)一的平臺(tái)來(lái)對(duì)接多套不同的集群,提供統(tǒng)一的開發(fā)體驗(yàn)。
六.跨云能力:隨著這幾年大量企業(yè)開始接受公有云模式,業(yè)務(wù)和數(shù)據(jù)逐步遷移到阿里云,騰訊云,華為云等云平臺(tái)上,甚至部分企業(yè)已經(jīng)購(gòu)買了云廠商的EMR產(chǎn)品服務(wù),因此需要數(shù)據(jù)中臺(tái)平臺(tái)具備跨云部署,以及對(duì)跨云EMR的兼容能力,在復(fù)用云上服務(wù)器,計(jì)算集群的同時(shí),提供統(tǒng)一的數(shù)據(jù)管控的入口。
袋鼠云結(jié)合數(shù)據(jù)中臺(tái)的理論,通過(guò)以上的產(chǎn)品方向和技術(shù)架構(gòu),研發(fā)出的數(shù)棧DTinsight作為新一代的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品,能夠最大程度幫助企業(yè)降低成本,提高大數(shù)據(jù)基礎(chǔ)設(shè)施的投入產(chǎn)出比。
數(shù)據(jù)中臺(tái)發(fā)展走向何方?
“未來(lái),數(shù)據(jù)中臺(tái)將成為企業(yè)核心數(shù)字化戰(zhàn)略之一,它體現(xiàn)了數(shù)據(jù)結(jié)合業(yè)務(wù)、數(shù)據(jù)間打通的新的企業(yè)管理思路,通過(guò)打造具備集企業(yè)研發(fā)、營(yíng)銷、財(cái)務(wù)、技術(shù)、業(yè)務(wù)、算法等賦能于一體的管理平臺(tái)推動(dòng)企業(yè)數(shù)字化的轉(zhuǎn)型。同時(shí),數(shù)據(jù)中臺(tái)產(chǎn)品還在獨(dú)立部署、行業(yè)云和公有云方面存在著較大的規(guī)模商業(yè)化機(jī)會(huì)和發(fā)展空間。”閔佳對(duì)袋鼠云和數(shù)據(jù)中臺(tái)未來(lái)的發(fā)展空間保持著樂(lè)觀的態(tài)度。
同時(shí),閔佳還分別介紹了這幾類場(chǎng)景的服務(wù)核心與價(jià)值:
獨(dú)立部署場(chǎng)景常常被應(yīng)用于涉密行業(yè)、金融、軍工等對(duì)數(shù)據(jù)隱私,數(shù)據(jù)安全性的要求非常高的行業(yè)領(lǐng)域,在相當(dāng)長(zhǎng)的時(shí)間里,這些行業(yè)的核心業(yè)務(wù)還會(huì)是在私有環(huán)境為主,和外部環(huán)境是網(wǎng)絡(luò)隔離狀態(tài),因此對(duì)于這類客戶,產(chǎn)品主要還是以獨(dú)立部署形態(tài)存在,即一套環(huán)境,客戶內(nèi)部獨(dú)享使用的模式,這樣能最大限度保障數(shù)據(jù)安全,和降低數(shù)據(jù)泄露的風(fēng)險(xiǎn)。
行業(yè)云的特點(diǎn)主要體現(xiàn)在專業(yè)性和服務(wù)精細(xì)化方面,在一些大型集團(tuán),以及行業(yè)性非常強(qiáng)的領(lǐng)域,會(huì)統(tǒng)一建設(shè)行業(yè)云平臺(tái),為行業(yè)客戶提供軟硬件基礎(chǔ)服務(wù),例如金融云,移動(dòng)云,各地的政務(wù)云等,在這些行業(yè)云平臺(tái)上,提供數(shù)據(jù)中臺(tái)產(chǎn)品,可以進(jìn)一步的提高已有客戶的粘性,發(fā)揮行業(yè)平臺(tái)的價(jià)值。
公有云的核心屬性是共享資源服務(wù),適用于數(shù)據(jù)在云上的企業(yè),做到開箱即用,使用便捷,彈性伸縮,成本低廉是這些企業(yè)共同的訴求,因此對(duì)于這類客戶,未來(lái)有機(jī)會(huì)產(chǎn)生國(guó)內(nèi)版的Snowflake,通過(guò)技術(shù)手段充分利用幾大云廠商的基礎(chǔ)設(shè)施的優(yōu)勢(shì),實(shí)現(xiàn)彈性伸縮、計(jì)算存儲(chǔ)分離、跨云支持、按量付費(fèi)等,為客戶提供極致的數(shù)據(jù)中臺(tái)SaaS服務(wù)。
在采訪結(jié)束前,閔佳對(duì)數(shù)據(jù)中臺(tái)做出了總結(jié)性敘述并再次強(qiáng)調(diào)了袋鼠云對(duì)數(shù)據(jù)中臺(tái)的理解與定義:“數(shù)據(jù)中臺(tái)作為銜接“前臺(tái)”與“后臺(tái)”的技術(shù)架構(gòu),強(qiáng)調(diào)的是數(shù)據(jù)及技術(shù)對(duì)前臺(tái)業(yè)務(wù)的復(fù)用價(jià)值,通過(guò)數(shù)據(jù)治理方式,形成有價(jià)值的數(shù)據(jù)資產(chǎn),并充分利用數(shù)據(jù)資產(chǎn)形成服務(wù)。同時(shí)“袋鼠云正是通過(guò)自身獨(dú)有的“平臺(tái)化”、“資產(chǎn)化”和“服務(wù)化”的核心步驟和更為綜合豐富的技術(shù)架構(gòu),重新設(shè)計(jì)定義了這個(gè)推進(jìn)業(yè)務(wù)數(shù)據(jù)化、數(shù)據(jù)業(yè)務(wù)化,構(gòu)建數(shù)據(jù)廣泛采集、合理共享、高效利用機(jī)制的閉環(huán),滿足企業(yè)客戶以數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù),以數(shù)據(jù)創(chuàng)業(yè)業(yè)務(wù),以數(shù)據(jù)管理業(yè)務(wù)的需求,助力企業(yè)的數(shù)字化轉(zhuǎn)型,并起到降本提效的作用。”
免責(zé)聲明:市場(chǎng)有風(fēng)險(xiǎn),選擇需謹(jǐn)慎!此文僅供參考,不作買賣依據(jù)。