財(cái)經(jīng)統(tǒng)計(jì)湖;中南財(cái)經(jīng)統(tǒng)計(jì)學(xué)

財(cái)經(jīng)統(tǒng)計(jì)湖;中南財(cái)經(jīng)統(tǒng)計(jì)學(xué)

數(shù)據(jù)湖是現(xiàn)在的一個(gè)熱點(diǎn),在大廠迅速普及,可在傳統(tǒng)企業(yè)卻不溫不火,有點(diǎn)冰火兩重天的意思,為什么?

為了更好的理解這篇文章,建議大家可以先讀讀我這篇普及數(shù)據(jù)湖的文章《到底什么是數(shù)據(jù)湖?全面解讀數(shù)據(jù)湖的緣起、特征、技術(shù)、案例和趨勢(shì)》。

1、數(shù)據(jù)湖容易望文生義,導(dǎo)致雷聲大雨點(diǎn)小

在我第一次接觸數(shù)據(jù)湖的時(shí)候,就望文生義:“什么?把所有東西亂七八糟都扔到一個(gè)地方,這也叫一種技術(shù)?應(yīng)該叫數(shù)據(jù)沼澤吧”,相信很多做數(shù)據(jù)倉(cāng)庫(kù)的朋友第一次聽(tīng)到這個(gè)名詞,會(huì)跟我有同樣的反應(yīng)。

有一次參加合作伙伴大會(huì),正好有展示數(shù)據(jù)湖的,然后我就問(wèn)講解員:“這個(gè)數(shù)據(jù)湖有什么特點(diǎn)?” 然后講解員跟我說(shuō)了一堆數(shù)據(jù)倉(cāng)庫(kù)的東西,核心意思就是匯聚數(shù)據(jù)。然后我問(wèn):“這個(gè)跟數(shù)據(jù)倉(cāng)庫(kù)又有什么區(qū)別?” 講解員又扒拉了老半天,我就知道其實(shí)他也不知道。

數(shù)據(jù)湖這個(gè)概念在大廠的節(jié)奏下莫名其妙的飛起來(lái)了,有一天公司同事給我發(fā)了一段老大要講的話,里面提到了數(shù)據(jù)湖,問(wèn)我們是否已經(jīng)有數(shù)據(jù)湖了,老大的報(bào)告里提數(shù)據(jù)湖是不是合適?

我趕緊到網(wǎng)上查了數(shù)據(jù)湖的來(lái)龍去脈,發(fā)現(xiàn)hadoop算是一種數(shù)據(jù)湖的形式,但當(dāng)初建hadoop的時(shí)候,可沒(méi)人說(shuō)這是數(shù)據(jù)湖啊。數(shù)據(jù)湖顯然不是簡(jiǎn)單的數(shù)據(jù)收容箱,技術(shù)內(nèi)涵遠(yuǎn)不是hadoop所能囊括的,心里就慌得一比,不知道它到底能給企業(yè)帶來(lái)什么增值價(jià)值。

由于數(shù)據(jù)湖的概念大家混淆不清,很容易眉毛胡子一把抓的說(shuō)成就是將所有數(shù)據(jù)匯聚在一個(gè)地方的簡(jiǎn)單技術(shù),大多數(shù)老板會(huì)認(rèn)為自己建設(shè)的大數(shù)據(jù)平臺(tái)就是數(shù)據(jù)湖,如果都是這種認(rèn)知,那的確沒(méi)有再建設(shè)的必要了。

大廠想普及數(shù)據(jù)湖,傳統(tǒng)企業(yè)巋然不動(dòng),顯然跟概念沒(méi)講清楚有一定關(guān)系,同樣是數(shù)據(jù)歸集和整合,數(shù)據(jù)湖相較于數(shù)據(jù)倉(cāng)庫(kù),境界顯然要高很多,但到底高在哪里?想想我這個(gè)搞數(shù)據(jù)技術(shù)10多年的人都對(duì)其一臉懵逼,更何況一般的人?

2、數(shù)據(jù)湖技術(shù)門檻較高,標(biāo)準(zhǔn)化水平卻不高

數(shù)據(jù)湖有六個(gè)特點(diǎn):保真性、靈活性、可管理、可分析、可追溯、可存儲(chǔ),特點(diǎn)多了,一方面可以說(shuō)是功能強(qiáng)大,另一方面也說(shuō)明了技術(shù)復(fù)雜性,讓我們很難清晰判定什么樣的平臺(tái)才有資格叫作數(shù)據(jù)湖。

就拿保真性來(lái)說(shuō),其是這么描述的:“數(shù)據(jù)湖中對(duì)于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會(huì)存儲(chǔ)一份“一模一樣”的完整拷貝。與數(shù)據(jù)倉(cāng)庫(kù)不同的地方在于,數(shù)據(jù)湖中必須要保存一份原始數(shù)據(jù),無(wú)論是數(shù)據(jù)格式、數(shù)據(jù)模式、數(shù)據(jù)內(nèi)容都不應(yīng)該被修改。在這方面,數(shù)據(jù)湖強(qiáng)調(diào)的是對(duì)于業(yè)務(wù)數(shù)據(jù)“原汁原味”的保存。同時(shí),數(shù)據(jù)湖應(yīng)該能夠存儲(chǔ)任意類型/格式的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。”

那么,原系統(tǒng)的實(shí)時(shí)數(shù)據(jù)如何保真到數(shù)據(jù)湖呢?

這個(gè)技術(shù)就復(fù)雜了,比如數(shù)據(jù)寫入數(shù)據(jù)湖的時(shí)候要保證ACID,要高效支持upsert /delete歷史數(shù)據(jù),要能容忍數(shù)據(jù)頻繁導(dǎo)入文件系統(tǒng)上產(chǎn)生的大量的小文件(顯然HDFS就不行了)。

Delta、iceberg和hudi等開(kāi)源數(shù)據(jù)湖就是一些特定技術(shù)解決方案,但傳統(tǒng)企業(yè)連hadoop生態(tài)還沒(méi)搞通搞透呢,又搞出這么多技術(shù),而且還沒(méi)有統(tǒng)一標(biāo)準(zhǔn),的確令人頭大。

然后國(guó)內(nèi)的大廠又基于開(kāi)源的數(shù)據(jù)湖技術(shù)搞出了自己的數(shù)據(jù)湖,無(wú)論是騰訊的基于iceberg的Flink+Iceberg 企業(yè)級(jí)實(shí)時(shí)數(shù)據(jù)湖,還是阿里的基于hudi的湖倉(cāng)一體,真是亂花漸欲迷人眼啊,但這個(gè)時(shí)候大多企業(yè)估計(jì)連數(shù)據(jù)湖還沒(méi)整明白吧。

3、數(shù)據(jù)湖理念比較超前,大規(guī)模普及尚需時(shí)日

10多年前自助BI就已經(jīng)提出來(lái)了,包括自助取數(shù),自助報(bào)表等等,其核心理念是業(yè)務(wù)人員能基于自助BI的產(chǎn)品自己操控?cái)?shù)據(jù),從而提升業(yè)務(wù)響應(yīng)速度。但10多年過(guò)去了,現(xiàn)在的傳統(tǒng)企業(yè)有多少比例的業(yè)務(wù)人員能夠自己取數(shù)分析?

客觀來(lái)講,比10多年前有進(jìn)步,但自助BI對(duì)于大多數(shù)企業(yè)的業(yè)務(wù)人員仍然是奢侈品一樣的存在,一方面受限于企業(yè)的數(shù)字化水平,另一方面也受限于企業(yè)的數(shù)據(jù)文化,也許,只有等這一代的業(yè)務(wù)人員退休了,自助BI才能占據(jù)主流。

自助BI的數(shù)據(jù)模型好歹還是數(shù)據(jù)倉(cāng)庫(kù)預(yù)先生成的,但數(shù)據(jù)湖就更加激進(jìn)了,從數(shù)據(jù)采集、建模、挖掘到分析,所有工作都需要業(yè)務(wù)人員基于數(shù)據(jù)湖提供的工具來(lái)完成,因?yàn)閿?shù)據(jù)湖倡導(dǎo)者認(rèn)為只有這樣才能更快捷的響應(yīng)市場(chǎng)需求。

如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)分層建模是計(jì)劃經(jīng)濟(jì)的話,那數(shù)據(jù)湖就是一種市場(chǎng)經(jīng)濟(jì)了,如果說(shuō)自助BI是產(chǎn)品層面的創(chuàng)新,那數(shù)據(jù)湖就是全新升級(jí)版了,是對(duì)傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)服務(wù)模式的一種顛覆。

數(shù)據(jù)湖的始作俑者是亞馬遜,我不知道這個(gè)企業(yè)自己有多少人在用,但人家企業(yè)的數(shù)字化水平高是肯定的,國(guó)內(nèi)的大廠也差不多吧,但對(duì)于大多數(shù)企業(yè)來(lái)講,數(shù)據(jù)湖倡導(dǎo)的理念實(shí)在是有點(diǎn)超前。

20多年前,數(shù)據(jù)倉(cāng)庫(kù)是很多巨無(wú)霸企業(yè)的技術(shù)狂歡,但當(dāng)時(shí)的業(yè)務(wù)人員根本不知道建這個(gè)玩意有什么價(jià)值,也許我們還要再等10-20年,才能真正領(lǐng)悟數(shù)據(jù)湖的真諦,歷史,總是在不停的重復(fù)吧。

4、數(shù)據(jù)湖是數(shù)庫(kù)技術(shù)的升級(jí),但不具備不可替代性

老板問(wèn)我:“我們到底要不要數(shù)據(jù)湖?” 我說(shuō):“場(chǎng)景太少,即使需要,也有替代方案,雖然不是很完滿!”

數(shù)據(jù)湖有一種典型的應(yīng)用場(chǎng)景,就是需要實(shí)時(shí)寫海量數(shù)據(jù)進(jìn)數(shù)據(jù)庫(kù)然后能實(shí)時(shí)分析統(tǒng)計(jì),很多大屏都需要用到這個(gè)技術(shù),我想諸如Flink+Iceberg 等數(shù)據(jù)湖技術(shù)引擎肯定是比較完美的解決方案。

但我安排幾個(gè)技術(shù)人員一周也搞定了,采用的是Flink+HTAP,雖然加載速度、查詢速度并不是毫秒級(jí),但對(duì)于大多數(shù)場(chǎng)景夠用。

數(shù)據(jù)湖專業(yè)人士會(huì)跳出來(lái)說(shuō)這個(gè)方案有很多問(wèn)題,比如HTAP無(wú)法支持多種存儲(chǔ)引擎和計(jì)算引擎等等,但在這個(gè)場(chǎng)景下,不會(huì)追求通用的技術(shù)方案,而是盡量選擇符合企業(yè)技術(shù)現(xiàn)狀、性價(jià)比更高的方式。

數(shù)據(jù)湖總結(jié)下來(lái)有六大技術(shù)特點(diǎn),包括(1)同時(shí)支持流批處理(2)支持?jǐn)?shù)據(jù)更新(3)支持事務(wù)(ACID)(4)可擴(kuò)展的元數(shù)據(jù)(5)支持多種存儲(chǔ)引擎(6)支持多種計(jì)算引擎等等。

對(duì)于大多數(shù)企業(yè),如果要為這些技術(shù)去找特定應(yīng)用場(chǎng)景,并不是很好找,不信你找找看,即使找到了,估計(jì)用到其中的1-2個(gè)技術(shù)能力就可以了,而滿足1-2個(gè)條件的肯定有其他的替代品。

5、數(shù)據(jù)湖替換成本較大,無(wú)法保護(hù)原有的投資

從保護(hù)企業(yè)的固有資產(chǎn)投資的角度來(lái)講,如果你已經(jīng)建設(shè)了大數(shù)據(jù)平臺(tái),現(xiàn)在選擇數(shù)據(jù)湖并不是明智之舉,當(dāng)然新建另當(dāng)別說(shuō)。

在我們剛建設(shè)完成hadoop大數(shù)據(jù)平臺(tái)后,面臨的質(zhì)疑聲是很多的,因?yàn)闃I(yè)務(wù)人員并沒(méi)有看到什么顯性的價(jià)值,因此花了巨大的代價(jià)去建設(shè)基于Hadoop的數(shù)據(jù)管理體系,包括端到端的一體化工具鏈等等。

對(duì)于大多數(shù)企業(yè)來(lái)講,要用好Hadoop,Hadoop周邊生態(tài)體系的建設(shè)比hadoop建設(shè)本身更為重要,大家都聚焦到了如何讓大數(shù)據(jù)平臺(tái)發(fā)揮出應(yīng)有的價(jià)值上來(lái),這是好事情,而且完成hadoop大數(shù)據(jù)平臺(tái)建設(shè)也不過(guò)4-5年,從保護(hù)投資的角度講,這是理性的,不能這山望著那山高。

況且,Hadoop某種程度算是剛需,因?yàn)椴徊捎盟A繑?shù)據(jù)根本處理不了,當(dāng)然這種剛需也僅是針對(duì)擁有PB級(jí)別數(shù)據(jù)的企業(yè)來(lái)講的,而數(shù)據(jù)湖顯然還不是,它的技術(shù)緣起于解決某些特定場(chǎng)景,反正我想好了老半天,都沒(méi)找到必需使用它的理由。

最后,即使要采用數(shù)據(jù)湖,實(shí)施的難度不小,因?yàn)閿?shù)據(jù)湖為了達(dá)成那六種技術(shù)能力,需要用到一種存儲(chǔ)中間件,對(duì)下統(tǒng)一對(duì)接各種存儲(chǔ),對(duì)上統(tǒng)一對(duì)接各種技術(shù)引擎,這實(shí)在是太折騰了。

當(dāng)然也許我說(shuō)得都是錯(cuò)的,那5年后再回過(guò)頭來(lái)看吧。

轉(zhuǎn)載自公眾號(hào) 大魚的數(shù)據(jù)人生

熱點(diǎn)圖片

備案號(hào):贛ICP備2022005379號(hào)
華網(wǎng)(http://www.668528.com) 版權(quán)所有未經(jīng)同意不得復(fù)制或鏡像

QQ:51985809郵箱:51985809@qq.com

主站蜘蛛池模板: 亚洲精品第一国产综合精品| 国产日本一区二区三区| 中文字幕日韩精品一区二区三区| 欧美亚洲国产成人不卡| 伊人久久无码中文字幕| 老师在办公室被躁在线观看| 国产成人精品免费久久久久| 69国产成人精品午夜福中文 | 午夜dj在线观看免费视频| 高清在线精品一区二区| 国产精品国产三级国产普通话a| 99精品视频免费在线观看| 岛国大片免费观看| 久久99精品久久久久久水蜜桃| 最新中文字幕电影免费观看| 亚洲成人在线免费观看| 激情偷乱人伦小说视频在线| 又粗又紧又湿又爽a视频| 被按摩的人妻中文字幕| 国产成人精品综合久久久久| 手机看片一区二区| 国产视频一区在线| 99精品国产一区二区三区2021| 婷婷伊人五月天| 中文字幕avdvd| 无翼乌全彩绅士知可子无遮挡 | 久久精品午夜一区二区福利| 欧美亚洲综合另类在线观看| 亚洲欧美精品一中文字幕| 电车痴汉在线观看| 免费黄色网址在线观看| 美女视频黄a视频全免费网站色 | 五月婷婷六月天| 欧美巨大另类极品videosbest| 亚洲美女视频免费| 男人的j插入女人的p| 再深点灬舒服灬太大了添动视频| 美女裸免费观看网站| 国产一区二区久久精品| 青青在线国产视频| 国产卡一卡二贰佰|