1人贊同了該回答
? 記得大學畢業(yè)的第一份工作,我們公司的業(yè)務(wù)就是做BI產(chǎn)品研發(fā)。哪時候互聯(lián)網(wǎng)沒有今天這樣火熱,也沒有大數(shù)據(jù)、移動互聯(lián)網(wǎng)的概念。記得有一次和同事去華師后門買書,同事買了一本javascript,我買了一個ajax。那時候,我們產(chǎn)品的客戶端是用Delphi開發(fā)的,其實買書就是為了補充一點新知識,工作中基本用不到。在公司的第三年,公司要轉(zhuǎn)做web的BI展示界面,我?guī)凸居胹vg做了兩個展示組件,心里還是美滋滋的。
隨著時間的推移、電商的發(fā)展,大數(shù)據(jù)、云計算似乎成了每個互聯(lián)網(wǎng)公司對外宣傳的標準說法。如果不講點這些概念,似乎給人感覺缺少些逼格。記得10年在公司的一次培訓上,有個同事問,云計算是不是你搞出來的,就因為我姓云。聽到這個問題,我哭笑皆非。
大數(shù)據(jù)這個概念喊了這么多年了,很多人還是不清楚大數(shù)據(jù)指的是什么?為了回答好這個問題,我還去專門搜索了大數(shù)據(jù)的概念。老實說百科的解釋,連我從事了這么多年互聯(lián)網(wǎng)的人,也沒看懂。
“大數(shù)據(jù)(big data),IT行業(yè)術(shù)語,是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)?!?
什么是大數(shù)據(jù)?
大數(shù)據(jù)說的直白點,就是運用一套技術(shù)手段,把數(shù)據(jù)變成信息和知識的過程。數(shù)據(jù)對我們來說是沒有價值的東西,我們要把數(shù)據(jù)加工成信息或者知識,才能被人類理解。舉個例子:公司一天的考勤數(shù)據(jù)是意義不大的東西,但是我們通過一月考勤數(shù)據(jù)的分析和比較,我們發(fā)現(xiàn)張三這個員工老是遲到。那么,張三老是遲到這個信息就對公司的管理有幫助了,領(lǐng)導需要去了解下,是不是張三家有什么事?或者張三最近出現(xiàn)別的狀況?
大數(shù)據(jù)的“大”又如何理解呢?所謂“大”,一層含義指數(shù)據(jù)的體量大,在數(shù)據(jù)庫時代數(shù)據(jù)以GB為單位,但在互聯(lián)網(wǎng)時代以TB為單位,數(shù)據(jù)的體量升了一個數(shù)量級。另一層含義指數(shù)據(jù)形式的多樣化。在傳統(tǒng)BI應(yīng)用中,數(shù)據(jù)大多是存儲在關(guān)系型數(shù)據(jù)庫中,但在互聯(lián)網(wǎng)時代,數(shù)據(jù)的形式變得多樣化了,例如:文本、視頻及數(shù)據(jù)庫。明白了大數(shù)據(jù)的概念,我們下來看,大數(shù)據(jù)包含哪些內(nèi)容。
大數(shù)據(jù)的內(nèi)涵
大數(shù)據(jù)從技術(shù)的角度去看,包含兩大分支:數(shù)據(jù)分析和數(shù)據(jù)挖掘。數(shù)據(jù)分析是對歷史數(shù)據(jù)的分析,為管理提供輔助決策信息。數(shù)據(jù)挖掘是研究趨勢和未來的問題,主要應(yīng)用在預測方面。從業(yè)務(wù)的時效性要求去看,分為:實時在線分析系統(tǒng)和離線分析系統(tǒng)。例如:網(wǎng)站的實時用戶區(qū)域分佈狀況就是實時分析應(yīng)用;2019年全國各省GDP排名分析就是離綫分析應(yīng)用。
從大數(shù)據(jù)項目的過程看,大數(shù)據(jù)包含:數(shù)據(jù)采集、數(shù)據(jù)收集、數(shù)據(jù)轉(zhuǎn)化與存儲、數(shù)據(jù)建模分析、上層應(yīng)用展示等。大數(shù)據(jù)的難點,在于海量數(shù)據(jù)的分析,這又涉及到海量數(shù)據(jù)存儲及分析架構(gòu)等問題。
按照Hadoop的技術(shù)體系來講,flume用來收集和轉(zhuǎn)化存儲在服務(wù)器各處的日志及數(shù)據(jù),存儲在以hdfs文件系統(tǒng)或者hive或者hbase等數(shù)據(jù)倉庫中,再利用hadoop架構(gòu)的規(guī)范,編寫mapreduce作業(yè),再把分析結(jié)果展示給用戶。當然,這里面設(shè)計到數(shù)據(jù)分析的各種算法。
大數(shù)據(jù)相關(guān)的工作崗位
下面介紹下,大數(shù)據(jù)相關(guān)的核心崗位:
業(yè)務(wù)專家或者顧問:為大數(shù)據(jù)提供研發(fā)方向和確定研究主題,并為技術(shù)人員提供業(yè)務(wù)支持。
數(shù)據(jù)分析師:從事數(shù)據(jù)收集、整理、分析并依據(jù)數(shù)據(jù)做出評估和預測的專業(yè)人員。
數(shù)據(jù)挖掘工程師:從海量數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,需要較好的算法和數(shù)學基礎(chǔ)。
可視化工程師:提供美觀、便于人們理解的分析的結(jié)果展示界面。
維護工程師:負責服務(wù)器環(huán)境的配置、搭建和運維。
每個公司采用的大數(shù)據(jù)技術(shù)線路不同,工作崗位會有所差距。感興趣的朋友,可以自己去了解下,現(xiàn)有的幾種大數(shù)據(jù)方案。
隨著5G網(wǎng)絡(luò)的建設(shè),接入網(wǎng)絡(luò)的iot設(shè)備會越來越多,互聯(lián)網(wǎng)所積累的數(shù)據(jù),還會成級數(shù)增加。在未來幾年,大數(shù)據(jù)行業(yè)依然是朝陽行業(yè),需要的大數(shù)據(jù)人才會越來越多,希望本文對有意愿加入大數(shù)據(jù)行業(yè)的朋友,有所啟發(fā)和幫助,也希望大家能對大數(shù)據(jù)的概念,有更清晰的認識。謝謝!
發(fā)布于2023-04-27