揭開神秘面紗 大數據的四個V
(圖/取自網路)
「Big Data」這個詞最早由 IBM 提出,2010 年才真正開始受到注目,並成為專業用語登上維基百科1,算是「大數據」的正式問世。而在 2012 年時,《紐約時報》的專欄文章「The Age of Big Data2」更是宣告了「大數據時代」的來臨。值得一提的是,大數據並不是什麼新興的概念,事實上,歐洲粒子物理研究中心 (CERN)的科學家已經面對巨量資料的問題好幾十年了,處理著每秒上看 PB (Peta Bytes,註:PB = 1,024 TB)的資料量3。
而你可能有注意到,「大數據(Big Data)」在我們的生活裡已經掀起滔天巨浪,繼雲端運算(Cloud Computing)之後,儼然成為學術界跟科技業中最熱門的潮字(Buzz Word),似乎每家公司都在進行有關的研究,三句不離大數據。究竟大數據是怎麼出現,又代表著什麼意思呢?
大數據(Big Data),巨量資料爆炸的時代
大數據,或稱巨量資料,顧名思義,是指大量的資訊,當資料量龐大到資料庫系統無法在合理時間內進行儲存、運算、處理,分析成能解讀的資訊時,就稱為大數據。
這些巨量資料中有著珍貴的訊息,像是關聯性、未顯露的模式、市場趨勢,可能埋藏著前所未有的知識跟應用等著被我們挖掘發現;但由於資料量太龐大,流動速度太快,現今科技無法處理分析,促使我們不斷研發出新一代的資料儲存設備及科技,希望從大數據中萃取出那些有價值的資訊。
一般來說,大數據涵蓋的範圍很廣,定義也各家歧異,2012 年 Gartner 公司的分析師 Douglas Laney 給予大數據一個全新定義4:「大數據是大量、高速、及/或類型多變的資訊資產,它需要全新的處理方式,去促成更強的決策能力、洞察力與最佳化處理。」
於是大部份機構跟公司都將大數據的特性歸類為「3Vs」或「4Vs」–資料量 Volume、資料傳輸速度 Velocity、資料類型(Variety),以及後來提出的第四個V—真實性 Veracity。以下整理了 4Vs 簡單的定義跟解釋,可以從這四點切入認識大數據。
Volume 資料量
以前人們「手動」在表格中記錄、累積出數據;現在數據是由機器、網路、人與人之間的社群互動來生成。你現在正在點擊的滑鼠、來電、簡訊、網路搜尋、線上交易... 都正在生成累積成龐大的數據,因此資料量很容易就能達到數 TB(Tera Bytes,兆位元組),甚至上看 PB(Peta Bytes,千兆位元組)或 EB(Exabytes,百萬兆位元組)的等級。
Velocity 資料輸入輸出速度
資料的傳輸流動是連續且快速的,隨著越來越多的機器、網路使用者,社群網站、搜尋結果每秒都在成長,每天都在輸出更多的內容。公司跟機構要處理龐大的資訊大潮向他們襲來,而回應、反應這些資料的速度也成為他們最大的挑戰,許多資料要能即時得到結果才能發揮最大的價值,因此也有人會將 Velocity 認為是「時效性」。
Variety 資料類型
大數據的來源種類包羅萬象,十分多樣化,如果一定要把資料分類的話,最簡單的方法是分兩類,結構化與非結構化。早期的非結構化資料主要是文字,隨著網路的發展,又擴展到電子郵件、網頁、社交媒體、視訊,音樂、圖片等等,這些非結構化的資料造成儲存(storage)、探勘(mining)、分析(analyzing)上的困難。
Veracity 真實性
這個詞由在 Express Scripts 擔任首席數據官(Chief Data Officer, CDO)的 Inderpal Bhandar 在波士頓大數據創新高峰會(Big Data Innovation Summit)的演講中提出,認為大數據分析中應該加入這點做考慮,分析並過濾資料有偏差、偽造、異常的部分,防止這些「dirty data」損害到資料系統的完整跟正確性,進而影響決策。
【101創業大小事/整理報導】
免責聲明:
部分圖片、觀點,來源於網際網路及其他網路平台,主要目的在於分享訊息,讓更多人獲得需要的資訊,其版權歸原作者所有。如涉及侵權請告知,我們會在24小時內刪除相關內容。
- 最大連鎖品牌星巴克能否獲得義大利espresso文化呢2017-03-02
- 無良老闆!打工族時薪80起跳 學校帶頭未給加班費2016-12-19
- 打造僑生就業環境 教育部訪視各校留住人才2016-12-19
- 有溫度的服務產業 周永暉3T指標哲學整合觀光產業鏈2016-12-13
- 前行政院長操刀 張善政領軍搭兩岸生技產業橋梁2016-12-15
- 科技發展=人類失業? 華爾街日報:只是工作型態的轉變2016-12-12
- 北歐社會福利好 台灣退休靠自己 退休三招教給你2016-12-09