歷史資料分析的資料庫系統 名詞定義
能重新萃取、呈現企業交易資料面貌的資料倉儲系統
資料倉儲一詞,於1990年由資料倉儲之父Bill Inmon提出,他認為DW的目的在於整合及運用資料。這種系統存在的目的,就是將所有資料儲存在同一個地方,管理這些資料的進出,並且透過各種分析方法。如線上分析處理(OLAP)、資料採礦(Data Mining)對這些資料進行分析,再應用在決策輔助系統(Decision Support System,DSS)、主管資訊系統(Executive Information System,EIS),幫助決策者能從大量的資料中,分析出有價值的資訊,以利擬定策略與快速回應,建構出商業智慧(Business Intelligence,BI)。
Fact Table ( 事實表格 )
資料倉儲系統中儲存歷史資料的資料表格,這些都是資料倉儲的核心資料。
如果以一個商用資料倉儲來看,事實表格的資料是以交易為中心的資料,它們可以是物品的銷售,信用卡交易和利息與利潤等資料。
資料倉儲中的事實表格是資料庫中處理得最頻繁的資料表格,也是操作最為頻繁的,所以事實資料表有時可以龐大到占據超過1TB的空間。
資料倉儲系統中儲存歷史資料的資料表格,這些都是資料倉儲的核心資料。
如果以一個商用資料倉儲來看,事實表格的資料是以交易為中心的資料,它們可以是物品的銷售,信用卡交易和利息與利潤等資料。
資料倉儲中的事實表格是資料庫中處理得最頻繁的資料表格,也是操作最為頻繁的,所以事實資料表有時可以龐大到占據超過1TB的空間。
Dimension Table (維度表格 )
用來定義事實表格中的欄位,例如員工姓名、性別或其他項目等。
使用上和正規化的過程相似,同樣都是擷取有用的資料以加快處理速度。維度表格所包含的資訊,一般可以指出如何從事實表格中取得有用的材料。
因此簡單來說,維度表格是用來記載事實表格中所包含資料的意義。
維度表格通常很小,且只含有幾個資料列。所以資料倉儲一般只會有少數幾個事實表格,卻會有很多個維度表格。
用來定義事實表格中的欄位,例如員工姓名、性別或其他項目等。
使用上和正規化的過程相似,同樣都是擷取有用的資料以加快處理速度。維度表格所包含的資訊,一般可以指出如何從事實表格中取得有用的材料。
因此簡單來說,維度表格是用來記載事實表格中所包含資料的意義。
維度表格通常很小,且只含有幾個資料列。所以資料倉儲一般只會有少數幾個事實表格,卻會有很多個維度表格。
Multi-Dimension(多維度)
多維度是人們分析資料的特定角度,可以用來表示特定地區、時間、產品、銷售量下的資訊。多維分析是指可以對多維形式所組織起來的資料,透過各種分析方法剖析,方便使用者可以從多個角度去觀察資料庫裡頭的資料。資料庫結構中,位於中心的稱為事實表格,外圍的稱之為維度表格,而一般資料倉儲只會有少數幾個事實表格與多個維度表格,呈現星狀結構,所以多維度資料庫結構又稱為星狀資料庫結構。
ETL,Extraction、Transformation and Loading ( 資料提取、轉換及匯入 )
這是資料整合的3個步驟,由資料來源讀取出資料,將它們轉換成適合分析的型態,
並且將它們匯入資料倉儲系統。這個過程在建立資料倉儲架構中是不可互缺的一環,
通常還要搭配著資料清潔(Data Cleaning)將系統源頭許多未經整合的、不允許的、遺失的或者錯誤的資料,
在匯入資料倉儲之前重新整頓,因為源頭是錯誤的資料,之後發布的也是錯誤的資訊。
所以,完成ETL以後,資料的分析處理作業才可以繼續進行。
這是資料整合的3個步驟,由資料來源讀取出資料,將它們轉換成適合分析的型態,
並且將它們匯入資料倉儲系統。這個過程在建立資料倉儲架構中是不可互缺的一環,
通常還要搭配著資料清潔(Data Cleaning)將系統源頭許多未經整合的、不允許的、遺失的或者錯誤的資料,
在匯入資料倉儲之前重新整頓,因為源頭是錯誤的資料,之後發布的也是錯誤的資訊。
所以,完成ETL以後,資料的分析處理作業才可以繼續進行。
資料超市是資料倉儲的一種特殊形式,同樣包含對作業資料的快照,方便使用者能基於經驗與歷史資料進行決策。和資料倉儲最主要的差別,在於資料超市是預先定義好的,而且是具體的,同時資料也是分組並配置好的。
在單一企業中可以有多個資料超市,每個資料超市會與一個或多個商業單元相關聯。如果某些資料超市的設計上,是使用相同的資料和規模,這些資料超市就會是相關聯的。
Operational Data Store,ODS(操作性資料商店)
一個經過整合的分析系統,以支援前端操作為目的。如同資料倉儲,操作性資料商店中的資料是主題導向、經過整合的,由於操作性資料商店是用來支援前端的操作系統,所以上面的資料必須是即時的,也就是需要經常被更新、補充的。
此外,由於前端操作系統經常需要較為詳細的資料,因此操作性資料商店的資料必須包含所有詳細資料,才能達到它的目的,這一點和資料倉儲不同。
Waterfall Methodology(瀑布式)
系統建置的方法之一,在每個階段都需要進行到結束的程序,下一個階段才能開始。這種做法呈階梯狀,由分析、設計、建置、測試到系統完成,很自然地銜接到下一個階段,如瀑布的水流經好幾個落差一般。早期資料倉儲都採用此法,開發團隊會花很多時間以符合所有提出的要求。且累積的資料量非常龐大,建置的時間較長,等系統上線時,企業的運作時常已經改變,先前的工作可能已經毫無意義了。
Spiral Methodology(旋轉式)
與瀑布式皆為系統建置的方法,但是完全不一樣。旋轉式中每個階段所花的時間較少,且整個系統的建置是不斷在進行的。每一個循環(分析->設計->建置->測試)結束,使用者即評估目前系統的狀況,進而確認下一步的方向。
和瀑布式相比,旋轉式系統上線的速度更快、一次的花費不會太高,而且使用者的需求可以迅速反應在系統上,不會因建置時間過長而產生需求不符合現實的狀況。
Metadata(中繼資料)
中繼資料是描述資料本身特性的資料,如果有完整的中繼資料,將使管理資料倉儲系統更加容易。
中繼資料橫跨整個資料倉儲系統架構,無論是資料來源、資料提取、臨時資料儲存區,都需要有中繼資料。
中繼資料的儲存與管理是倉儲系統最重要的一環,卻也是最容易被忽略的,主要原因是使用者不常直接使用到中繼資料,且大部分的資料倉儲專案計畫中,並沒有提到中繼資料。
留言
張貼留言