發表文章

目前顯示的是 8月, 2021的文章

Fact Table & Dimension Table & ETL

1. Fact Table ( 事實表格 ) 資料倉儲系統中儲存歷史資料的資料表格,這些都是資料倉儲的核心資料。 如果以一個商用資料倉儲來看,事實表格的資料是以交易為中心的資料,它們可以是物品的銷售,信用卡交易和利息與利潤等資料。 資料倉儲中的事實表格是資料庫中處理得最頻繁的資料      表格,也是操作最為頻繁的,所以事實資料表有時可以龐大到占據超過1TB的空間。 2. Dimension Table (維度表格 ) 用來定義事實表格中的欄位,例如員工姓名、性別或其他項目等。 使用上和正規化的過程相似,同樣都是擷取有用的資料以加快處理速度。維度表格所包含的資訊,一般可以指出如何從事實表格中取得有用的材料。 因此簡單來說,維度表格是用來記載事實表格中所包含資料的意義。 維度表格通常很小,且只含有幾個資料列。所以資料倉儲一般只會有少數幾個事實表格,卻會有很多個維度表格。 3. ETL,Extraction、Transformation and Loading ( 資料提取、轉換及匯入 ) 這是資料整合的3個步驟,由資料來源讀取出資料,將它們轉換成適合分析的型態, 並且將它們匯入資料倉儲系統。這個過程在建立資料倉儲架構中是不可互缺的一環, 通常還要搭配著資料清潔(Data Cleaning)將系統源頭許多未經整合的、不允許的、遺失的或者錯誤的資料, 在匯入資料倉儲之前重新整頓,因為源頭是錯誤的資料,之後發布的也是錯誤的資訊。 所以,完成ETL以後,資料的分析處理作業才可以繼續進行。 林柏凱,專攻歷史資料分析的資料庫系統, IThome, 2008/08/24  http://www.ithome.com.tw/itadm/article.php?c=50472