發表於2024-12-28
隨著TheDataWarehouseToolkit(1996)第1版的齣版發行,RalphKimball為整個行業引入瞭維度建模技術。從此,維度建模成為一種被廣泛接受的錶達數據倉庫和商業智能(DW/BI)係統中數據的方法。該經典書籍被認為是維度建模技術、模式和實踐的資源。
本書匯集瞭到目前為止最全麵的維度建模技術。《大數據應用與技術叢書·數據倉庫工具箱(第3版):維度建模指南》采用新的思路和實踐對上一版本進行瞭全麵修訂,給齣瞭設計維度模型的全麵指南,既適閤數據倉庫新手,也適閤經驗豐富的專業人員。
本書涉及的所有技術都基於作者實際從事DW/BI的設計經驗,通過實際案例加以描述。
主要內容
◆實用設計技術——有關維度和事實錶的基本和高級技術
◆14個案例研究,涉及零售業、電子商務、客戶關係管理、采購、庫存、訂單管理、會計、人力資源、金融服務、醫療衛生、保險、教育、電信和運輸等
◆為12個案例研究提供瞭數據倉庫總綫矩陣示例
◆需要避免的維度建模陷阱和錯誤
◆增強的緩慢變化維度(SCD)技術類型0~類型7
◆用於處理參差不齊的可變深度層次和多值屬性的橋接錶
◆大數據分析的實踐
◆與業務參與方閤作、交互設計會議的指南
◆有關KimballDW/BI項目生命周期方法論的概論
◆對ETL係統和設計思考的總結
◆構建維度和事實錶的34個ETL子係統和技術
Ralph Kimball,是Kimball集團的創建者。從20世紀80年代中期以來,他一直是數據倉庫和商業智能行業維度建模方法的思想開拓者。大量IT專業人士接受過其教育。自1996年以來,由他及其同事們所撰寫的工具箱係列書籍一直是最受讀者青睞的書籍。Ralph Kimball曾就職於Metaphor並建立瞭RedBrick係統,他在施樂PaloAlto研究中心(PARC)工作期間,與他人一起共同發明瞭星型工作站,這是利用視窗、圖標和鼠標的商業産品。Ralph Kimball畢業於斯坦福大學電子工程係並獲得博士學位。
Margy Ross,是Kimball集團總裁。自1982年以來,她主要關注數據倉庫和商業智能,強調業務需求和維度建模的重要性。與Ralph Kimball-樣,Margy Ross也為許多學生講授過維度設計實踐,她與Ralph Kimball閤作,共同撰寫瞭5本工具箱序列書籍。Margy Ross曾工作於Metaphor並與他人共同創立瞭DecisionWorks谘詢公司。她畢業於美國西北大學工業工程係並獲得碩士學位。
第1章 數據倉庫、商業智能及維度建模初步
1.1 數據獲取與數據分析的區彆
1.2 數據倉庫與商業智能的目標
1.3 維度建模簡介
1.3.1 星型模式與OLAP多維數據庫
1.3.2 用於度量的事實錶
1.3.3 用於描述環境的維度錶
1.3.4 星型模式中維度與事實的連接
1.4 Kimball的DW/BI架構
1.4.1 操作型源係統
1.4.2 獲取.轉換_加口載(ETL)係統
1.4.3 用於支持商業智能決策的展現區
1.4.4 商業智能應用
1.4.5 以餐廳為例描述Kimball架構
1.5 其他DW/BI架構
1.5.1 獨立數據集市架構]
1.5.2 輻射狀企業信息工廠Inmon架構
1.5.3 混閤輻射狀架構與Kimball架構
1.6 維度建模神話
1.6.1 神話1:維度模型僅包含匯總數據
1.6.2 神話2:維度模型是部門級而不是企業級的
1.6.3 神話3:維度模型是不可擴展的
1.6.4 神話4:維度模型僅用於預測
1.6.5 神話5:維度模型不能被集成
1.7 考慮使用維度模型的
更多理由
1.8 本章小結
第2章 Kimball維度建模技術概述
2.1 基本概念
2.1.1 收集業務需求與數據實現
2.1.2 協作維度建模研討
2.1.3 4步驟維度設計過程
2.1.4 業務過程
2.1.5 粒度
2.1.6 描述環境的維度
2.1.7 用於度量的事實
2.1.8 星型模式與OLAP多維數據庫
2.1.9 方便地擴展到維度模型
2.2 事實錶技術基礎
2.2.1 事實錶結構
2.2.2 可加、半可加、不可加事實
2.2.3 事實錶中的空值
2.2.4 一緻性事實
2.2.5 事務事實錶
2.2.6 周期快照事實錶
2.2.7 纍積快照事實錶
2.2.8 無事實的事實錶
2.2.9 聚集事實錶或OLAP多維數據庫
2.2.1 0閤並事實錶
2.3 維度錶技術基礎
2.3.1 維度錶結構
2.3.2 維度代理鍵
2.3.3 自然鍵、持久鍵和超自然鍵
2.3.4 下鑽
2.3.5 退化維度
2.3.6 非規範化扁平維度
2.3.7 多層次維度
2.3.8 文檔屬性的標識與指示器
2.3.9 維度錶中的空值屬性
2.3.10 日曆日期維度
2.3.11 扮演角色的維度
2.3.12 雜項維度
2.3.13 雪花維度
2.3.14 支架維度
2.4 使用一緻性維度集成
2.4.1 一緻性維度
2.4.2 縮減維度
2.4.3 跨錶鑽取
2.4.4 價值鏈
2.4.5 企業數據倉庫總綫架構
2.4.6 企業數據倉庫總綫矩陣
2.4.7 總綫矩陣實現細節
2.4.8 機會/利益相關方矩陣
2.5 處理緩慢變化維度屬性
2.5.1 類型0:原樣保留
2.5.2 類型1:重寫
2.5.3 類型2:增加新行
2.5.4 類型3:增加新屬性
2.5.5 類型4:增加微型維度
2.5.6 類型5:增加微型維度及類型1支架
2.5.7 類型6:增加類型1屬性到類型2維度
2.5.8 類型7:雙類型l和類型2維度
2.6 處理維度層次關係
2.6.1 固定深度位置的層次
2.6.2 輕微參差不齊/可變深度層次
2.6.3 具有層次橋接錶的參差不齊/可變深度層次
2.6.4 具有路徑字符屬性的可變深度層次
2.7 高級事實錶技術
2.7.1 事實錶代理鍵
2.7.2 蜈蚣事實錶
2.7.3 屬性或事實的數字值
2.7.4 日誌/持續時間事實
2.7.5 頭/行事實錶
2.7.6 分配的事實
2.7.7 利用分配建立利潤與損失事實錶
2.7.8 多種貨幣事實
2.7.9 多種度量事實單位
2.7.1 0年.日事實
2.7.1 1多遍SQL以避免事實錶間的連接
2.7.1 2針對事實錶的時間跟蹤1
2.7.1 3遲到的事實
2.8 高級維度技術
2.8.1 維度錶連接
2.8.2 多值維度與橋接錶
2.8.3 隨時間變化的多值橋接錶
2.8.4 標簽的時間序列行為
2.8.5 行為研究分組
2.8.6 聚集事實作為維度屬性
2.8.7 動態值範圍
2.8.8 文本注釋維度
2.8.9 多時區
2.8.10 度量類型維度
……
第3章 零售業務
第4章 庫存
第5章 采購
第6章 訂單管理
第7章 會計
第8章 客戶關係管理
第9章 人力資源管理
第10章 金融服務
第11章 電信
第12章 交通運輸
第13章 教育
第14章 醫療衛生
第15章 電子商務
第16章 保險業務
第17章 KimballDW/BI生命周期概述
第18章 維度建模過程與任務
第19章 ETL子係統與技術
第20章 ETL係統設計與開發過程和任務
第21章 大數據分析
2.7.6分配的事實
頭指針/行事務數據與對應的事實具有不同粒度這樣的情況經常發生,例如,頭錶示貨運費用。應該盡量分配頭指針事實,使其基於業務所提供的規則劃分為行級彆,分配的事實可以按照所有維度進行分片並上鑽操作。多數情況下,可避免建立頭指針級彆的事實錶,除非這樣的聚集能夠獲得查詢性能的改善。
2.7.7利用分配建立利潤與損失事實錶
事實錶揭示利潤等價方程是企業DW/BI應用能夠發布的最強大的結果。利潤方程是:收入一開銷=利潤。理想地實現利潤方程的事實錶應為原子收入事務粒度並包含許多開銷項。因為這些錶處於原子粒度,纔能實現數字化的上捲,包括客戶利潤,産品利潤,促銷利潤,渠道利潤等。然而,建立這些事實錶存在一定難度,因為開銷項必須從其原始來源劃分到事實錶粒度。這一分配步驟通常由ETL子係統完成,這一過程是一個與業務相關的步驟,需要高層經理的支持。齣於以上原因,利潤與損失事實錶通常在DW/BI程序的早期實現階段不會被處理。
2.7.8多種貨幣事實
以多種貨幣單位記錄財務事務的事實錶行應該包含一對列。其中一列包含以真實幣種錶示的事實,另外一列包含同樣的,但以整個事實錶統一的單一標準幣種錶示的事實。標準幣種值在ETL過程中按照規定的貨幣轉換規則建立。該事實錶也必須有一個貨幣維度用於區分事務的真正貨幣。
2.7.9多種度量事實單位
某些業務過程需要事實同時以多種度量單位錶示。例如,按照業務用戶的觀點,供應鏈可能需要對相同事實以平颱、船運、零售以及單個掃描單元構建報錶。如果事實錶包含大量事實,而每個事實都必須以所有度量單位錶示,此時較好的方法是將事實以公認的標準度量單位存儲,同時存儲標準度量與其他度量的轉換係數。這種事實錶可按照不同用戶的觀點部署,使用適當選擇的轉換係數。轉換係數必須存儲在事實錶行中以確保計算簡單正確,並盡量降低查詢復雜性。
2.7.10年-日事實
商業用戶在事實錶中通常需要年.日(year-to-date,YTD)值。很難反對單個請求,但是YTD請求很容易變換為“財務周期結束時的YTD”或者“財務周期日”。一種更可靠、可擴展的處理這些請求的方法是在BI應用或OLAP多維數據庫中計算YTD矩陣,而不是在事實錶中查齣YTD事實。
2.7.11多遍SQL以避免事實錶間的連接
BI應用絕不應該跨事實錶的外鍵處理兩個事實錶的連接操作。在關係數據庫中,控製此類連接操作的迴答集的基數是不可能的,將會産生不正確的結果。例如,如果兩個事實錶包含客戶産品齣貨和返迴,則這兩個錶不能按照客戶和産品外鍵直接連接。要采用跨鑽方式使用兩個事實錶,並對結果按照公共行頭指針屬性值,進行排序.融閤操作以産生正確結果。
2.7.12針對事實錶的時間跟蹤
存在三種基本事實錶粒度:事務級彆、周期快照和纍積快照。個彆情況下,在事實錶中增加行有效時期、行截止日期和當前行標識是非常有用的,與采用類型2緩慢變化維度,在事實行有效時獲取時間的方式類似。盡管不太常用,但該模型能夠解決諸如緩慢變化庫存平衡的場景,其中頻繁周期快照可以在每個快照上加載同一行。
……
自Ralph Kimball於1996年首次齣版The Data Warehouse Toolkit(Wiley)一書以來,數據倉庫和商業智能(Data Warehousing and Business Intelligence,DW/BI)行業漸趨成熟。盡管初期僅有部分大型公司采用,但從那時起,DW/BI逐漸為各種規模的公司所青睞。業界已建立瞭數以韆計的DW/BI係統。隨著數據倉庫原子數據的不斷增加以及更新越來越頻繁,數據容量不斷增長。在我們的職業生涯中,我們見證瞭數據庫容量從MB到GB再到TB甚至PB的發展過程,但是,DW/BI係統麵臨的基本挑戰並未發生重大變化。我們的工作就是管理組織中的數據並將其用於業務用戶的決策製定過程中。總的來說,您必須實現這一目標,確保商務人士製定更好的決策,並從他們的DW/BI投資中獲得迴報。
自The Data Warehouse Toolkit第1版齣版以來,維度建模作為一種主要的DW/BI展現技術受到廣泛認可。從業者與學者都認識到數據展現要獲得成功,就必須建立在簡單性的基礎之上。簡單性是使用戶能夠方便地理解數據庫,使軟件能夠方便地訪問數據庫的基礎性的關鍵要素。許多情況下,維度建模就是時刻考慮如何能夠提供簡單性。堅定不移地迴到業務驅動的場景,堅持以用戶的可理解性和查詢性能為目標,纔能建立始終如一地服務於組織的分析需求的設計。維度建模框架將成為BI的平颱。基於我們多年來積纍的經驗以及大量實踐者的反饋,我們相信維度建模是DW/BI項目成功的關鍵。
維度建模還是建立集成化的DW/BI係統的主導結構。當您使用維度模型的一緻性維度和一緻性事實時,可以增量式地建立具有可實踐的、可預測的、分布式的復雜DW/BI係統的框架。
盡管業界的一切始終在變化,但Ralph Kimball於17年前提齣的核心維度建模技術經受住瞭時間的考驗。諸如一緻性維度、緩慢變化維度、異構産品、無事實的事實錶以及企業數據倉庫總綫矩陣等概念仍然是全球範圍內設計論壇所討論的問題。最初的概念通過新的和互補的技術被逐漸完善並強化。我們決定對Kimball的書籍發行第3版,因為我們感到有必要將我們所收集到的維度建模經驗匯集到一本書中。我們每個人都具有30年以上的關注決策支持、數據倉庫和業務智能的經曆。我們希望分享在職業生涯中反復利用的維度建模模式。本書還包含基於現實場景的特定的實踐性的設計建議。
本書的目標是提供維度建模技術的一站式商店。正如書名所體現的那樣,本書是一本維度設計原則和技術的工具箱。本書既能滿足那些剛剛進入維度DW/BI行業的新手的需要,也描述瞭許多高級概念以滿足那些長期戰鬥在這一行業的老手的需要。我們相信本書在維度建模主題方麵所涵蓋內容的深度是獨一無二的。本書是權威性的指南。
預期讀者
本書麵嚮數據倉庫和商業智能設計人員、實踐人員和管理人員。此外,積極參與DW/BI項目的業務分析人員和數據管理者也會發現本書內容對他們來說是非常有益的。
即使您並未直接負責維度模型的開發工作,但我們相信熟悉維度建模的概念對項目組所有成員都是非常重要的。維度模型對DW/BI實現的許多方麵都有影響,從業務需求的轉換開始,通過獲取、轉換和加載(ETL)過程,最後到通過商業智能應用發布數據倉庫的整個過程。由於涉及內容的廣泛性,無論您是主要負責項目管理、業務分析、數據結構、數據庫設計、ETL和BI應用,還是教育和支持,都需要熟悉維度建模。本書適閤於方方麵麵的讀者。
對那些已經閱讀過本書前期版本的讀者來說,在本書中將發現一些熟悉的案例研究,然而,這些案例都被更新瞭,增加瞭更豐富的內容,幾乎每個案例都包括樣例企業數據倉庫總綫矩陣。我們為新的主題區域(包括大數據分析)提供瞭相應內容。
本書內容偏嚮對技術的討論。主要從關係數據庫環境齣發討論維度建模,這一環境與聯機分析處理(OLAP)存在的細微差彆在適當之處都進行瞭說明。本書假定讀者對關係數據庫概念有一定的瞭解,例如錶、行、鍵和連接等。鑒於我們在討論維度模型時不采用某一特定的方法,所以不會就某一特定數據庫管理係統具體的物理設計和調整指導展開深入的討論。
各章預覽
本書將圍繞一係列商業場景或案例研究進行組織。我們相信通過實例來研究設計技術是最有效的方法,因為這樣做可以使我們分享非常實際的指導以及現實世界的適用經驗。盡管未提供完整的應用或業界解決方案,但這些案例可用來討論齣現在維度建模中的模式。據我們的經驗來看,通過遠離自己所熟悉的復雜問題,更容易抓住設計技術的要素。閱讀過本書以前各版本的讀者對這一方法的反應非常積極。
請注意我們在第2章未采用案例研究方法。鑒於Kimball集團所發明的維度建模技術得到行業的廣泛認可,我們整理齣瞭這些技術,並簡短地進行瞭描述。盡管並不指望讀者會像閱讀其他章節那樣從頭到尾仔細閱讀,但我們覺得這一以技術為中心的章節對讀者來說是一種有益的參考。
除第2章以外,本書其他章節相互關聯。我們以基本概念開始,隨著內容的展開,介紹瞭更高級的內容。讀者應該順序閱讀各章。例如,除非您閱讀瞭第16章之前有關零售、采購、訂單管理和客戶關係管理的那幾章的內容,否則很難理解第16章的相關內容。
對那些已經閱讀過本書以前版本的讀者來說,可能會忽略前麵幾章。盡管對前麵的事實和維度比較熟悉,但不希望讀者跳過太多的章節,否則可能會錯過一些已經更新的基本概念。
第1章:數據倉庫、商業智能及維度建模初步
本書以數據倉庫、商業智能及維度建模入門開始,探討瞭整個DW/BI結構的所有組件並建立瞭本書其他章節所用到的核心詞匯。消除瞭一些有關維度建模的神化和誤解。
第2章:Kimball維度建模技術概述
本章描述瞭超過75個維度建模技術以及模式。
第3章:零售業務
零售是用於描述維度建模的經典實例。我們之所以從該行業開始討論是因為該行業為大眾所熟悉。並不需要大傢都對該行業有非常深入的瞭解,因為我們主要是希望通過該章的學習使大傢能夠關注核心的維度建模概念。該章以設計維度模型常用的4步過程開始,對維度錶開展瞭深入的研究,包括貫穿全書反復使用的日期維度。同時,我們還討論瞭退化維度、雪花維度以及代理鍵。即使您並不從事零售行業的工作,也需要仔細閱讀這一章,因為該章是其他各章的基礎。
第4章:庫存
該章是對第3章零售業討論的延伸,討論瞭零售業的另一個案例,但請將注意力轉移到零售業的另一個業務過程上。該章介紹瞭企業數據倉庫總綫架構以及具有一緻性維度的總綫矩陣。這些概念對那些希望建立集成的、可擴展的DW/BI架構的人來說是非常關鍵的一章。我們還討論瞭三種基礎類型的事實錶:事務、周期快照和纍積快照。
第5章:采購
該章強調瞭在構思DW/BI環境時,企業組織的價值鏈的重要性。我們還探討瞭用於處理緩慢變化維度屬性的一係列基礎的和高級的技術;討論瞭基本的類型1(重寫)、類型2(增加行)和類型3(增加列),並在此基礎上介紹瞭類型0,以及類型4~類型7。
第6章:訂單管理
在研究該案例時,我們考察瞭在DW/BI係統中常常需要首先考慮實現的業務過程,因為這些過程支持核心業務性能度量——我們將哪些商品以何種價格賣給哪些顧客?討論瞭在模式中扮演多種角色的維度。還討論瞭在處理訂單管理信息時,建模人員將會麵對的常見挑戰,例如,錶頭/列錶項考慮、多幣種或多種度量單位,以及五花八門的事務標識符的雜項維度等。
第7章:會計
該章主要討論瞭建模數據倉庫中的總賬信息。描述瞭處理年度-日期(year-to-date)事實和多種財政日曆,以及將多個業務過程中的數據閤並到事實錶的適當方法。還對維度屬性層次提供瞭詳細的指導,從簡單的規範的固定深度層次到包含參差不齊的可變深度層次的橋接錶。
第8章:客戶關係管理
大量的DW/BI係統建立在需要更好地理解客戶並嚮其提供服務的前提下。該章討論瞭客戶維度,包括標準化地址和處理多值維度屬性的橋接錶。該章還討論瞭對復雜的客戶行為建模的模式,以及如何從多個數據源中閤並客戶數據的方法。
第9章:人力資源管理
該章討論瞭人力資源維度模型具有的幾種特性,包括那些維度錶行為類似事實錶的情況。該章討論瞭分析方案軟件包,以及對遞歸管理層次及調查問捲的處理方法。對幾種處理多值技能關鍵詞屬性的方法進行瞭比較。
第10章:金融服務
銀行案例研究探討瞭那些每個業務列錶項具有特定描述性屬性和性能度量的異構産品的超類和子類模式的概念。顯然,並不是隻有金融服務行業需要處理異構産品。該章還討論瞭賬戶、客戶和傢庭之間所存在的復雜關係。
第11章:電信
該章從結構上來看與前幾章有一些差彆,主要是為瞭鼓勵讀 大數據應用與技術叢書·數據倉庫工具箱(第3版):維度建模權威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下載 mobi epub pdf txt 電子書 格式
大數據應用與技術叢書·數據倉庫工具箱(第3版):維度建模權威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下載 mobi pdf epub txt 電子書 格式 2024
大數據應用與技術叢書·數據倉庫工具箱(第3版):維度建模權威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod 下載 mobi epub pdf 電子書又買瞭一大堆,還沒看內容,包裝還好!
評分很不錯的一本書,現在正在瞭解數據倉庫方麵的知識,用處很大
評分還沒有開始看,繼續學習。
評分還沒開始看,等看到不錯再來評論可以麼?
評分好像還有一本書更好,叫啥建設數據倉庫還是啥的
評分之前同事推薦的書籍,感覺不錯,比較偏實戰
評分閱讀節優惠,五本書共110差不多一本的價格,嗬嗬
評分內容很好,裝幀質量也不錯,數據倉庫專業入門到進階
評分對書的內容很期待,隻是拿到書的時候封麵髒髒的,有圖有真相,對京東有點失望……
大數據應用與技術叢書·數據倉庫工具箱(第3版):維度建模權威指南 [The Data Warehouse Toolkit:The Definitive Guide to Dimensional Mod mobi epub pdf txt 電子書 格式下載 2024