內容簡介
《Oracle大數據解決方案》由Oracle大數據團隊成員聯袂撰寫,全麵介紹用於獲取、組織、分析和利用非結構化數據的Oracle綜閤集成化産品。本書討論成功實現大數據方案必需的策略和技術,包括ApacheHadoop、Oracle大數據機、Oracle大數據連接器、OracleNoSQL數據庫、OracleEndeca、Oracle高級分析和Oracle開源R産品,還講述遷移既有係統並將現有數據倉庫和分析解決方案集成到企業大數據基礎架構的最佳實踐。
主要內容
●理解綜閤性大數據戰略的價值
●最大限度地提高ApacheHadoop平颱的分布式處理能力
●介紹將Oracle大數據機用作Hadoop和OracleNoSQL數據庫工程係統的優勢
●使用Oracle大數據機來配置、部署、監控Hadoop和OracleNoSQL數據庫
●將現有數據倉庫和分析基礎架構集成到大數據架構
●使用Oracle數據連接器在Hadoop和關係型數據庫之間共享數據
●理解如何將OracleNoSQL數據庫集成到Oracle大數據架構
●使用數據庫內分析更快地實現價值
●使用Oracle高級分析(OracleR企業版和Oracle數據挖掘)、OracleR分發版、ROracle和OracleRConnectorforHadoop來分析數據
●使用OracleEndeca信息發現來分析獨立數據
●規劃和實施大數據管理戰略,開發架構和路綫圖
作者簡介
TomPlunkett,曾撰寫多本Oracle書籍。2009年,Tom帶領一個團隊為美國國防部辦公室實施大數據研究項目;2012年,Tom幫助Frederick癌癥研究實驗室贏得多項行業大奬,包括政府大數據解決方案奬。Tom在大數據和雲計算領域發錶過40多次國際演講。
BrianMacdonald,是一位傑齣的解決方案顧問,是獲得認證的Oracle企業架構師。Brian在架構設計和分析平颱實施方麵擁有逾20年的經驗。Brian曾在InformationResources公司工作,期間用OLAP和數據倉庫技術實現瞭管理貸款組閤的復雜數學算法。
BruceNelson,是美國西部地區Oracle大數據的負責人,專注於Hadoop和NoSQL。他在IT行業擁有超過24年的高性能數據庫係統經驗。Bruce曾任Bizrate數據庫管理員和工程化總監,期間全麵升級瞭Bizrate.com的數據係統。
目錄
第Ⅰ部分引言
第1章大數據簡介
1.1大數據
1.2榖歌的MapReduce算法和ApacheHadoop
1.3Oracle的大數據平颱
1.4總結
第2章大數據的價值
2.1我是大數據嗎?還是大數據是我?
2.2大數據,小數據--仍然是數據
2.2.1什麼已經發生瞭?
2.2.2現在發生瞭什麼?
2.3請看看現實!
2.4你想把它做成什麼?
2.5大數據,大數字,大企業?
2.5.1Twitter
2.5.2Facebook
2.5.3內部源
2.5.4ICR:連接
2.5.5ICR:變更
2.6需要:大數據的價值
2.6.1大數據案例1:醫療行業的臨床試驗研究
2.6.2大數據案例2:在汽車行業的汽車設計中改進駕駛員安全
2.7總結
第II部分大數據平颱
第3章ApacheHadoop平颱
3.1軟件與硬件
3.2Hadoop的軟件平颱
3.2.1Hadoop的發布與版本
3.2.2HadoopDistributedFileSystem(HDFS)
3.2.3調度、計算和處理
3.3操作係統的選擇
3.4Hadoop硬件平颱
3.4.1CPU和內存
3.4.2網絡
3.4.3磁盤
3.5整閤在一起
第4章選擇Appliance的理由
4.1Oracle創建大數據機的理由
4.2Appliance的概念
4.3OracleBigDataAppliance的發展目標
4.4Appliance優化
4.5OracleBigDataAppliance第2版軟件
4.6Oracle大數據機X3-2硬件
4.7Oracle獲取Hadoop知識的地方
4.8配置Hadoop集群
4.8.1選擇核心集群組件
4.8.2組裝集群
4.9自己組建的集群
4.10集群總成本
4.11時間價值
4.12如何打造更大的集群
4.13Oracle大數據機可否支持其他軟件
4.14一體機的缺陷
第5章BDA配置、部署架構和監控
5.1介紹
5.1.1大數據機X3-2滿配機架(18個節點)
5.1.2大數據機X3-2入門機架(6個節點)
5.1.3大數據機X3-2擴展機架(6個節點)
5.1.4BDA的硬件修改
5.1.5大數據機X3-2的軟件支持
5.2BDA安裝和配置過程
5.3關鍵和非關鍵節點
5.4NameNode故障自動切換
5.5BDA磁盤存儲布局
5.6為Hadoop集群增加存儲
5.7僅有Hadoop配置和Hadoop+NoSQL數據庫
5.7.1僅有Hadoop的一體機
5.7.2Hadoop和NoSQL數據庫
5.8內存選項
5.9部署架構
5.9.1雲中的多租戶和Hadoop
5.9.2可擴展性
5.9.3BDA多機架的注意事項
5.10在BDA上安裝其他軟件
5.11數據中心的BDA
5.11.1管理網絡
5.11.2客戶端訪問網絡
5.11.3Infiniband私有網絡
5.11.4網絡需求
5.11.5連接到數據中心的局域網
5.11.6連接架構的例子
5.12Oracle大數據機的使用限製
5.13BDA的管理和監控
5.13.1企業管理器
5.13.2Cloudera管理器
5.13.3Hadoop的監控工具:Web圖形用戶界麵
5.13.4OracleILOM
5.13.5Hue
5.13.6DCLI工具
第6章為大數據集成數據倉庫和分析基礎架構
6.1數據倉庫作為存儲曆史記錄的數據庫
6.1.1Oracle數據庫作為數據倉庫
6.1.2為什麼要把數據倉庫和Hadoop部署在一起
6.2完成路徑:業務分析師工具
6.3擴建基礎設施
第7章BDA連接器
7.1OracleBigDataConnectors
7.2OracleLoaderforHadoop
7.2.1在綫模式
7.2.2OracleOCIDirectPathOutput
7.2.3JDBCOutput
7.2.4離綫模式
7.2.5OracleDataPumpOutput
7.2.6帶分隔符的文本輸齣
7.3安裝OracleLoaderforHadoop
7.4調用OracleLoaderforHadoop
7.5輸入格式
7.5.1DelimitedTextInputFormat
7.5.2RegexInputFormat
7.5.3AvroInputFormat
7.5.4HiveToAvroInputFormat
7.5.5KVAvroInputFormat
7.5.6自定義輸入格式
7.6OracleLoaderforHadoop配置文件
7.6.1LoaderMaps
7.6.2額外的優化
7.6.3利用Infiniband
7.6.4對比ApacheSqoop
7.7OracleSQLConnectorforHDFS
7.8安裝OracleSQLConnectorforHDFS
7.9Hive安裝
7.10使用OracleSQLConnectorforHDFS創建外部錶
7.10.1ExternalTable配置工具
7.10.2數據源類型
7.10.3配置工具語法
7.10.4必需的屬性
7.10.5可選屬性
7.10.6針對帶分隔符的ExternalTable工具
7.10.7在使用--noexecute選項的情況下測試DDL
7.10.8在位置文件裏增加一個新的HDFS文件
7.10.9外部錶的手動配置
7.11Hive源
7.12OracleDataPump源
7.13配置文件
7.14使用OracleSQLConnectorforHDFS查詢
7.15OracleRConnectorforHadoop
7.16OracleDataIntegratorApplicationAdapterforHadoop
第8章OracleNoSQL數據庫
8.1NoSQL數據庫係統的定義
8.2OracleNoSQL數據庫
8.3架構
8.3.1客戶端驅動程序
8.3.2鍵-值對
8.3.3存儲節點
8.3.4復製
8.3.5智能拓撲
8.3.6在綫的靈活性
8.3.7沒有單點故障
8.4數據管理
8.4.1API
8.4.2CRUD操作
8.4.3多種更新操作
8.4.4查找操作
8.4.5事務
8.4.6可預測的性能
8.5集成
8.6安裝和管理
8.6.1簡單安裝
8.6.2管理
8.7OracleNoSQL數據庫的特性
8.8有用的鏈接
第III部分分析信息和製定決策
第9章數據庫庫內分析:快速交付彰顯時間價值
9.1介紹
9.1.1Oracle數據庫內分析
9.1.2為什麼在數據庫內運行如此重要
9.2Oracle數據挖掘和統計分析介紹
9.2.1Oracle庫內高級分析
9.2.2Oracle數據挖掘
9.2.3R語言介紹
9.2.4文本挖掘
9.3庫內統計函數
9.4空間分析
9.4.1理解空間數據模型
9.4.2查詢空間數據模型
9.4.3使用空間分析
9.4.4讓BI工具更聰明
9.5基於圖形分析
9.5.1圖形數據模型
9.5.2查詢圖形數據
9.6多維分析
9.7庫內分析:綜閤範例
9.7.1在ETL過程中集成分析
9.7.2提供指導瀏覽
9.7.3提供混搭式分析
9.8總結
第10章使用R分析數據
第11章Endeca信息發現
第12章大數據治理
第13章大數據開發架構和路綫圖
精彩書摘
本書從Oracle的角度,介紹瞭與大數據相關的很多主題,包括Oracle大數據機(OracleBigDataAppliance)、大數據連接器(BigDataConnectors)、數據庫雲服務器(Exadata)、商務智能雲服務器(Exalytics)、R、OracleNoSQL以及其他一些主題。大數據是一項新興技術,本章將大篇幅討論這種技術,特彆是將係統集成到大數據的價值。本章是對本書其餘部分的一個簡單介紹,有關這些主題的更詳細描述會貫穿全書。
1.1大數據
企業組織越來越需要分析信息來做齣決策,以提高效率、利潤和生産率。由於關係型數據庫已經擴大瞭規模以滿足這些要求,因此這些組織也發現可以使用其他技術來存儲這些海量的信息。這些新係統通常被冠以“大數據”的帽子。
Gartner公司已經明確瞭大數據的三個主要特點:大數據量(Volume)、數據處理速度(Velocity)和多種數據類型(Variety)。傳統的結構化係統在處理大數據量和數據處理速度上是高效的;然而,傳統的係統對於處理各種非結構化數據源或半結構化數據源來說不是最有效的解決方案。大數據解決方案能夠處理更多種類的不同類型的數據格式,這超齣瞭傳統事務型係統的處理能力。盡管大數據量(Volume)、數據處理速度(Velocity)和多種數據類型(Variety)的定義各不相同,但絕大多數對大數據的定義都關心信息的體量,這些信息量對於傳統的係統來說很難處理——要麼是數據量太大,要麼是數據處理速度太快,要麼是數據類型太復雜。
第4個V(即價值(Value))可能在討論大數據的特性時也是非常有用的,因為非結構化數據源中的信息在孤立時價值可能是很低的,而傳統的結構化係統中的信息在孤立時價值可能是很高的。非結構化信息可能是“低密度”的;也就是說,對它本身的單個的觀察可能不會增加價值。然而,當這個數據被聚閤時,它的價值趨勢可能就體現齣來瞭。
當然可以確定其他的V(真實性——Veracity等),但我們的分析將集中在這四個V上(大數據量、數據處理速度、多種數據類型和價值)。Web日誌和應用程序日誌經常被描述為大數據。數字視頻和音樂、手持設備、互聯網不斷增長的需求使得被存儲的數據量急劇增加。這些示例包括點擊流數據、社交網絡、基於位置服務的智能手機、Web服務器日誌、儀器中的數據流、實時交易數據、博客和社交媒體(如Twitter和Facebook)。
我們的社會正變得越來越充斥著數字信息。如今,信息從衛星廣播齣並且通過無綫電波、電纜、光縴網絡以及其他方式傳送。2004年,每月的上網流量超過1EB(exabyte),相當於1000PB(petabyte)。2011年,每月的上網流量超過27EB。EB是信息或計算機存儲的單位,相當於一百萬的三次方個字節。1KB(kilobyte)等於1000個字節。1MB(megabyte)等1000KB(kilobyte)。1GB(gigabyte)等於1000MB(megabyte)。1TB(terabyte)等於1000GB。1PB等於1000TB。1EB等於1000PB。
1.2榖歌的MapReduce算法和ApacheHadoop
在20世紀90年代後期,市場上有很多搜索引擎:AltaVista、微軟Bing的一些前身、DirectHit、Inktomi、Yahoo和很多其他的搜索引擎。甚至還有一些元搜索引擎(如MetaCrawler),可以結閤來自多個搜索引擎的搜索結果。大多數搜索引擎試圖分析Web頁麵的文本意義,然後創建一個Web頁麵的索引,可以通過使用關鍵詞進行搜索。有些搜索引擎是采用人工分析的目錄,如Yahoo。
榖歌超越其在搜索引擎市場上的所有競爭對手,並成為搜索引擎的領導者。榖歌通過提供比其競爭對手更好的搜索結果而獲得市場份額。世界上有數以百萬計的網頁,還有更多的網頁正在被世界各地人們創建著。榖歌創始人認識到,在萬維網上識彆相關的文檔,基於傳統的方法是不夠的。基於人工的目錄不能隨著Web的大小而任意擴展;甚至,雅虎不得不設計使用自動化的搜索引擎,為其目錄結果提供
附加的搜索結果。然而,傳統的自動化算法也是不夠的。關注於關鍵詞及一個特定的詞在一個文檔中齣現的頻率不足以為該文檔提供理想的相關性分析。榖歌的創始人認識到,在20世紀90年代,大多數的超鏈接是由人工在創建或更新一個網頁時創建的。一個超鏈接中的文本通常用來描述要鏈接的頁麵。榖歌創始人意識到這個文本會給他們提供一個網頁的描述信息,以至於他們可以在搜索引擎中使用這種文本作為其網頁的上下文。他們進一步認識到,由於這個原因他們並不需要在其搜索引擎上處理整個萬維網;他們需要處理的全部事情就是超鏈接以及與超鏈接相關聯的文本,從而可以顯著地減少他們需要處理和存儲的信息量。
榖歌産生的搜索結果比基於人工目錄的(如Yahoo)或者是自動化的搜索引擎(如AltaVista)所産生的結果都更好。從某種意義上說,榖歌是第一個Web2.0應用,因為榖歌通過依賴其他
人如何描述Web頁麵的超鏈接來為他們的搜索引擎有效地建立網頁的群包。隨後,榖歌為將其搜索引擎擴展到迅猛增長的萬維網,在搜索檢索領域做瞭許多其他的創新。他們最重要的一個創新是如何擴展他們的搜索索引,以涵蓋萬維網上巨大規模的網頁。榖歌發明瞭一項稱為MapReduce的技術,他們在2004年發錶的論文中描述瞭這項技術。後續章節將描述榖歌文件係統(GoogleFileSystem)、BigTable、Dremel、Spanner和其他一些先進的技術。
2006年,DougCutting正在研究ApacheLucene(一個開源的搜索引擎),他意識到需要一個與榖歌MapReduce技術提供的相類似的功能。然而,榖歌並沒有把它的MapReduce技術提
供給其他人使用。因此,DougCutting開始研究一個開源的MapReduce工具,這項工作後來成為ApacheHadoop項目。Yahoo很快就認識到ApacheHadoop的價值,並聘請瞭DougCutting來引導他們在這個領域繼續努力研發。Facebook、政府情報機構和其他組織也采用瞭ApacheHadoop。
在ApacheHadoop成功地作為一個開源項目提供MapReduce功能後,開源社區創建瞭基於榖歌其他研究論文的開源項目。這些項目包括HBase(基於BigTable)、Pig和Hive(基於
Sawzall)和Impala(基於Dremel)。
ApacheHadoop是一種技術,它是將在本書中大篇幅討論的很多大數據技術的基礎。目前,ApacheHadoop功能正用於以各種不同的方式來高效地、低成本和快速地存儲信息,在
此之前這是不可能的。Hadoop不隻局限於簡單地對網絡信息進行分析。現有的數據倉庫基礎設施能夠繼續提供分析功能,然而新的技術(如ApacheHadoop)可提
供用於處理信息的新功能。
ApacheHadoop包含兩個主要組件:Hadoop分布式文件係統(HDFS),它是用於存儲信息的分布式文件係統;以及MapReduce編程框架,它用於處理信息。Hadoop能並行處理大數據集,因為HDFS和MapReduce可以擴展到數韆個節點。第3章中將對ApacheHadoop進行更詳細的描述。
……
前言/序言
大數據包含很多種技術,因此本書所有的作者都精通各自負責的對應的Oracle大數據産品。該團隊在架構設計、大數據、商務智能、Hadoop、Java、MapReduce和平颱設計等方麵都擁有豐富經驗。下麵詳細介紹每個作者的具體信息。
TomPlunkett是多本書的主要作者,包括OracleExalogicElasticCloudHandbook。2009年,Tom帶領一個團隊為美國國防部辦公室實施過一個大數據研究項目。2010年,Tom與其他人閤作為弗吉尼亞理工大學的計算機科學係講授瞭一學期的MapReduce和其他大數據主題的課程。2012年,Tom幫助Frederick國傢癌癥研究實驗室(FrederickNationalLaboratoryforCancerResearch)憑藉Oracle大數據一體機在分析基因與癌癥亞型之間的關係上贏得多項行業大奬,包括2012年政府大數據解決方案奬(從80多個提名的大數據項目中脫穎而齣),作為卓越創新者入圍2013年政府卓越創新決賽,並獲2013計算機世界創新奬。除瞭為Oracle工作外,Tom還擔任弗吉尼亞理工大學計算機科學研究生的兼職講師,並提供遠程學習指導。Tom在大數據和雲計算領域發錶過40多次國際會議演講。之前,Tom在IBM工作過並實施瞭FlieslerMeyer專利法。Tom擁有喬治·梅森大學(GeorgeMasonUniversity)的文學學士和法學博士學位、弗吉尼亞理工大學(VirginiaTech)計算機科學的理學碩士,並且已經參加學習瞭斯坦福大學(StanfordUniversity)管理科學與工程研究生課程(ManagementScienceandEngineering)。
Oracle大數據解決方案 [Oracle Big Data Handbook] 下載 mobi epub pdf txt 電子書 格式
Oracle大數據解決方案 [Oracle Big Data Handbook] 下載 mobi pdf epub txt 電子書 格式 2024
Oracle大數據解決方案 [Oracle Big Data Handbook] mobi epub pdf txt 電子書 格式下載 2024