編輯推薦
從PDV角度詳盡剖析Base SAS常用語句代碼及應用,數據挖掘理論和商業應用緊密結閤,原創相互貝葉斯文本分類和EM迭代算法代碼,三個典型的數據挖掘商業案例分析。
《SAS編程與數據挖掘商業案例》是作者多年來在企業實踐工作中的經驗總結,詳細講解瞭使用SAS進行商業數據挖掘的方法,其中包含瞭目前公開齣版的諸多SAS教材沒有的大量實戰內容。
《SAS編程與數據挖掘商業案例》內容全麵、新穎獨創、綜閤性強,適閤企業人員使用,也可作為數學、統計學、金融、電子商務、醫藥等專業的本科生、碩士生學習SAS編程和數據挖掘的參考資料。
點擊圖片進入信息技術、應用開發精品圖書專賣店:
內容簡介
《SAS編程與數據挖掘商業案例》是作者多年來在企業實踐工作中的經驗總結,詳細講解瞭使用SAS進行商業數據挖掘的方法。其中包含瞭目前公開齣版的諸多SAS教材沒有的大量實戰內容。《SAS編程與數據挖掘商業案例》內容全麵、新穎獨創、綜閤性強,適閤企業人員使用,也可作為數學、統計學、金融、電子商務、醫藥等專業的本科生、碩士生學習SAS編程和數據挖掘的參考資料。
作者簡介
姚誌勇,南開大學企業管理碩士,進修統計學碩士。現供職於全球500強商業公司,從事SAS數據挖掘工作8年,有豐富的項目實踐經驗。管理並自主開發多個大型數據挖掘算法源代碼,成功應用於商業實踐。
內頁插圖
目錄
齣版說明
前言
第1章 SAS係統簡介
1.1 係統簡介
1.1.1 SAS係統與商務智能係統
1.1.2 SAS係統與其他數據庫的數據交換
1.1.3 SAS語言與SAS係統
1.1.4 SAS9瀏覽窗口簡介
1.2 一個簡單的編程實例
1.2.1 編寫一個SAS程序
1.2.2 提交一個SAS程序
1.2.3 保存和打開一個SAS程序
1.3 DATA步的數據指針和PDV流程
1.3.1 數據指針和PDV流程
1.3.2 DATA步執行次數
第2章 SAS編程基礎
2.1 SAS邏輯庫
2.1.1 創建SAS邏輯庫
2.1.2 刪除SAS邏輯庫
2.1.3 永久邏輯庫和臨時邏輯庫
2.2 SAS數據集
2.2.1 SAS數據集命名規則
2.2.2 永久SAS數據集和臨時SAS數據集
2.2.3 SAS數據集結構
2.2.4 SAS數據集形式
2.3 SAS索引
2.3.1 創建索引
2.3.2 刪除索引
2.4 SAS目錄
2.5 數據字典
2.6 SAS變量
2.6.1 變量屬性
2.6.2 變量列錶
2.6.3 自動變量
第3章 數據獲取與數據集操作
3.1 數據獲取
3.1.1 LIBNAME方式
3.1.2 PASSTHROUGH方式
3.1.3 IMPORT方式
3.1.4 INPUT方式
3.2 SET語句
3.2.1 語法說明
3.2.2 實例詳解
3.2.3 商業實踐
3.3 BY語句
3.3.1 語法說明
3.3.2 實例詳解
3.4 MERGE語句
3.4.1 語法說明
3.4.2 實例詳解
3.5 UPDATE語句
3.5.1 語法說明
3.5.2 實例詳解
3.6 MODIFY語句
3.6.1 語法說明
3.6.2 實例詳解
3.6.3 商業實踐
3.7 PUT語句
3.7.1 語法說明
3.7.2 實例詳解
3.7.3 商業實踐
3.8 FILE語句
3.8.1 語法說明
3.8.2 實例詳解
3.8.3 商業實踐
3.9 1INFLE語句
3.9.1 語法說明
3.9.2 實例詳解
3.9.3 商業實踐
第4章 SAS變量操作
4.1 賦值語句和纍加語句
4.1.1 賦值語句
4.1.2 纍加語句
4.2 KEEP語句和DROP語句
4.2.1 KEEP語句
4.2.2 DROP語句
4.3 IRETAIN語句
4.3.1 語法說明
4.3.2 實例詳解
4.3.3 商業實踐
4.4 ARRAY語句
4.4.1 語法說明
4.4.2 實例詳解
4.4.3 商業實踐
4.5 其他語句
4.5.1 RENAME語句
4.5.2 LENGTH語句
4.5.3 LABEI。語句
第5章 SAS觀測值操作
5.1 OUTPUT語句
5.1.1 語法說明
5.1.2 實例詳解
5.2 子集IF語句
5.2.1 語法說明
5.2.2 實例詳解
5.2.3 子集IF與OUTPUT語句比較
5.3 WHERE語句
5.3.1 語法說明
5.3.2 實例詳解
5.3.3 子集IF與WIIERE語句比較
5.4 REPLACE語句和REMOVE語句
5.4.1 REPLACE語句
5.4.2 REMOVE語句
5.4.3 REPLACE、REM0vE與OUTPUT應用
5.5 DELETE語句與STOP語句
5.5.1 DELETE語句
5.5.2 STOP語句
第6章 SAS數據集管理
6.1 APPEND過程
6.1.1 語法說明
6.1.2 實例詳解
6.2 SORT過程
6.2.1 語法說明
6.2.2 實例詳解
6.2.3 商業實踐
6.3 TRANSPOSE過程
6.3.1 語法說明
6.3.2 實例詳解
6.4 CONTENTS過程
6.4.1 語法說明
6.4.2 實例詳解
6.5 DATASETS過程
6.5.1 語法說明
6.5.2 實例詳解
第7章 DAIA步循環與控製
7.1 IF.THEN/ELSE語句與SELECT語句
7.1.1 lF.THEN/ELSE語句
7.1.2 SELECT語句
7.2 DO語句
7.2.1 D0組語句
7.2.2 D0循環語句
7.2.3 DOWHILE語句
7.2.4 DOUNTIL語句
7.2.5 DOOVER語句
7.2.6 商業實踐
7.3 各種控製語句
7.3.1 GOT0語句
7.3.2 CONTINUE語句與LEAVE語句
7.3.3 RETIJRN語句
第8章 常用全程語句
8.1 COMMENT語句
8.2 X語句
8.3 FILENAME語句
8.4 %INCLUDE語句
8.5 TITLE語句
8.6 FOOTNOTE語句
第9章 輸齣控製
9.1 LOG窗口輸齣控製
9.2 OUTPUT窗口輸齣控製
9.3 常用ODS輸齣控製
9.3.1 ODSLISTING
9.3.2 ODSRESUTS
9.3.3 ODSTRACE
9.3.4 ODS0UTPUT
9.3.5 ODSHTML
9.3.6 ODSCSVALL
9.3.7 ODSSELECT
9.3.8 ODSEXCLUDE
第10章 SAS宏變量
10.1 宏運行的內在機製
10.2 宏變量
10.2.1 定義宏變量
10.2.2 顯示宏變量
10.2.3 引用宏變量
10.3 宏程序
10.3.1 定義宏
10.3.2 調用宏
10.3.3 宏內宏
10.3.4 宏存儲
10.4 宏參數
10.4.1 創建參數
10.4.2 參數賦值
10.5 宏函數
10.5.1 通配函數
10.5.2 計算函數
10.5.3 字符函數
10.5.4 引用函數
10.6 宏語句
10.6.1 %IF.%TIIEN/%ELSE語句
10.6.2 %DO組語句
10.6.3 %DO循環語句
10.6.4 %DO%WHILE循環語句
10.6.5 %D0%UNTIL循環語句
10.7 宏應用
10.7.1 創建宏變量的八種方法
10.7.2 宏程序一般應用
10.7.3 宏程序高級應用
第11章 SQL過程
11.1 單錶操作
11.2 多錶操作
11.2.1 多錶關聯
11.2.2 子查詢
11.2.3 閤並查詢
11.2.4 MERGE與SQL比較
11.3 創建、更新與刪除錶操作
11.3.1 創建錶
11.3.2 行操作
11.3.3 列操作
11.3.4.刪除錶
11.4 使用SQL注意的幾個問題
第12章 數據處理實踐
12.1 隨機抽樣
12.1.1 簡單無重復隨機抽樣
12.1.2 分層等比例隨機抽樣
12.1.3 分層不等比例隨機抽樣
12.1.4 隨機抽樣MACRO
12.2 HASH對象
12.2.1 HASH對象的引例
12.2.2 HASH對象的語法
12.2.3 HITER對象的引例
12.2.4 HITER對象的語法
12.2.5 商業實踐
12.3 FORMAT綜述
12.3.1 PROC步創建
12.3.2 DATA步創建
12.3.3 永久存儲及調用
12.4 正則錶達式
12.4.1 語法說明
12.4.2 常用函數
12.4.3 實例詳解
12.5 宏在SAS與Excel轉換中的應用
12.5.1 SAS數據集轉換成Excel
12.5.2 Excel轉換成SAS數據集
第13章 數據挖掘概念、任務和流程
13.1 數據挖掘概念
13.2 數據挖掘任務
13.3 數據挖掘流程
13.3.1 定義商業目標
13.3.2 編製需求文檔
13.3.3 選擇數據源
13.3.4 建模流程圖
13.4 LOGISTIC建模及結果詳解
13.4.1 數學模型
13.4.2 參數估計
13.4.3 模型評價指標
13.4.4 迴歸係數
13.4.5 變量篩選方法
13.4.6 應用舉例及輸齣結果詳解
13.4.7 多值LOGISTIC模型
第14章 響應模型:定位新客戶
14.1 前期準備
14.1.1 商業需求
14.1.2 定義目標
14.1.3 選擇變量
14.2 數據獲取與數據處理
14.2.1 創建建模數據集
14.2.2 變量首次篩選
14.2.3 數據探索
14.2.4 數據清洗
14.2.5 變量二次篩選
14.2.6 變量三次篩選
14.2.7 字符變量壓縮
14.3 模型開發
14.3.1 全模型法選擇所有候選模型
14.3.2 逐步迴歸法篩選候選模型
14.3.3 創建兩個重要數據集
14.3.4 創建LIFT圖
14.3.5 創建評分卡文件
14.4 模型驗證
14.4.1 評分卡文件導入
14.4.2 LIFT圖比較
14.4.3 模型確認
14.5 模型實施與監控
14.5.1 模型實施
14.5.2 模型監控
14.6 小結
第15章 行為建模:客戶行為屬性分析
15.1 前期準備
15.1.1 商業需求
15.1.2 定義目標
15.1.3 選擇建模方法
15.2 數據獲取與處理
15.3 模型開發
15.4 模型驗證
15.5 模型打分
15.6 模型預測
15.7 模型實施
15.8 小結
第16章 文本挖掘:Web文本分析
16.1 文本挖掘概念與流程
16.1.1 文本挖掘概念
16.1.2 文本挖掘流程
16.2 商業案例
16.2.1 商業需求
16.2.2 建模框架設計
16.2.3 結閤樸素貝葉斯文本分類的EM迭代
16.2.4 數據獲取與數據預處理
……
參考文獻
精彩書摘
6.流失
在商業領域,流失意味著利潤的減少甚至賬戶關閉,主要發生在電信行業和銀行業。由於競爭對手的存在,流失會經常發生。如果能夠通過建立一個比較健壯的流失模型,能夠對那些可能在未來的幾個月內流失的客戶做齣準確的預測,則從營銷角度就可以提前做好一些準備,如通過一些營銷手段來挽留這些客戶。從技術上,流失模型本質上和風險模型是一樣的,隻是目標定義可能會有所不同。一種常見的流失定義是:在過去的6個月內賬戶餘額皇現減少趨勢,並在第6個月餘額低於公司規定的閾值或比例。
注意:響應模型是基於時間點的模型,而風險模型和流失模型是基於時間段的模型。
7.提升銷售和交叉銷售
提升銷售是指預測客戶購買更多同樣産品的可能性。交叉銷售是指預測客戶購買公司不同産品的可能性。提升銷售和交叉銷售對於縱嚮挖掘一個客戶的潛在利潤是非常重要的。從技術上來說,關聯規則也許能夠幫助公司發現客戶的特徵,著名的“啤酒和尿布”就是多數數據挖掘圖書“言必稱希臘”的經典案例,但是在作者看來,“啤酒和尿布”如同“尼斯湖怪獸”一樣並非值得絕對信賴。在提升和交叉銷售領域,更多的關注應該是客戶消費對象本身的關聯性以及客戶的消費心理,這是更偏嚮於定性分析的技術,而不是定量分析的方法。
事實上,以上列舉的商業需求隻是韆韆萬萬個商業需求中的部分代錶,讀者能夠從中得到這樣的啓發:所有的數據挖掘技術都是商業目標的一個實現,或簡單,或復雜。而商業應用的最高原則就是“效率、效果”。
13.3.2.編製需求文檔
在明確瞭商業目標之後,接下來就需要分析師編製需求文檔。需求文檔是商業目標的細化。完整的需求文檔應包括以下幾個部分:
項目計劃文檔(PPT)。
方法論設計文檔(Word)。
變量需求文檔(Excel)。
這三個項目涵蓋瞭商業客戶需求、團隊頭腦風暴成果、項目數據收集指標三個重要內容。
1.項目計劃文檔
項目計劃文檔是指實現客戶需求而製定的需求框架、計劃內容、路綫圖和資源。由於該部分內容主要呈現給商業客戶,因此一般以PPT形式,幻燈片盡量控製在10張以下。
······
前言/序言
當前國內的諸多數據挖掘書籍幾乎都是基於理論說明,很少深入介紹數據挖掘實踐,涉及SAS開發的更是少見。因此,從商業應用齣發,基於實踐而不是基於理論的數據挖掘書籍呼之欲齣。本書作者從商業需求齣發,以商業人士的眼光來看待企業數據挖掘,並給齣大量的商業實踐案例。把主流的數據挖掘技術用真實案例來實現是本書齣版的初衷,同時為瞭滿足初學者需求,作者也給齣瞭數據挖掘必備的基礎編程知識模塊。
全書共分兩部分。第一部分是SAS編程:第1章和第2章主要介紹SAS係統和編程基礎,同時介紹SAS數據處理最核心的內容——數據指針和PDV流程。該核心內容貫穿第一部分,是已齣版的其他SAS圖書沒有的。
第3~9章主要介紹SAS的數據處理技術,也是第一部分的主要內容,包括數據集處理、變量處理和觀測處理等多種數據處理技術,同時也介紹瞭循環控製等稍難的內容,重要的是給齣瞭諸多實際案例及商業應用。盡管第3~9章從錶麵上看和諸多已經齣版的SAS圖書沒有什麼大的不同,但是這些章節最大的亮點是作者對每一個示例和案例從數據指針和PDV流程的角度給予瞭最詳細的程序解讀,讓讀者真正讀懂程序,而不是停留在程序的錶麵。
第10章是第一部分r的難點。作者還是站在商業實踐的角度逐一介紹宏最常用的部分,同時也給齣瞭非常詳細的程序解讀。
第11章介紹SOL過程。有關內容在國內同類書中都齣現過,但是作者獨闢蹊徑,融閤瞭項目實踐中諸多真正有用的語句,同時也給齣瞭諸多開發建議和應注意的問題。
第12章介紹數據處理實踐。該章共包括四個方麵的內容,幾乎都是目前國內沒有齣現過的,如HASH對象及商業應用、正則錶達式等。隨機抽樣也是數據處理經常麵臨的問題,這裏作者開發瞭在SAS係統中如何處理分層不等比例抽樣的代碼,這也是目前國內其他SAS圖書沒有介紹過的。
第二部分是數據挖掘商業案例:
第13章主要介紹數據挖掘概念和流程。數據挖掘流程尤其是商業流程是本章的重點。該流程告訴讀者一個真正的商業數據挖掘流程在商業環境中是如何實施的。
第14章重點介紹響應模型。響應模型是商業實踐中最常用的預測模型,基於第13章的流程規範給齣瞭一個具體的商業案例研究。
第15章是客戶行為分析。該章有目前全球最流行的行為分析,包括“行為年齡”和“行為性彆”(注意完全不同於具有自然屬性特徵的“真實年齡”和“真實性彆”),作者運用NaiveBayesian技術開發齣一整套模型,並對該模型擁有完全自主知識産權。
第16章介紹文本挖掘。該章首先介紹瞭文本挖掘的流程,然後開發齣基於NaiveBayesian文本分類算法和EM迭代思想的大型代碼,並成功應用於商業實踐。
······
SAS編程與數據挖掘商業案例 下載 mobi epub pdf txt 電子書 格式