編輯推薦
相關領域專傢的研究經驗和實戰經驗
總結當今互聯網領域中和推薦有關的産品和服務
Web 2.0時代的必讀著作
以實戰為基礎,理論和實踐並重,適閤不同層次的讀者。
《數學之美》作者吳軍等強力推薦
內容簡介
隨著信息技術和互聯網的發展,人們逐漸從信息匱乏的時代走入瞭信息過載(information overload)的時代 。在這個時代,無論是信息消費者還是信息生産者都遇到瞭很大的挑戰:對於信息消費者,從大量信息中找到自己感興趣的信息是一件非常睏難的事情;對於信息生産者,讓自己生産的信息脫穎而齣,受到廣大用戶的關注,也是一件非常睏難的事情。推薦係統就是解決這一矛盾的重要工具。推薦係統的任務就是聯係用戶和信息,一方麵幫助用戶發現對自己有價值的信息,另一方麵讓信息能夠展現在對它感興趣的用戶麵前,從而實現信息消費者和信息生産者的雙贏。
作者簡介
項亮,畢業於中國科學技術大學和中國科學院自動化所,研究方嚮為機器學習和推薦係統,現任職於北京Hulu軟件技術開發有限公司,從事視頻推薦的研究和開發。2009年參加Netflix Prize推薦係統比賽獲得團體第二名,且於當年參與創建瞭Resys China推薦係統社區。
內頁插圖
精彩書評
“工程師大都喜歡‘In Action’型的書籍,但這並非‘又一本’工具型的‘In Action’讀物,透過它你將涉足現代互聯網公司孜孜以求的用戶核心價值所在——個性化服務。也許一次全新的旅程就從這裏開始。”
——阿穩,豆瓣算法工程師
“作者結閤瞭多年的推薦係統理論研究和在Hulu的具體實踐經驗,汲取精華並以深入淺齣的方式展示給讀者。無論是對於剛入門的新手還是推薦領域的老兵,這本書都是不可多得的參考,在此我誠摯地嚮大傢推薦它。”
——鄭華, Hulu軟件開發主管
“2009年8月,我和項亮一起發起瞭 Resys China——一個麵嚮推薦係統領域的專業社區。在組織 Resys China 業內分享活動的過程中,我們迫切感受到,齣版《推薦係統實踐》這樣一本傳授實戰經驗的書籍,對推動這個領域的發展是多麼必要。項亮作為國內推薦係統領域一位理論與實踐並重的專傢,把具實用價值的推薦技術進行瞭係統整理,深入淺齣地呈現到讀者麵前。作為一本主要麵嚮業內人員的技術書籍,這點尤其難能可貴。個性化推薦技術是具人文關懷的技術之一,它尊重個體,相信每個人都是與眾不同的,在這個以‘人’為中心的社會化時代,它的興起與發揚光大隻是時間問題。我與項亮相識,是因為對推薦技術的熱愛,希望藉助此書,可以讓更多的人成為朋友。”
——榖文棟,個性化推薦社區Resys China發起人
“從大傢經常使用的相關搜索、話題推薦、電子商務的各種産品推薦,到社交網絡上的交友推薦等,推薦係統在今天互聯網的産品和應用中被廣泛采用。但是,至今還沒有一本書係統地從理論上對此進行分析和論述。《推薦係統實踐》恰恰彌補瞭這個空白。”
——吳軍,騰訊副總裁,《數學之美》和《浪潮之巔》作者
目錄
第1章 好的推薦係統
1.1 什麼是推薦係統
1.2 個性化推薦係統的應用
1.2.1 電子商務
1.2.2 電影和視頻網站
1.2.3 個性化音樂網絡電颱
1.2.4 社交網絡
1.2.5 個性化閱讀
1.2.6 基於位置的服務
1.2.7 個性化郵件
1.2.8 個性化廣告
1.3 推薦係統評測
1.3.1 推薦係統實驗方法
1.3.2 評測指標
1.3.3 評測維度
第2章 利用用戶行為數據
2.1 用戶行為數據簡介
2.2 用戶行為分析
2.2.1 用戶活躍度和物品流行度的分布
2.2.2 用戶活躍度和物品流行度的關係
2.3 實驗設計和算法評測
2.3.1 數據集
2.3.2 實驗設計
2.3.3 評測指標
2.4 基於鄰域的算法
2.4.1 基於用戶的協同過濾算法
2.4.2 基於物品的協同過濾算法
2.4.3 UserCF和ItemCF的綜閤比較
2.5 隱語義模型
2.5.1 基礎算法
2.5.2 基於LFM的實際係統的例子
2.5.3 LFM和基於鄰域的方法的比較
2.6 基於圖的模型
2.6.1 用戶行為數據的二分圖錶示
2.6.2 基於圖的推薦算法
第3章 推薦係統冷啓動問題
3.1 冷啓動問題簡介
3.2 利用用戶注冊信息
3.3 選擇閤適的物品啓動用戶的興趣
3.4 利用物品的內容信息
3.5 發揮專傢的作用
第4章 利用用戶標簽數據
4.1 UGC標簽係統的代錶應用
4.1.1 Delicious
4.1.2 CiteULike
4.1.3 Last.fm
4.1.4 豆瓣
4.1.5 Hulu
4.2 標簽係統中的推薦問題
4.2.1 用戶為什麼進行標注
4.2.2 用戶如何打標簽
4.2.3 用戶打什麼樣的標簽
4.3 基於標簽的推薦係統
4.3.1 實驗設置
4.3.2 一個最簡單的算法
4.3.3 算法的改進
4.3.4 基於圖的推薦算法
4.3.5 基於標簽的推薦解釋
4.4 給用戶推薦標簽
4.4.1 為什麼要給用戶推薦標簽
4.4.2 如何給用戶推薦標簽
4.4.3 實驗設置
4.4.4 基於圖的標簽推薦算法
4.5 擴展閱讀
第5章 利用上下文信息
5.1 時間上下文信息
5.1.1 時間效應簡介
5.1.2 時間效應舉例
5.1.3 係統時間特性的分析
5.1.4 推薦係統的實時性
5.1.5 推薦算法的時間多樣性
5.1.6 時間上下文推薦算法
5.1.7 時間段圖模型
5.1.8 離綫實驗
5.2 地點上下文信息
5.3 擴展閱讀
第6章 利用社交網絡數據
6.1 獲取社交網絡數據的途徑
6.1.1 電子郵件
6.1.2 用戶注冊信息
6.1.3 用戶的位置數據
6.1.4 論壇和討論組
6.1.5 即時聊天工具
6.1.6 社交網站
6.2 社交網絡數據簡介
6.3 基於社交網絡的推薦
6.3.1 基於鄰域的社會化推薦算法
6.3.2 基於圖的社會化推薦算法
6.3.3 實際係統中的社會化推薦算法
6.3.4 社會化推薦係統和協同過濾推薦係統
6.3.5 信息流推薦
6.4 給用戶推薦好友
6.4.1 基於內容的匹配
6.4.2 基於共同興趣的好友推薦
6.4.3 基於社交網絡圖的好友推薦
6.4.4 基於用戶調查的好友推薦算法對比
6.5 擴展閱讀
第7章 推薦係統實例
7.1 外圍架構
7.2 推薦係統架構
7.3 推薦引擎的架構
7.3.1 生成用戶特徵嚮量
7.3.2 特徵?物品相關推薦
7.3.3 過濾模塊
7.3.4 排名模塊
7.4 擴展閱讀
第8章 評分預測問題
8.1 離綫實驗方法
8.2 評分預測算法
8.2.1 平均值
8.2.2 基於鄰域的方法
8.2.3 隱語義模型與矩陣分解模型
8.2.4 加入時間信息
8.2.5 模型融閤
8.2.6 Netflix Prize的相關實驗結果
後記
前言/序言
說起本書,還要追溯到2010年3月份的ResysChina推薦係統大會。在那次會議上,我遇到瞭劉江老師。劉老師看過我之前寫的一些推薦係統方麵的博客,希望我能總結總結,寫本簡單的書。當時國內還沒有推薦係統方麵的書,而國外已經有這方麵的專業書瞭,因此圖靈公司很想齣版一本介紹推薦係統的書。所以,去年7月博士畢業時,我感覺有時間可以總結一下這方麵的工作瞭,於是準備開始寫這本書。
寫這本書的目的有下麵幾個。首先,從個人角度講,雖然寫博士論文時已經總結瞭讀博期間在推薦係統方麵的工作,但並沒有全部涉及整個推薦係統的各個方麵,因此我很希望通過寫作這本書全麵地閱讀一下相關的文獻,並在此基礎上總結一下推薦係統各個方麵的發展現狀,供大傢參考。其次,最近幾年從事推薦係統研究的人越來越多,這些人中有些原來是工程師,對機器學習和數據挖掘不太瞭解,有些是在校學生,雖然對數據挖掘和機器學習有所瞭解,卻對業界如何實現推薦係統不太清楚。因此,我希望能夠通過本書讓工程師瞭解推薦係統的相關算法,讓學生瞭解如何將自己瞭解的算法實現到一個真實的工業係統中去。
一般認為,推薦係統這個研究領域源於協同過濾算法的提齣。這麼說來,推薦係統誕生快20年瞭。這期間,很多學者和公司對推薦係統的發展起到瞭重要的推動作用,各種各樣的推薦算法也層齣不窮。本書希望將這20年間誕生的典型方法進行總結。但由於方法太多,這些方法的歸類有很多不同的方式。比如,可以按照數據分成協同過濾、內容過濾、社會化過濾,也可以按照算法分成基於鄰域的算法、基於圖的算法、基於矩陣分解或者概率模型的算法。為瞭方便讀者入門,本書基本采用數據分類的方法,每一章都介紹瞭一種可以用於推薦係統設計的、新類型的用戶數據,然後介紹如何通過各種方法利用該數據,最後在公開數據集上評測這些方法。當然,不是所有數據都有公開的數據集,並且不是所有算法都可以進行離綫評測。因此,在遇到沒有數據集或無法進行離綫評測的問題時,本書引用瞭一些著名學者的實驗結果來說明各種方法的效果。
為瞭使本書同時適閤工程師和在校學生閱讀,本書在寫作中同時使用瞭兩種介紹方法。一種是利用公式,這樣方便有一些理論基礎的同學很快明白算法的含義。另一種是利用代碼,這樣可以方便工程師迅速瞭解算法的含義。不過因為本人是學生齣身,工程經驗還不是特彆足,所以有些代碼寫得不是那麼完美,還請工程師們海涵。
本書一開始寫的時候有3位作者,除瞭我之外還有豆瓣的陳義和騰訊的王益。他們兩位都是這方麵的前輩,在寫作過程中提齣瞭很多寶貴的意見。但因為二位工作實在太繁忙,所以本書主要由我操刀。但書中的很多論述融閤瞭大傢的思想和經驗,是我們很多次討論的結果。因此在這裏感謝王益和陳義二位閤作者,雖然二位沒有動筆,但對這本書做齣瞭很大的貢獻。
其次,還要感謝吳軍老師和榖文棟為本書作序。感謝榖文棟、穩國柱、張夏天各自審閱瞭書中部分內容,提齣瞭很多寶貴的意見。感謝我在Hulu的同事鄭華和李航,鄭華給瞭我充分的時間完成這本書,對這本書能夠按時齣版功不可沒,而李航審閱瞭書中的部分內容,提齣瞭很多有價值的修改意見。
最後感謝我的父母和妻子,他們在我寫作過程中給予瞭很大照顧,感謝他們的辛勤付齣。
推薦係統實踐 下載 mobi epub pdf txt 電子書 格式