令人愉快的雙贏設計 路易斯·馮·安(Luis Von Ahn)的外錶與行為和大身邊典型的美大學生沒什麼兩樣。他喜歡打電子遊戲,喜歡飛快地駕駛他的藍色跑車,他像現代的湯姆·索亞(Tom Sawyer),熱衷於差遣彆人替他做事。但是人不可貌相,實際上,馮·安是世界上傑齣的計算機科學教授之一,而幫他做過事的,足足有10億人。 10年前,22歲的研究生馮·安參與創造瞭一項名為CAPTCHAs的技術,要求人們在注冊電子郵件等網絡應用時輸入彎彎麯麯的文字,以證明進行此操作的是人類而非惡意灌水的程序。馮·安把CAPTCHAs的升級版(reCAPTCHA)賣給瞭榖歌,這個版本要求人們輸入扭麯文字的目的不僅是作驗證,更主要的目的,是為瞭破解“榖歌圖書掃描計劃”中那些計算機難以識彆的文字。這是個聰明的做法,發揮瞭一項數據的兩種作用:在綫注冊的同時識彆文字。 在那之後,成為卡內基梅隆大學(Carnegie Mellon University)教授的馮·安開始尋覓更多的“一石二鳥之計”——使人們提供的零散數據為兩種目的服務。於是,在2012年,他啓動瞭新的設計——多鄰(Duolingo),通過網站和智能手機APP幫助人們學習外語。作為一個幼年在危地馬拉學習英語的人,馮·安對學習外語抱有共鳴,而更重要的是,多鄰的教學方式非常巧妙。 它要求人們在同一時間翻譯一些較短的詞組,或者評價和修正其他人的翻譯。不同於一般翻譯軟件呈現其自創詞組的做法,多鄰呈現的是需要翻譯的文檔中的真實句子,因此公司能夠從中獲取報酬。一旦有足夠的學習者能夠翻譯或驗證特定詞組,係統會接受他們的譯文,並收集所有零散的句子,將其整閤到完整的文檔之中。 多鄰的客戶包括N和BuzzFeed等媒體公司,後者通過多鄰的服務,翻譯用於其海外市場的相關內容。和reCAPTCHA一樣,多鄰也是個令人愉快的“雙贏”技術:學習者免費獲得外語學習指導,同時製造具有經濟價值的産物作為迴報。 此外,還有第三個益處,那是多鄰收集的“數據尾氣”(data exhaust),即由人們與網站之間的互動中衍生的副産品:如熟練掌握一門語言的某一方麵需要多長時間、閤適的習題量是多少、落下幾天進度的後果等等。馮·安意識到,所有這些數據都可以采取某種方式加以處理,從而揭示齣促進人們學習的佳策略。在非數據環境中,做到這一點並不容易。然而,對於2013年間的每都有大約100萬訪問者,並且人均花費30多分鍾用於綫上學習的多鄰來說,巨大的用戶數量足以支撐此類研究。 馮·安重要的發現是:關於“人們怎樣學得好”的問題是錯誤的。重點不在於“人”怎樣學得好,而是具體的“哪個”人。對此,他解釋說,針對佳語言學習方法的實證研究數量很少,比方說,在許多理論中,主張先教形容詞,再教副詞,但幾乎沒有確鑿的數據支撐。他指齣,即使存在相關數據,通常也是針對數百名學生的小規模研究所得,將之作為普遍的研究發現加以推廣,終究是不可靠的。為什麼不以多年來數以韆萬的學習者為研究對象得齣結論呢?多鄰的齣現,使這樣的研究成為可能。 馮·安在處理數據的過程中得到瞭一個重要的發現,即語言教學手段有效與否取決於學習者的母語以及他們將要學習的語言。以西班牙語使用者為例,通常,他們在學習英語的初階段會接觸到“he”“she”和“it”等代詞。然而馮·安卻發現,“it”一詞容易引起他們的迷惑和焦慮,原因是“it”很難翻譯成西班牙語。於是馮安進行瞭幾次測試,隻教“he”和“she”,直到數周後堅持學習而不放棄的人數顯著增加,再開始“it”一詞的教學。這樣能顯著提高堅持學習的人數。 他還有一些發現是有悖直覺的:女性的體育術語學得更好;男性更擅長學習與烹調和食物相關的單詞;在意大利,女性總體來說比男性在英語學習上錶現得更齣色。許多類似的發現始終在不斷湧現。 多鄰的故事為我們呈現瞭大數據重塑教育的有前景的方式之一。其中反映瞭大數據改善學習的三大核心要素:反饋、個性化和概率預測。 無法駁斥的大數據預測 第二個威脅也同樣嚴峻。以所有人為對象收集到的全麵教育數據,將用於對未來進行預測:我們以這樣的速度、按這樣的順序學習;我們隻有在晚上8點至9點間復習學習材料,纔能有90%的可能性得到B,如果復習得早瞭,其可能性將會降至50%;等等。諸如此類的概率預測將會限製“學習自由”,並有可能終威脅到我們對生活中機遇的獲取。 大數據蘊含的巨大潛力在於推進個性化學習、改善教材和教學,並終提高學生的成績。數據被視為促進産品改良的反饋,而不是對産品使用者進行簡單評價的依據。在,被收集的有限數據幾乎都是用來評價學生的,即學習中的“消費者”。 我們評估可能的方案和潛在的成:從高中提升課程的受理到高校錄取,再到研究生院的入學。但是此類基於有限數據的小數據預測,充滿瞭不確定性,因此招生委員會對這些數據的處理極其謹慎。委員們認識到數據展示的內容並不完善——那些以高分通過SAT考試的自大狂並不是憑藉真纔實學,而僅僅是因為記住瞭復習指南——便積極地增加評估的主觀性,當他們意識到依賴數據可能造成以偏概全的結果時,會將主觀判斷置於數據決斷之前。 然而,大數據時代的預測度將遠遠超過現在。這嚮招生委員會和招聘人員等決策製定者施加瞭更多的壓力,使其更傾嚮於相信基於大數據的預測。在過去,我們可以辯稱所屬的分組不是特彆適閤自己,為某種情況找到開脫的理由。比如,我們有可能被分到“好學生,但是搞不定統計課”的群組中,並終因此被經濟學專業拒之門外。但是我們仍然可以憑藉這樣的解釋說服彆人:基於這一分組的預測於我們而言是不正確的,所以即使同組的其他成員會失敗,我們還是有可能獲得成功。因為該預測是基於“小數據”作齣的,決策製定者往往傾嚮於相信當事人是“無辜”的,而當事人能夠通過協商為自己辯解。 而新的威脅在於,基於大數據的預測是如此準確、個性化程度如此之高,我們將不再因為名義上所屬的分組,而是實實在在的“自己”被問責。因此,任何藉口都可能不足以說服決策製定者站在我們這一邊。事實上,任人來作判定有可能完全地從決策過程中移除,取而代之是以機器算法為基礎的操作,包括讀取電子數據錶、計算概率並作齣有約束力的決定,而這一係列操作僅需耗時幾毫秒。 比如說,一些大學正在開展“電子顧問”(e-advisors)的實驗,這款大數據軟件係統通過數字處理提升學生的畢業率。自2007年亞利桑那大學采用該係統至今,學生順利升學的比例已由77%上升到84%。在田納西州的奧斯汀州立大學,當學生選修“學位羅盤”(Degree Compass)軟件嚮其推薦的課程後,他們有90%的可能性得到與軟件預測一緻的B以上的高分,而沒有獲益於“學位羅盤”的學生,獲得同樣分數的比例僅占60%。 |