近年,對大數據底層設計、數據清洗、數據挖掘及大數據安全等相關人才的需求急劇上升,可以說占據了大數據人才需求的80%以上。比如數據清洗、數據挖掘等相關職位,需要源源不斷的大量專科人才。
2018年1月18日,教育部公布“大數據技術與應用”專業備案和審批結果,208所職業院校獲批“大數據技術與應用”專業。截至目前,已有270所高職院校成功申報“大數據技術與應用”專業。

在準確的趨勢預測下,清華大學博士、南京大數據研究院院長劉鵬教授早在2016年就開始策劃用于高職高專的教材,而這套面向全國高職高專人才的大數據教材較近將陸續面世。
清華大學出版社王莉編輯如此評價:劉鵬教授的這套教材選題比較獨特,目的就是為了培養大數據基礎人才,所以,這套教材考慮未來高知高專大數據人才的就業需求情況,選擇了一些非常有特色的選題,例如,《大數據系統運維》是為今后高職高專的大數據人才從事大數據系統的維護工作所編寫;《數據清洗》是針對市場上需要大量的做數據清洗的工作而設計;《大數據實踐》是為了培養高職高專的學生盡快上手、游刃有余操作大數據主流軟件的能力而編寫的;《大數據導論》 介紹了大數據的基礎知識。同時,還有一些拔高的課程教材,例如,《R語言》和《數據挖掘基礎》是為了提升大數據人才的數據分析能力而編寫的。為了更好的推廣這套教材,我們準備舉辦幾屆針對高職高專院校或應用型本科院校的培訓班。
考慮到大數據人才未來要做具體的大數據基礎工作,本套叢書的講解側重于應用,對知識點給出具體的操作,并且有配套的動手實驗。內容安排遵循從簡單到復雜、從理論到實踐的學習過程;同時也遵循系統性和覆蓋面寬的原則。本套叢書可以作為培養應用型人才的課程教材,也同樣適用于有意從事大數據系統基礎工作的IT從業人員作為參考書。“千里之行,始于足下”,“不積跬步無以至千里”,希望大數據應用型人才從一開始就能有一個 良好的基礎,本套叢書在起跑線上為你助力。
具體而言,本套叢書包括《大數據導論》、《云計算導論》、《數據挖掘基礎》、《R語言》、《數據清洗》、《大數據實踐》、《大數據系統運維》等專業教材。
《大數據導論》

《大數據導論》是了解和學習大數據的基礎條件,通過本書了解大數據基本概念,大數據的架構,大數據的采集方式和預處理,常用的ETL工具,簡單熟悉數據倉庫的構建模式,大數據的存儲,數據挖掘的方法,以及大數據的可視化技術,從而更好的將大數據技術應用在各行業領域,更深入地開展大數據技術的應用研究。從基礎開始,通過理論與實際案例相結合,幫助讀者由淺入深進行學習,逐步清理大數據的核心技術和發展趨勢。本書可以作為培養應用型人才的課程教材,也適用于初學入門者,對大數據基礎理論有需求的廣大讀者。
《云計算導論》

本書主要內容包括云計算的基本概念、發展現狀、主要平臺的部署及關鍵技術、虛擬化與容器技術、云計算的實用化、國內外云計算服務與大規模應用、環境云(envicloud.cn)和萬物云(wanwuyun.com)典型行業應用介紹與剖析等內容,適用于應用型本科、高職高專院校的云計算課程和教學。本書的實驗環境部署通過云創大數據實驗平臺(https://bd.cstor.cn)上遠程開展。
《數據挖掘基礎》

本書介紹了數據挖掘的基本概念,包括數據挖掘的常用算法、常用工具、用途和應用場景及應用狀況,講述了常用數據挖掘方法,如分類、聚類、關聯規則的概念、思想、典型算法、應用場景等。此外,本書還從實際應用從發,講解了基于日志的大數據挖掘技術的原理、工具、應用場景和成功案例。通過以上內容的學習,讀者將了解數據挖掘的基本概念、思想和算法,并掌握其應用要領。本書可以作為培養應用型人才的課程教材,也可作為相關開發人員的自學教材和參考手冊。
《R語言》

近年來,R語言可謂是數據分析的熱門語言,相關的資料五花八門,讓讀者無所適從,本書力求用簡潔、精煉、理論實踐相結合的方式讓大家快速掌握R語言。全書共17章,分為基礎篇(第2-10章),應用篇(第11-15章)和進階篇(第16-17章)。基礎篇按照數據分析過程,主要討論了R數據結構、數據導入/導出、數據清洗、數據變換、可視化、高級語言編程和常用建模方法。應用篇通過對5個經典案例的分析,使讀者能夠把學到的R基礎知識應用到解決實際問題,把數據變成價值。進階篇解決如何用R處理大數據的一些技術。本書可以作為培養應用型人才的課程教材,也可作為數據分析愛好者的參考資料。
《數據清洗》

數據清洗是大數據領域不可缺少的環節,用來發現并糾正數據中可能存在的錯誤。該步驟針對數據審查過程中發現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進行“清理”,使“臟”數據變為“干凈”數據。本書共分為8章:第1章主要介紹數據清洗的概念、任務和流程,數據標準化概念及數據倉庫技術等;第2章主要介紹Windows和類UNIX操作系統下的數據常規格式、數據編碼及數據類型轉換等;第3章介紹ETL概念、數據清洗的技術路線、ETL工具及ETL子系統等;第4章介紹了Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗和數據錯誤處理,數據質量評估及數據加載;第7章介紹網頁結構,利用網絡爬蟲技術進行數據采集,利用JavaScript技術進行行為日志數據采集等;第8章介紹RDBMS的數據清洗方法和數據脫敏處理技術等。本書系統地講解了數據清洗理論和實際應用,可以作為培養應用型人才的課程教材,也適用于希望了解數據清洗的廣大讀者。
《大數據實踐》

本書內容涵蓋了目前使用廣泛的大數據處理系統Hadoop生態圈中的幾大核心軟件系統:分布式大數據處理系統Hadoop、Hadoop數據庫HBase、數據倉庫工具Hive、內存大數據計算框架Spark和Spark SQL,詳細介紹了它們的架構、工作原理、部署方法、常用配置、常用操作命令、SQL引擎等內容。本書對上述幾大系統的各種安裝部署方式都給出了詳細步驟,常用命令也都有具體示例介紹,是一本實操性很強的工具書,能幫助初學者快速掌握和操作這幾款常用的大數據處理系統。本書以淺顯易懂的語言風格和圖文并茂的操作示例引領讀者邁入大數據實踐之門,可以作為培養應用型人才的課程教材,也可作為相關開發人員的自學教材和參考手冊。
《大數據系統運維》

本書是大數據應用人才培養系列教材中的一冊,講解了大數據系統運行維護過程中的各個主要階段及其任務,包括配置管理、系統管理、故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務資源管理,內容 且翔實,兼具基礎理論知識與運維實踐經驗,特別是重點介紹了大數據系統的運維特點及運維技能,以保障大數據系統的穩定 運行,更好地支撐大數據的商業應用價值。本書具有很強的系統性和實踐指導性,可以作為培養應用型人才的課程教材,也同樣適合于有意從事IT系統運維工作的廣大從業者和愛好者作為參考書。
本套叢書將于近期陸續面世,歡迎持續關注“劉鵬看未來(ID:lpoutlook)”!
