R語言實戰 第2版pdf

圖書網
圖書網
圖書網
10910
文章
1665
評論
2018年9月1日12:19:45 13 1.4K

大數據時代已經到來,在商業、經濟及其他領域中基于數據和分析去發現問題并作出科學、客觀的決策越來越重要。開源軟件R是世界上流行的數據分析、統計計算及制圖語言,幾乎能夠完成任何數據處理任務,可安裝并運行于所有主流平臺,為我們提供了成千上萬的專業模塊和實用工具,是從大數據中獲取有用信息的絕佳工具,是數據挖掘、數據分析人才的必讀技能。

本書從解決實際問題入手,盡量跳脫統計學的理論闡述來討論R語言及其應用,講解清晰透澈,極具實用性。作者不僅高度概括了R語言的強大功能,展示了各種實用的統計示例,而且對于難以用傳統方法分析的凌亂、不完整和非正態的數據也給出了完備的處理方法。第2版新增6章內容,涵蓋時間序列、聚類分析、分類、高級編程、創建包和創建動態報告等,并分別詳細介紹了如何使用ggplot2和lattice進行高級繪圖。通讀本書,你將全面掌握使用R語言進行數據分析、數據挖掘的技巧,領略大量探索和展示數據的圖形功能,并學會如何撰寫動態報告,從而更加高效地進行分析與溝通。

想要成為備受高科技企業追捧的數據分析師嗎?想要科學分析數據并正確決策嗎?不妨從本書開始,挑戰大數據,用R開始炫酷地統計與分析數據吧!

R語言實戰 第2版 內容簡介

本書注重實用性,是一本全面而細致的R指南,高度概括了該軟件和它的強大功能,展示了使用的統計示例,且對于難以用傳統方法處理的凌亂、不完整和非正態的數據給出了優雅的處理方法。作者不僅僅探討統計分析,還闡述了大量探索和展示數據的圖形功能。新版做了大量更新和修正,新增了近200頁內容,介紹數據挖掘、預測性分析和高級編程。

本書適合數據分析人員及R用戶學習參考。

R語言實戰 第2版 目錄

第一部分 入門

第1章 R語言介紹

1.1 為何要使用R

1.2 R的獲取和安裝

1.3 R的使用

1.3.1 新手上路

1.3.2 獲取幫助

1.3.3 工作空間

1.3.4 輸入和輸出

1.4 包

1.4.1 什么是包

1.4.2 包的安裝

1.4.3 包的載入

1.4.4 包的使用方法

1.5 批處理

1.6 將輸出用為輸入:結果的重用

1.7 處理大數據集

1.8 示例實踐

1.9 小結

第2章 創建數據集

2.1 數據集的概念

2.2 數據結構

2.2.1 向量

2.2.2 矩陣

2.2.3 數組

2.2.4 數據框

2.2.5 因子

2.2.6 列表

2.3 數據的輸入

2.3.1 使用鍵盤輸入數據

2.3.2 從帶分隔符的文本文件導入數據

2.3.3 導入Excel數據

2.3.4 導入XML數據

2.3.5 從網頁抓取數據

2.3.6 導入SPSS數據

2.3.7 導入SAS數據

2.3.8 導入Stata數據

2.3.9 導入NetCDF數據

2.3.10 導入HDF5數據

2.3.11 訪問數據庫管理系統

2.3.12 通過Stat/Transfer導入數據

2.4 數據集的標注

2.4.1 變量標簽

2.4.2 值標簽

2.5 處理數據對象的實用函數

2.6 小結

第3章 圖形初階

3.1 使用圖形

3.2 一個簡單的例子

3.3 圖形參數

3.3.1 符號和線條

3.3.2 顏色

3.3.3 文本屬性

3.3.4 圖形尺寸與邊界尺寸

3.4 添加文本、自定義坐標軸和圖例

3.4.1 標題

3.4.2 坐標軸

3.4.3 參考線

3.4.4 圖例

3.4.5 文本標注

3.4.6 數學標注

3.5 圖形的組合

3.6 小結

第4章 基本數據管理

4.1 一個示例

4.2 創建新變量

4.3 變量的重編碼

4.4 變量的重命名

4.5 缺失值

4.5.1 重編碼某些值為缺失值

4.5.2 在分析中排除缺失值

4.6 日期值

4.6.1 將日期轉換為字符型變量

4.6.2 更進一步

4.7 類型轉換

4.8 數據排序

4.9 數據集的合并

4.9.1 向數據框添加列

4.9.2 向數據框添加行

4.10 數據集取子集

4.10.1 選入(保留)變量

4.10.2 剔除(丟棄)變量

4.10.3 選入觀測

4.10.4 subset()函數

4.10.5 隨機抽樣

4.11 使用SQL語句操作數據框

4.12 小結

第5章 高級數據管理

5.1 一個數據處理難題

5.2 數值和字符處理函數

5.2.1 數學函數

5.2.2 統計函數

5.2.3 概率函數

5.2.4 字符處理函數

5.2.5 其他實用函數

5.2.6 將函數應用于矩陣和數據框

5.3 數據處理難題的一套解決方案

5.4 控制流

5.4.1 重復和循環

5.4.2 條件執行

5.5 用戶自編函數

5.6 整合與重構

5.6.1 轉置

5.6.2 整合數據

5.6.3 reshape2包

5.7 小結

第二部分 基本方法

第6章 基本圖形

6.1 條形圖

6.1.1 簡單的條形圖

6.1.2 堆砌條形圖和分組條形圖

6.1.3 均值條形圖

6.1.4 條形圖的微調

6.1.5 棘狀圖

6.2 餅圖

6.3 直方圖

6.4 核密度圖

6.5 箱線圖

6.5.1 使用并列箱線圖進行跨組比較

6.5.2 小提琴圖

6.6 點圖

6.7 小結

第7章 基本統計分析

7.1 描述性統計分析

7.1.1 方法云集

7.1.2 更多方法

7.1.3 分組計算描述性統計量

7.1.4 分組計算的擴展

7.1.5 結果的可視化

7.2 頻數表和列聯表

7.2.1 生成頻數表

7.2.2 獨立性檢驗

7.2.3 相關性的度量

7.2.4 結果的可視化

7.3 相關

7.3.1 相關的類型

7.3.2 相關性的顯著性檢驗

7.3.3 相關關系的可視化

7.4 t檢驗

7.4.1 獨立樣本的t檢驗

7.4.2 非獨立樣本的t檢驗

7.4.3 多于兩組的情況

7.5 組間差異的非參數檢驗

7.5.1 兩組的比較

7.5.2 多于兩組的比較

7.6 組間差異的可視化

7.7 小結

第三部分 中級方法

第8章 回歸

8.1 回歸的多面性

8.1.1 OLS回歸的適用情境

8.1.2 基礎回顧

8.2 OLS回歸

8.2.1 用lm()擬合回歸模型

8.2.2 簡單線性回歸

8.2.3 多項式回歸

8.2.4 多元線性回歸

8.2.5 有交互項的多元線性回歸

8.3 回歸診斷

8.3.1 標準方法

8.3.2 改進的方法

8.3.3 線性模型假設的綜合驗證

8.3.4 多重共線性

8.4 異常觀測值

8.4.1 離群點

8.4.2 高杠桿值點

8.4.3 強影響點

8.5 改進措施

8.5.1 刪除觀測點

8.5.2 變量變換

8.5.3 增刪變量

8.5.4 嘗試其他方法

8.6 選擇“最佳”的回歸模型

8.6.1 模型比較

8.6.2 變量選擇

8.7 深層次分析

8.7.1 交叉驗證

8.7.2 相對重要性

8.8 小結

第9章 方差分析

9.1 術語速成

9.2 ANOVA模型擬合

9.2.1 aov()函數

9.2.2 表達式中各項的順序

9.3 單因素方差分析

9.3.1 多重比較

9.3.2 評估檢驗的假設條件

9.4 單因素協方差分析

9.4.1 評估檢驗的假設條件

9.4.2 結果可視化

9.5 雙因素方差分析

9.6 重復測量方差分析

9.7 多元方差分析

9.7.1 評估假設檢驗

9.7.2 穩健多元方差分析

9.8 用回歸來做ANOVA

9.9 小結

第10章 功效分析

10.1 假設檢驗速覽

10.2 用pwr包做功效分析

10.2.1 t檢驗

10.2.2 方差分析

10.2.3 相關性

10.2.4 線性模型

10.2.5 比例檢驗

10.2.6 卡方檢驗

10.2.7 在新情況中選擇合適的效應值

10.3 繪制功效分析圖形

10.4 其他軟件包

10.5 小結

第11章 中級繪圖

11.1 散點圖

11.1.1 散點圖矩陣

11.1.2 高密度散點圖

11.1.3 三維散點圖

11.1.4 旋轉三維散點圖

11.1.5 氣泡圖

11.2 折線圖

11.3 相關圖

11.4 馬賽克圖

11.5 小結

第12章 重抽樣與自助法

12.1 置換檢驗

12.2 用coin包做置換檢驗

12.2.1 獨立兩樣本和K樣本檢驗

12.2.2 列聯表中的獨立性

12.2.3 數值變量間的獨立性

12.2.4 兩樣本和K樣本相關性檢驗

12.2.5 深入探究

12.3 lmPerm包的置換檢驗

12.3.1 簡單回歸和多項式回歸

12.3.2 多元回歸

12.3.3 單因素方差分析和協方差分析

12.3.4 雙因素方差分析

12.4 置換檢驗點評

12.5 自助法

12.6 boot.包中的自助法

12.6.1 對單個統計量使用自助法

12.6.2 多個統計量的自助法

12.7 小結

第四部分 高級方法

第13章 廣義線性模型

13.1 廣義線性模型和glm()函數

13.1.1 glm()函數

13.1.2 連用的函數

13.1.3 模型擬合和回歸診斷

13.2 Logistic回歸

13.2.1 解釋模型參數

13.2.2 評價預測變量對結果概率的影響

13.2.3 過度離勢

13.2.4 擴展

13.3 泊松回歸

13.3.1 解釋模型參數

13.3.2 過度離勢

13.3.3 擴展

13.4 小結

第14章 主成分分析和因子分析

14.1 R中的主成分和因子分析

14.2 主成分分析

14.2.1 判斷主成分的個數

14.2.2 提取主成分

14.2.3 主成分旋轉

14.2.4 獲取主成分得分

14.3 探索性因子分析

14.3.1 判斷需提取的公共因子數

14.3.2 提取公共因子

14.3.3 因子旋轉

14.3.4 因子得分

14.3.5 其他與EFA相關的包

14.4 其他潛變量模型

14.5 小結

第15章 時間序列

15.1 在R中生成時序對象

15.2 時序的平滑化和季節性分解

15.2.1 通過簡單移動平均進行平滑處理

15.2.2 季節性分解

15.3 指數預測模型

15.3.1 單指數平滑

15.3.2 Holt指數平滑和Holt-Winters指數平滑

15.3.3 ets()函數和自動預測

15.4 ARIMA預測模型

15.4.1 概念介紹

15.4.2 ARMA和ARIMA模型

15.4.3 ARIMA的自動預測

15.5 延伸閱讀

15.6 小結

第16章 聚類分析

16.1 聚類分析的一般步驟

16.2 計算距離

16.3 層次聚類分析

16.4 劃分聚類分析

16.4.1 K均值聚類

16.4.2 圍繞中心點的劃分

16.5 避免不存在的類

16.6 小結

第17章 分類

17.1 數據準備

17.2 邏輯回歸

17.3 決策樹

17.3.1 經典決策樹

17.3.2 條件推斷樹

17.4 隨機森林

17.5 支持向量機

17.6 選擇預測效果最好的解

17.7 用rattle包進行數據挖掘

17.8 小結

第18章 處理缺失數據的高級方法

18.1 處理缺失值的步驟

18.2 識別缺失值

18.3 探索缺失值模式

18.3.1 列表顯示缺失值

18.3.2 圖形探究缺失數據

18.3.3 用相關性探索缺失值

18.4 理解缺失數據的來由和影響

18.5 理性處理不完整數據

18.6 完整實例分析(行刪除)

18.7 多重插補

18.8 處理缺失值的其他方法

18.8.1 成對刪除

18.8.2 簡單(非隨機)插補

18.9 小結

第五部分 技能拓展

第19章 使用ggplot2進行高級繪圖

19.1 R中的四種圖形系統

19.2 ggplot2包介紹

19.3 用幾何函數指定圖的類型

19.4 分組

19.5 刻面

19.6 添加光滑曲線

19.7 修改ggplot2圖形的外觀

19.7.1 坐標軸

19.7.2 圖例

19.7.3 標尺

19.7.4 主題

19.7.5 多重圖

19.8 保存圖形

19.9 小結

第20章 高級編程

20.1 R語言回顧

20.1.1 數據類型

20.1.2 控制結構

20.1.3 創建函數

20.2 環境

20.3 面向對象的編程

20.3.1 泛型函數

20.3.2 S3模型的限制

20.4 編寫有效的代碼

20.5 調試

20.5.1 常見的錯誤來源

20.5.2 調試工具

20.5.3 支持調試的會話選項

20.6 深入學習

20.7 小結

第21章 創建包

21.1 非參分析和npar包

21.2 開發包

21.2.1 計算統計量

21.2.2 打印結果

21.2.3 匯總結果

21.2.4 繪制結果

21.2.5 添加樣本數據到包

21.3 創建包的文檔

21.4 建立包

21.5 深入學習

21.6 小結

第22章 創建動態報告

22.1 用模版生成報告

22.2 用R和Markdown創建動態報告

22.3 用R和LaTeX創建動態報告

22.4 用R和Open Document創建動態報告

22.5 用R和Microsotft Word創建動態報告

22.6 小結

第23章 使用lattice進行高級繪圖

23.1 lattice包

23.2 調節變量

23.3 面板函數

23.4 分組變量

23.5 圖形參數

23.6 自定義圖形條帶

23.7 頁面布局

23.8 深入學習

附錄A 圖形用戶界面

附錄B 自定義啟動環境

附錄C 從R中導出數據

附錄D R中的矩陣運算

附錄E 本書中用到的擴展包

附錄F 處理大數據集

附錄G 更新R

后記:探索R的世界

參考文獻

R語言實戰 第2版 精彩文摘

在這個案例中,這些分類器(邏輯回歸、傳統決策樹、條件推斷樹、隨機森林和支持向量機)都表現得相當不錯。不過在現實中并不總是這樣。

在這個案例中,隨機森林的表現相對更好。不過各個分類器的差距較小,因此隨機森林的優勢可能具有一定的偶然性。隨機森林成功鑒別了99%的惡性樣本和98%的良性樣本,總體來說預測準確率高達99%。96%被判為惡性組織的樣本單元確實是惡性的(即4%正例錯誤率),99%被判為良性組織的樣本單元確實是良性的(即1%負例錯誤率)。從癌癥診斷的角度來說,特異性(即成功鑒別惡性樣本的概率)這一指標格外重要。

我們也可以從特異性和敏感度的權衡中提高分類的性能,但這不在本書的范圍之內。在邏輯回歸模型中,predict()函數可以估計一個樣本單元為惡性組織的概率。如果這一概率值大于0.5,則分類器會把這一樣本單元判為惡性。這個0.5即閾值(threshold)或門檻值(cutoff value),通過變動這一閾值,我們可以通過犧牲分類器的特異性來增加其敏感度。這同樣適用于決策樹、隨機森林和支持向量機(盡管語句寫法上會有差別)。

變動閾值可能帶來的影響可以通過ROC(Receiver Operating Characteristic)曲線來進一步觀察。ROC曲線可對一個區間內的門檻值匭出特異性和敏感度之間的關系,然后我們就能針對特定問題選擇特異性和敏感度的組合。許多R包都可以畫ROC曲線,如ROCR、pROC等。這些R包中的函數能幫助我們在面對不同問題時,通過比較不同算法的ROC曲線選擇最有效的算法。細節見Kuhn&Johnson(2013),更詳盡的討論見Fawcett(2005)。

到目前為止,我們都是通過執行命令行代碼的方式調用這些分類方法。下一節中,我們將介紹一個圖像式交互界面,并在可視界面上生成、應用這些預測模型。

圖書網:R語言實戰 第2版pdf

繼續閱讀
資源地址:用心發表評論,說說你的看法,就能獲取資源地址。
  • 我的微信
  • 掃一掃加好友
  • weinxin
  • 微信公眾號
  • 掃一掃關注
  • weinxin
C++覆轍錄pdf 程序設計

C++覆轍錄pdf

C++覆轍錄 作者:(美)STEPHEN C. DEWHURST C++覆轍錄 出版社:人民郵電出版社 C++覆轍錄 內容簡介 《C++覆轍錄》是C++大師Stephen C. Dewhurst根據多...
JRockit權威指南 深入理解JVMpdf 程序設計

JRockit權威指南 深入理解JVMpdf

作為曾經的三大主流Java虛擬機之一,JRockit展示了強大的伸縮性和高勁的性能,現在雖已被內置于Oracle融合中間件中,但JVM原理以及JMC工具等內容是相通的。 本書由JR...
iOS 11 開發指南pdf 程序設計

iOS 11 開發指南pdf

iOS 11 開發指南 作者:管蕾 iOS 11 開發指南 出版社:人民郵電出版社 iOS 11 開發指南 內容簡介 本書循序漸進地講解了iOS 11應用開發的知識。書中從搭建開發環境講起,依次講解了...
零起點Python足彩大數據與機器學習實盤分析pdf 程序設計

零起點Python足彩大數據與機器學習實盤分析pdf

適讀人群 : 足球愛好者、博彩愛好者,數據分析從業人員、數學、統計、計算機專業學生。 采用MBA個案模式,配合Python教學代碼,由淺入深,結合實盤案例,舉一反三。無須專業編程基...
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

評論:13   其中:訪客  13   博主  0
    • xiaofanyu xiaofanyu 0

      非常好的一本書

      • 機 9

        不錯

        • 機 9

          非常好??

          • Lee Lee 0

            非常好,剛好需要~

            • 歡樂馬 歡樂馬 9

              mark一下

              • 宋茜 宋茜 9

                非常好

                • 小寫字母 小寫字母 9

                  找了半天全有密碼

                  • 哈東 哈東 9

                    很好

                    • 貝 9

                      謝謝分享~

                      • nononee nononee 1

                        非常好