R數據科學[R for Data Science]pdf

圖書網
圖書網
圖書網
11145
文章
1726
評論
2018年12月24日11:59:41 7 1K

適讀人群 :R數據科學家

R社區領軍人物作品,從典型數據科學項目所需工具模型著手,帶領讀者掌握R語言精華,學會熟練使用多種工具解決各種數據科學難題。

·探索——以可視化作為R編程起點,再進行重要變量選取、篩選關鍵觀測等重要數據操作,并對數據提出問題且找到答案。

·處理——導入、整理并轉換數據。

·編程——管道操作的工作原理和替代方式,函數使用規則,如何實現迭代。

·模型——深刻理解模型背后的數學理論和數據,直觀認識統計模型工作原理。

·溝通——學會R Markdown,讓人們快速輕松理解你的工作。

R數據科學[R for Data Science] 內容簡介

本書的目標是教會讀者使用重要的數據科學工具,從而為實施數據科學奠定堅實的基礎。 讀完本書后,你將掌握R語言的精華,并能夠熟練使用多種工具來解決各種數據科學難題。每一章都按照這樣的順序組織內容:先給出一些引人入勝的示例,以便你可以整體了解這一章的內容,然后再深入細節。本書的每一節都配有習題,以幫助你實踐所學到的知識。

本書適合R數據科學家閱讀

R數據科學[R for Data Science] 目錄

前言XV

第一部分探索

第1章使用ggplot2進行數據可視化3

1.1簡介3

1.2第一步4

1.2.1mpg數據框4

1.2.2創建ggplot圖形5

1.2.3繪圖模板5

1.2.4練習6

1.3圖形屬性映射6

1.4常見問題10

1.5分面11

1.6幾何對象13

1.7統計變換18

1.8位置調整21

1.9坐標系25

1.10圖形分層語法27

第2章工作流:基礎29

2.1代碼基礎29

2.2對象名稱30

2.3函數調用30

第3章使用dplyr進行數據轉換33

3.1簡介33

3.1.1準備工作33

3.1.2nycflights1333

3.1.3dplyr基礎34

3.2使用filter()篩選行35

3.2.1比較運算符36

3.2.2邏輯運算符36

3.2.3缺失值37

3.2.4練習38

3.3使用arrange()排列行39

3.4使用select()選擇列40

3.5使用mutate()添加新變量42

3.5.1常用創建函數43

3.5.2練習45

3.6使用summarize()進行分組摘要46

3.6.1使用管道組合多種操作46

3.6.2缺失值48

3.6.3計數49

3.6.4常用的摘要函數52

3.6.5按多個變量分組56

3.6.6取消分組57

3.6.7練習57

3.7分組新變量(和篩選器)58

第4章工作流:腳本60

4.1運行代碼61

4.2RStudio自動診斷61

第5章探索性數據分析63

5.1簡介63

5.2問題64

5.3變動64

5.3.1對分布進行可視化表示65

5.3.2典型值67

5.3.3異常值69

5.3.4練習70

5.4缺失值71

5.5相關變動72

5.5.1分類變量與連續變量72

5.5.2兩個分類變量77

5.5.3兩個連續變量79

5.6模式和模型82

5.7ggplot2調用84

5.8更多學習資源85

第6章工作流:項目86

6.1什么是真實的86

6.2你的分析位于哪里87

6.3路徑與目錄88

6.4RStudio項目88

6.5小結90

第二部分數據處理

第7章使用tibble實現簡單數據框93

7.1簡介93

7.2創建tibble93

7.3對比tibble與data.frame95

7.3.1打印95

7.3.2取子集96

7.4與舊代碼進行交互96

第8章使用readr進行數據導入98

8.1簡介98

8.2入門98

8.2.1與R基礎包進行比較100

8.2.2練習101

8.3解析向量101

8.3.1數值102

8.3.2字符串103

8.3.3因子105

8.3.4日期、日期時間與時間105

8.3.5練習107

8.4解析文件107

8.4.1策略107

8.4.2問題108

8.4.3其他策略110

8.5寫入文件112

8.6其他類型的數據113

第9章使用dplyr處理關系數據114

9.1簡介114

9.2nycflights13115

9.3鍵117

9.4合并連接119

9.4.1理解連接120

9.4.2內連接121

9.4.3外連接121

9.4.4重復鍵122

9.4.5定義鍵列124

9.4.6練習125

9.4.7其他實現方式126

9.5篩選連接127

9.6連接中的問題129

9.7集合操作130

第10章使用stringr處理字符串131

10.1簡介131

10.2字符串基礎131

10.2.1字符串長度132

10.2.2字符串組合133

10.2.3字符串取子集133

10.2.4區域設置134

10.2.5練習134

10.3使用正則表達式進行模式匹配135

10.3.1基礎匹配135

10.3.2練習136

10.3.3錨點136

10.3.4練習137

10.3.5字符類與字符選項137

10.3.6練習138

10.3.7重復138

10.3.8練習139

10.3.9分組與回溯引用140

10.3.10練習140

10.4工具140

10.4.1匹配檢測142

10.4.2練習143

10.4.3提取匹配內容144

10.4.4練習145

10.4.5分組匹配145

10.4.6練習147

10.4.7替換匹配內容147

10.4.8練習147

10.4.9拆分147

10.4.10練習149

10.4.11定位匹配內容149

10.5其他類型的模式149

10.6正則表達式的其他應用152

10.7stringi152

第11章使用forcats處理因子154

11.1簡介154

11.2創建因子154

11.3綜合社會調查156

11.4修改因子水平157

第12章使用lubridate處理日期和時間160

12.1簡介160

12.2創建日期或時間161

12.2.1通過字符串創建161

12.2.2通過各個成分創建162

12.2.3通過其他類型數據創建164

12.2.4練習165

12.3日期時間成分165

12.3.1獲取成分165

12.3.2舍入168

12.3.3設置成分168

12.3.4練習170

12.4時間間隔170

12.4.1時期170

12.4.2階段171

12.4.3區間173

12.4.4小結173

12.4.5練習174

12.5時區174

第三部分編程

第13章使用magrittr進行管道操作179

13.1簡介179

13.2管道的替代方式179

13.2.1中間步驟180

13.2.2重寫初始對象181

13.2.3函數組合181

13.2.4使用管道182

13.3不適合使用管道的情形183

13.4magrittr中的其他工具183

第14章函數185

14.1簡介185

14.2什么時候應該使用函數186

14.3人與計算機的函數188

14.4條件執行190

14.4.1條件191

14.4.2多重條件192

14.4.3代碼風格192

14.4.4練習193

14.5函數參數194

14.5.1選擇參數名稱195

14.5.2檢查參數值195

14.5.3點點點(...)197

14.5.4惰性求值197

14.5.5練習198

14.6返回值198

14.6.1顯式返回語句198

14.6.2使得函數支持管道199

14.7環境200

第15章向量201

15.1簡介201

15.2向量基礎202

15.3重要的原子向量203

15.3.1邏輯型203

15.3.2數值型203

15.3.3字符型204

15.3.4缺失值204

15.3.5練習204

15.4使用原子向量205

15.4.1強制轉換205

15.4.2檢驗函數206

15.4.3標量與循環規則206

15.4.4向量命名208

15.4.5向量取子集208

15.4.6練習209

15.5遞歸向量(列表)210

15.5.1列表可視化211

15.5.2列表取子集211

15.5.3調料列表212

15.5.4練習214

15.6特性214

15.7擴展向量216

15.7.1因子216

15.7.2日期和日期時間216

15.7.3tibble217

15.7.4練習218

第16章使用purrr實現迭代219

16.1簡介219

16.2for循環220

16.3for循環的變體222

16.3.1修改現有對象222

16.3.2循環模式223

16.3.3未知的輸出長度223

16.3.4未知的序列長度224

16.3.5練習225

16.4for循環與函數式編程226

16.5映射函數228

16.5.1快捷方式229

16.5.2R基礎包230

16.5.3練習231

16.6對操作失敗的處理231

16.7多參數映射233

16.8游走函數236

16.9for循環的其他模式237

16.9.1預測函數237

16.9.2歸約與累計238

16.9.3練習239

第四部分模型

第17章使用modelr實現基礎模型243

17.1簡介243

17.2一個簡單模型244

17.3模型可視化250

17.3.1預測250

17.3.2殘差252

17.3.3練習253

17.4公式和模型族254

17.4.1分類變量255

17.4.2交互項(連續變量與分類變量)256

17.4.3交互項(兩個連續變量)259

17.4.4變量轉換261

17.4.5練習264

17.5缺失值264

17.6其他模型族265

第18章模型構建266

18.1簡介266

18.2為什么質量差的鉆石更貴267

18.2.1價格與重量268

18.2.2一個更復雜的模型271

18.2.3練習273

18.3哪些因素影響了每日航班數量273

18.3.1一周中的每一天274

18.3.2季節性星期六效應277

18.3.3計算出的變量280

18.3.4年度時間:另一種方法281

18.3.5練習282

18.4學習更多模型知識282

第19章使用purrr和broom處理多個模型284

19.1簡介284

19.2列表列285

19.3創建列表列286

19.3.1使用嵌套286

19.3.2使用向量化函數287

19.3.3使用多值摘要288

19.3.4使用命名列表288

19.3.5練習289

19.4簡化列表列290

19.4.1列表轉換為向量290

19.4.2嵌套還原291

19.4.3練習292

19.5使用broom生成整潔數據292

第五部分溝通

第20章RMarkdown295

20.1簡介295

20.2RMarkdown基礎295

20.3使用Markdown格式化文本298

20.4代碼段299

20.4.1代碼段名稱300

20.4.2代碼段選項300

20.4.3表格301

20.4.4緩存301

20.4.5全局選項302

20.4.6內聯代碼303

20.4.7練習303

20.5排錯304

20.6YAML文件頭304

20.6.1文檔參數304

20.6.2參考文獻與引用306

20.7更多學習資源307

第21章使用ggplot2進行圖形化溝通308

21.1簡介308

21.2標簽309

21.3注釋311

21.4標度316

21.4.1坐標軸刻度與圖例項目316

21.4.2圖例布局318

21.4.3標度替換320

21.4.4練習324

21.5縮放325

21.6主題326

21.7保存圖形328

21.7.1圖形大小328

21.7.2其他重要選項330

21.8更多學習資源330

第22章RMarkdown輸出類型331

22.1簡介331

22.2輸出選項332

22.3文檔332

22.4筆記本333

22.5演示文稿333

22.6儀表盤334

22.7交互元素335

22.7.1htmlwidgets335

22.7.2Shiny336

22.8網站337

22.9其他類型338

22.10更多學習資源338

第23章RMarkdown工作流339

作者簡介341

封面簡介341

R數據科學[R for Data Science] 精彩文摘

1.2 第一步

我們使用第一張圖來回答問題:大引擎汽車比小引擎汽車更耗油嗎?你可能已經有了答案,但應該努力讓答案更精確一些。引擎大小與燃油效率之間是什么關系?是正相關,還是負相關?是線性關系,還是非線性關系?

圖書網:R數據科學[R for Data Science]pdf

繼續閱讀
資源地址:用心發表評論,回復即可查看(字數限制至少10字以上)。
  • 我的微信
  • 掃一掃加好友
  • weinxin
  • 微信公眾號
  • 掃一掃關注
  • weinxin
Python量化交易實戰epub 程序設計

Python量化交易實戰epub

Python量化交易實戰 作者:王曉華 Python量化交易實戰 出版社:清華大學出版社 Python量化交易實戰 內容簡介 在目前不斷變化、蓬勃發展的中國資本市場,量化投資作為新興的投資方法,引來越...
現代API 通往架構師之門epub 程序設計

現代API 通往架構師之門epub

現代API 通往架構師之門 作者:李泉 現代API 通往架構師之門 出版社:清華大學出版社 現代API 通往架構師之門 內容簡介 本書首先回顧系統集成及服務的歷史,對其核心概念和核心思想進行重新闡述;...
Spark Streaming技術內幕及源碼剖析pdf 程序設計

Spark Streaming技術內幕及源碼剖析pdf

全面透徹剖析Spark Streaming技術內幕和源碼,并結合Spark Streaming調優實踐的經驗總結,適合所有大數據應用的技術管理和開發人員閱讀。 本書涵蓋Spark ...
Python自動化運維 技術與最佳實踐pdf 程序設計

Python自動化運維 技術與最佳實踐pdf

Python自動化運維 技術與最佳實踐 作者:劉天斯 Python自動化運維 技術與最佳實踐 出版社:機械工業出版社 Python自動化運維 技術與最佳實踐 內容簡介 本書在中國運維領域將有“劃時代”...
匿名

發表評論

匿名網友 填寫信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

評論:7   其中:訪客  7   博主  0
    • sixvable sixvable 9

      找了好久 非常需要這本書

      • 圖南 圖南 9

        找了好久終于找到了

        • 圖南 圖南 9

          終于找到了 求求讓我下載一下吧

          • 樹洞 樹洞 9

            謝謝資源分享

            • 樹洞 樹洞 9

              感謝您分享資源,這本書對我很有用,謝謝您

              • JERK JERK 9

                這本書對于新手了解基礎非常好

                • 123142412 123142412 0


                  title: “Diamond sizes”
                  date: 2016-08-25
                  output: html_document

                  “`{r setup, include = FALSE}
                  library(ggplot2)
                  library(dplyr)

                  smaller %
                  filter(carat %
                  ggplot(aes(carat)) +
                  geom_freqpoly(binwidth = 0.01)
                  “`很好