Why dplyr?

讀取表格式資料 (.csv)

  • 可使用 RStudio Environment Pane > Import Dataset > From Text (readr)...,或直接使用指令:

    #> # A tibble: 177,780 x 5
    #>     year sex   name        n   prop
    #>    <dbl> <chr> <chr>   <dbl>  <dbl>
    #>  1  1880 M     John     9655 0.0815
    #>  2  1880 M     William  9532 0.0805
    #>  3  1880 M     James    5927 0.0501
    #>  4  1880 M     Charles  5348 0.0452
    #>  5  1880 M     George   5126 0.0433
    #>  6  1880 M     Frank    3242 0.0274
    #>  7  1880 M     Joseph   2632 0.0222
    #>  8  1880 M     Thomas   2534 0.0214
    #>  9  1880 M     Henry    2444 0.0206
    #> 10  1880 M     Robert   2415 0.0204
    #> # … with 177,770 more rows

    如此便會將外部檔案讀入成 tibble (data frame)

Functions for “isolating data” in dplyr

  • dplyr 有 2 個重要的函數可以用來取代上週講過得 [<vector 1> , <vector 2>]
    • select(): 篩選出 data frame 中的變項 (variables) (i.e. columns of a data frame)
    • filter(): 篩選出 data frame 中特定的觀察值 (observations) (i.e. rows of a data frame)
    • select()filter() 分別取代了 [<vector 1> , <vector 2>] 之中的 vector 2vector 1 的功能。除此之外,dplyr 還有 arrange() 可以用來將觀察值依據某些變項進行排序

select(): 篩選出特定變項