• 1 Dcard API (共 80 分)
  • 2 從 Dcard API 撈資料 (共 40 分)

1 Dcard API (共 80 分)

請參考 https://levirve.github.io/blog/2016/Dccard-crawler/ 的「網站 API 規則」段落,並觀察 Dcard API 頁面 以及 Dcard 官方頁面,了解你可以透過 Dcard API 取得什麼樣的資料。

下方程式碼可從 https://dcard.tw/_api/forums/makeup/posts 取得 Dcard 美妝板 的文章資訊

#> [1] 200
  1. (30 分)
    請觀察 https://dcard.tw/_api/forums/makeup/posts 當中的內容,以取出儲存於 makeup_idx 中,第一篇文章的 id (character vector of length 1)。

  2. (50 分)
    請透過上一題取出的 id,再向 Dcard API 發出 request,取得該篇文章的內文 (content)。
    (hint: 這題需向不同的 URL 請求資料,請參考上方的網頁以找出適宜的 URL)

2 從 Dcard API 撈資料 (共 40 分)

在知道怎麼從 https://dcard.tw/_api/forums/makeup/posts 取得文章 id,並透過此 id 取得文章內文後,就應該知道怎麼從 Dcard 收集語料了~

你的任務是透過 Web API,從 美妝板 以及 新生板 各抓出 3 篇文章 (順序隨便,可以隨機也可抓出前 3 個),並將結果整理成一份 data frame。這份 data frame 中必須具有下列變項:

  • id: 文章 id
  • forum: 文章看板 (makeupfreshman)
  • gender: 作者性別
  • title: 文章標題
  • content: 文章內文