資料源

科技新報 TechNews 2019 薪資調查統計 (回應)

清理資料

欄位名稱換成 “time_stamp”, “gender”, “born”, “working”, “city”, “industry”, “ladder”, “degree”, “department”, “title”, “salary”, “bonus”, “package”

看起來會像這樣

不過其實數據本身還有一些需要清洗的地方,例如:


以上問題,進行簡單的資料過濾和分類, 針對「有些人填寫的是 單位而不是 萬元 單位」-> 我將年薪 > 5000萬 或是月薪大於 1000萬當作無效資料(有太多不是只有多加 4 個零)。

算出來的月薪最大值為 80 萬、年薪最大值為 1600 萬,應該還算合理…但大家都這麼會賺? 其實這些很可能都是極端值,或者白話一點,就是極少數的人能達到的境界。 我們來看看整體月薪、年薪的分佈狀況:

我們從數據面來看一下數據的集中、離散程度: 發現整體資料平均落在 7.8 萬,中位數也有 6 萬的水平,且最高又可達到月薪 80 萬的程度,可見韓市長上任,除了勞心勞力希望高雄市民發大財外,同時鄉民也受到韓市長頂上金光感召,欣欣向榮。

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.000   4.600   6.000   7.983   9.000 300.000 

我們再來看一下整體年薪的分佈:

從數據證明,鄉民都是其實並沒有人人年薪三百萬的跡象。

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
    0.0    70.0    97.8   126.6   150.0  1600.0 

接著我們可以從幾個維度下手,去看一下,性別、學歷、工作時間、產業如何反應薪資。 在此之前,我們還是要將資料做一定程度的清洗和重新貼標:

我們先從最簡單沒有啥爭議的學歷開始好了:

各行各業薪資水平(鄉民的標準)

根據上述的分類用 treemap 呈現結果,方塊大小表樣本數,可發現硬體的樣本數最多,又軟、硬體加起來佔超過 5 成的資料點;顏色的部分表平均月薪,越趨近藍色平均月薪越高,可看到醫療業平均月薪非常高,不過這可能是因為「醫生」拉高整體平均。

為了看更清楚各產業的薪資變異程度,用盒鬚圖呈現,又將各產業與各年資拆分開看,果不其然,醫療業的變異最大,而且隨著年資越深差距越大,變異更大,因為「醫生」一職薪水可以翻倍跳,但其他醫療業如公務員般基本上就是線性成長而已。


到底哪裡是天龍國:新竹市 vs 台北市

每次都被酸台北天龍國,但如果真實以平均年收入來看的話,新竹市(竹科)還是無論在各年資,都屌打台北市啊!


性別差異

另外性別在工作權上是否平等,這個議題也是持續的熱議題(參見:性別差距!世界經濟論壇報告:實現男女「同工同酬」,竟要再等100年) 我們就來看看鄉民的世界是否也是和世界趨勢一致,

先來看看排除產業和年資的影響,整理的性別在收入上的整體表現:

性別要討論的議題和面向可以很多,從數據面來看,排除所有年資、產業的差異而言,確實性別在薪資上確實有顯著的差異(非統計上的檢定)。

有人可能會說,「噢!這有很大的樣本偏誤,鄉民的世界和現實世界不同滴!裡面都是宅男,女性樣本那麼少。」確實有這個可能,而且女性也許因為性別角色,往往放棄工作照顧家裡的起居比例比男性高,所以高年資的女性比例可能很少,那就來驗證一下看看樣本的分佈吧!

若把上圖的男性標籤移掉,更可以明顯看出女性隨著工作年資樣本數遞減;反觀男性在資淺和資深的樣本數比例幾乎一樣,這難道就能說明,男性因為高年資的樣本數比例高,進而導致薪資比被拉高嗎?

那我們就用各個工作經歷的性別平均收入差異,結果….

老實說我也不知道怎麼解釋這個結果了,如果這不是同工不同酬,什麼才是?

性別收入差異一直是長期且無解(或無人去解決,還是根本不需要解決?)的問題,這不只是發生在台灣,各國都一樣。如果大家有任何不同想法都歡迎討論,因為我真心希望我是錯的 orz

---
title: "科技新報 TechNews 2019 薪資調查"
author: YD Huang
date: 2019-07-21
output:
  html_notebook:
    fig_width: 10
    theme: paper
  html_document:
    df_print: paged
    code_folding: 'hide'
---

<style type="text/css">

body{ /* Normal  */
      font-size: 18px;
  }
</style>

```{r setup, include=FALSE}
rm(list=ls())
gc()
library(httr);library(data.table);library(dplyr);library(jsonlite);library(googlesheets);library(DT);library(highcharter);library(tidyr)
```
### 資料源
[科技新報 TechNews 2019 薪資調查統計 (回應)](https://docs.google.com/spreadsheets/d/14eOYJzdjjrxMqFi8lfiNMtAFOths6mdRAkcAKrM9-Dg/edit#gid=1546122922)


```{r, echo= F, include=FALSE, echo=FALSE}
# data source
be <- gs_url("https://docs.google.com/spreadsheets/d/14eOYJzdjjrxMqFi8lfiNMtAFOths6mdRAkcAKrM9-Dg/edit#gid=1546122922",lookup = F,visibility = "private")
sheetName <- gs_ws_ls(be)[1]
dt.sheet <- as.data.table(gs_read(ss=be, ws = sheetName, skip=2))
```

### 清理資料
欄位名稱換成 "time_stamp", "gender", "born", "working", "city", "industry", "ladder", "degree", "department", "title", "salary", "bonus", "package"
```{r, include= F, echo = F}
dt <- dt.sheet %>% `colnames<-`(c("time_stamp","gender","born","working","city","industry","ladder","degree","department","title","salary","bonus","package"))
```


看起來會像這樣
```{r, echo=F, include=T, cols.print=6,rows.print=6}
head(dt)
```

不過其實數據本身還有一些需要清洗的地方，例如：

* 有些人填寫的是 __元__ 單位而不是 __萬元__ 單位
* 表單填寫都是自由格式，所以需要重新標籤：
    * "大學"、"大學畢業"其實意義上皆是 _大學_ 
    * 所有的產業大家都不同寫法，所以還是需要重新分類

***

以上問題，進行簡單的資料過濾和分類，
針對「有些人填寫的是 __元__ 單位而不是 __萬元__ 單位」-> 我將年薪 > 5000萬 或是月薪大於 1000萬當作無效資料（有太多不是只有多加 4 個零）。

算出來的月薪最大值為 80 萬、年薪最大值為 1600 萬，應該還算合理...但大家都這麼會賺？
其實這些很可能都是極端值，或者白話一點，就是極少數的人能達到的境界。
我們來看看整體月薪、年薪的分佈狀況：

```{r, echo = F, include= F}
dt <- dt %>% filter(package < 5000, salary < 1000)
max(dt$salary)
max(dt$package)
```

```{r, echo = F}
h <- hchart(dt$salary, type = "area", color = "#00C9AB", name = "整體資料月薪分佈")
h
```

我們從數據面來看一下數據的集中、離散程度：
發現整體資料平均落在 7.8 萬，中位數也有 6 萬的水平，且最高又可達到月薪 80 萬的程度，可見韓市長上任，除了勞心勞力希望高雄市民發大財外，同時鄉民也受到韓市長頂上金光感召，欣欣向榮。
```{r, echo = F}
summary(dt$salary)
```

***

我們再來看一下整體年薪的分佈：
```{r, echo = F}
hchart(dt$package, type = "area", color = "#FF943D", name = "整體資料年薪分佈")
```


從數據證明，鄉民都是其實並沒有人人年薪三百萬的跡象。
```{r, echo = F}
summary(dt$package)
```

***

接著我們可以從幾個維度下手，去看一下，性別、學歷、工作時間、產業如何反應薪資。
在此之前，我們還是要將資料做一定程度的清洗和重新貼標：

我們先從最簡單沒有啥爭議的學歷開始好了：

* 學歷：只要在「最高學歷」的欄位出現「博士」 都定義為**_博士_**； 出現「碩士」就定義為**_碩士_**；出現「大學」 就定義為**_大學_**；出現「高職或專科或高中」 就定義為**_高中職_**；這樣分類的缺點是如果寫「大學肄業」理應是被分到「高中」但實際上會被分到「大學」，其他的我沒興趣就會被過濾。

* 工作時間：「畢業後工作幾年」這個欄位如果是 0-5 年 就稱為什麼都不懂然後徒有一股傻勁**_菜雞_**；6-10 年為好像有點價值，但其實也是奴性堅強 **_肉牛_**；10 年以上的就是打滾多年可能有點智慧和經驗可以傳承但體力不是很好的**_老馬_**。

* 產業比較麻煩，一樣米養百種人，一個產業有千種寫法，所以這邊比較手動的方式將欄位「你的公司行業別」進行重新分類和貼標，大致上分成了以下產業
    + **_軟體業_**：舉凡“網路|IT|軟體|資訊|博弈|Internet|電商|新創|網通|雲端|IOT|互聯網”
    + **_硬體業_**：舉凡“電子|通信|通訊|電腦|PC|半導體|晶片|科技|光電|韌體|ic|伺服器|電機|系統廠|面板”
    + **_服務業_**：舉凡“旅宿|旅遊|餐飲|零售|百貨|retail|交通|大眾運輸|室內|裝修|電信|文教|教職|旅行|服飾|法律|教育|福壽|生命|學校|顧問|檢驗|飯店|航空|旅館|仲介|房仲”
    + **_醫療業_**：舉凡“醫療|醫生|健康|生技|醫院|醫藥|保健|醫事|藥|中醫|醫師|healthcare”
    + **_製造業_**：舉凡”材料|製造|鋼鐵|機械|化工|化學|紡織|建築|玻璃|傳產|電池|印刷|環工|工程|石化|石油|造船|設備|土木|航|能源|輪胎|加工|車|營建|家電|海運|塑膠|鞋“
    + **_金融業_**：舉凡“金融|投信|投顧|銀行|保險|證券|bank|期貨|會計|記帳”
    + **_公部門_**：舉凡“政府|公家機關|行政|公務員|公教|中科院|自來水|公營”
    + **_媒體業_**：舉凡“媒體|廣告|公關|電視台|數位|活動|傳播”
    + **_行銷業_**：舉凡”行銷|FMCG|消費品“
    + **_其他_**：未列在上述者



```{r, echo = F, include= F}
dt <- dt %>% mutate(degree = if_else(grepl("大學",degree),"大學",if_else(grepl("碩士",degree),"碩士",if_else(grepl("博士",degree),"博士",if_else(grepl("高職|專科|高中",degree),"高中職",degree)))))
dt <- dt %>% filter(degree %in% c("博士","碩士","大學","高中職"))
dt <- dt %>% mutate(working_label = if_else(between(working,0,5),"Junior (0-5年 菜雞)",if_else(between(working,6,10),"Mid Level (6-10 年肉牛)","Senior (10+ 年老馬)")))
dt <- dt %>% mutate(industry_label = if_else(grepl("網路|IT|軟體|資訊|博弈|Internet|電商|新創|網通|雲端|iOT|互聯網",industry),"軟體業",if_else(grepl("電子|通信|通訊|電腦|PC|半導體|IC|晶片|科技|光電|韌體|ic|伺服器|電機|系統廠|面板",industry),"硬體業",if_else(grepl("旅宿|旅遊|餐飲|零售|百貨|retail|Retail|交通|大眾運輸|室內|裝修|電信|文教|教職|旅行|服飾|法律|教育|福壽|生命|學校|顧問|檢驗|飯店|航空|旅館|仲介|房仲",industry),"服務業",if_else(grepl("醫療|醫生|健康|生技|醫院|醫藥|保健|醫事|藥|中醫|醫師|Healthcare|healthcare",industry),"醫療業",if_else(grepl("材料|製造|鋼鐵|機械|化工|化學|紡織|建築|玻璃|傳產|電池|印刷|環工|工程|石化|石油|造船|設備|土木|航|能源|輪胎|加工|車|營建|家電|海運|塑膠|鞋",industry),"製造業",if_else(grepl("金融|投信|投顧|銀行|保險|證券|Bank|bank|期貨|會計|記帳",industry),"金融業",if_else(grepl("政府|公家機關|行政|公務員|公教|大學|高中|中科院|自來水|公營",industry),"公部門",if_else(grepl("媒體|廣告|公關|電視台|數位|活動|傳播",industry),"媒體業",if_else(grepl("行銷|FMCG|消費品",industry),"行銷","其他"))))))))))
```


### 各行各業薪資水平（鄉民的標準）
根據上述的分類用 treemap 呈現結果，方塊大小表樣本數，可發現硬體的樣本數最多，又軟、硬體加起來佔超過 5 成的資料點；顏色的部分表平均月薪，越趨近藍色平均月薪越高，可看到醫療業平均月薪非常高，不過這可能是因為「醫生」拉高整體平均。
```{r, echo = F}
industry <- dt %>%
  group_by(industry_label) %>% 
  summarise(mean.salary = mean(salary, na.rm = T), median.salary = median(salary, na.rm = T), mean.package = mean(package, na.rm = T), median.package = median(package, na.rm = T),count = n())

# try3
library(RColorBrewer)
hctreemap2(data = industry,
           group_vars = "industry_label",
           size_var = "count",
           color_var = "mean.salary"
           ) %>% 
  hc_colorAxis(minColor = brewer.pal(7, "RdBu")[3],
               maxColor = brewer.pal(7, "RdBu")[6]) %>% 
  hc_tooltip(pointFormat = "<b>{point.name}</b>:<br>
                            樣本數: {point.value:,.0f}<br>
                            平均月薪: {point.colorValue:,.0f}")
```


為了看更清楚各產業的薪資變異程度，用盒鬚圖呈現結果如下：
又將各產業的年資分成，果不其然醫療業的變異最大，而且隨著年資越深差距越大，變異更大，因為「醫生」一職薪水可以翻倍跳，但其他醫療業如公務員般基本上就是線性成長而已。
```{r, echo = F}
industry_working <- dt %>%
  group_by(industry_label, working_label) %>% 
  summarise(mean.salary = mean(salary, na.rm = T), median.salary = median(salary, na.rm = T), mean.package = mean(package, na.rm = T), median.package = median(package, na.rm = T),count = n())

hcboxplot(x = dt$salary, var = dt$industry_label, var2 = dt$working_label,
          outliers = FALSE) %>% 
  hc_chart(type = "column") # to put box vertical
```

***

### 到底哪裡是天龍國：新竹市 vs 台北市
每次都被酸台北天龍國，但如果真實以平均年收入來看的話，新竹市（竹科）還是無論在各年資，都屌打台北市啊！
```{r, echo = F}
tienlong <- dt %>%
  filter(city %in% c("新竹市","臺北市")) %>%
  group_by(working_label, city) %>% 
  summarise(mean.salary = mean(salary, na.rm = T), median.salary = median(salary, na.rm = T), "平均年收入" = mean(package, na.rm = T), median.package = median(package, na.rm = T),count = n())
hchart(tienlong, "column", hcaes(x = working_label, y = `平均年收入`, group = city))
```

***

## 性別差異
另外性別在工作權上是否平等，這個議題也是持續的熱議題（參見：[性別差距！世界經濟論壇報告：實現男女「同工同酬」，竟要再等100年](https://www.storm.mg/article/605245?srcid=73746f726d2e6d675f32666338343434373332646265313366_1563708947)）
我們就來看看鄉民的世界是否也是和世界趨勢一致，


先來看看排除產業和年資的影響，整理的性別在收入上的整體表現：

```{r, echo = F}
gendergapoverall <- dt %>% 
  group_by(gender) %>% 
  summarise("月薪均數" = mean(salary, na.rm = T), "月薪中位數" = median(salary, na.rm = T), "年收入均數" = mean(package, na.rm = T), "年收入中位數" = median(package, na.rm = T),"樣本數" = n())
gendergapoverall
```



性別要討論的議題和面向可以很多，從數據面來看，排除所有年資、產業的差異而言，確實性別在薪資上確實有顯著的差異（非統計上的檢定）。


有人可能會說，「噢！這有很大的樣本偏誤，鄉民的世界和現實世界不同滴！裡面都是宅男，女性樣本那麼少。」確實有這個可能，而且女性也許因為性別角色，往往放棄工作照顧家裡的起居比例比男性高，所以高年資的女性比例可能很少，那就來驗證一下看看樣本的分佈吧！

```{r, echo = F}
gender_work_count <-  dt %>% 
  group_by(working_label, gender) %>% 
  summarise(mean.salary = mean(salary, na.rm = T), median.salary = median(salary, na.rm = T), "平均年收入" = mean(package, na.rm = T), median.package = median(package, na.rm = T),count = n())
hchart(gender_work_count, "line", hcaes(x = working_label, y = count, group = gender))
```

若把上圖的男性標籤移掉，更可以明顯看出女性隨著工作年資樣本數遞減；反觀男性在資淺和資深的樣本數比例幾乎一樣，這難道就能說明，男性因為高年資的樣本數比例高，進而導致薪資比被拉高嗎？

那我們就用各個工作經歷的性別平均收入差異，結果....

```{r, echo = F}
gendergap <- dt %>% 
  group_by(working_label, gender) %>% 
  summarise(mean.salary = mean(salary, na.rm = T), median.salary = median(salary, na.rm = T), "平均年收入" = mean(package, na.rm = T), median.package = median(package, na.rm = T),count = n())
hchart(gendergap, "column", hcaes(x = working_label, y = `平均年收入`, group = gender))
```

老實說我也不知道怎麼解釋這個結果了，如果這不是同工不同酬，什麼才是？

性別收入差異一直是長期且無解（或無人去解決，還是根本不需要解決？）的問題，這不只是發生在台灣，各國都一樣。如果大家有任何不同想法都歡迎討論，因為我真心希望我是錯的 orz

<!-- 如果將資料的極端值當界外值（這裡的界外值只有高月薪、高年薪）處理，整體來說月薪或年薪看起來比較親民一點 -->

```{r, echo = F, include = F}
dt.boxplot <- data.table("月薪" = dt$salary, "年薪" = dt$package) %>% gather(type, value)
hcboxplot(x = dt.boxplot$value, var = dt.boxplot$type,
          name = "薪水型態", color = "#2980b9", outliers = F) %>%  hc_chart(type = "column")
```

