KevinZhen
KevinZhen

Data Analyst in Telecom

政黑板的社群網路分析(Social Network Analysis)

延續上一次對於ptt分析的初步架構,這次將分析目標延伸至政黑板(Hate Politics),主要是想嘗試看看天下2019/01/09的報導《PTT原始資料全揭露!「韓流」怎麼造出來的?》 重現,以及延伸。

前言:

因為政黑板只保留近六個月的資料,除非有被標記的文章(不知道其他板是如何?),時間是2019/01/21 ~ 2019/06/15,相對ptt最大的八卦板,主題比較聚焦於政治,較容易分析,且資料量較小,約不到一天就爬完了。分析角度主要是基礎統計與利用graph找出互動的關係,以及資料處理遇到的困難。

Ps. 資料來源是使用jwlin在github上面的爬蟲,但好像有點小bug,部分id只要暱稱有特殊符號 @ 就會變成空白,要再確認一下原始碼id解析的部分,目前有292篇文章有這樣的情形,先略過~

首先看看發文量吧!
一周大概2000篇文章,四月中更是衝到5,500篇,應是韓五點的效應

文章主要分為三個部分:

1. 資料視覺化 — 基本統計(Tableau,付費軟體,免費板的限制是一定要公開檔案才能存檔,要小心使用歐!)
2. 發文與推文的互動關係 — graph(開源軟體Gephi,網路分析的視覺化軟體)
3. 資料處理的一些細節 — code(python) 有興趣看ETL的髒code我放在colab ler

資料處理後的資料如下:

1. id統計 (作為圖的節點Node)
2. id發文資料 (作為Tableau的時序分析來源)
3. 留言互動資料(作為圖的邊Edge)

首先,根據鄉民百科,此板立場比較偏藍:

政黑板全名政治黑特板,英文名稱 HatePolitics,板上以批判政治爲主,算是黑特板相關的姊妹板。板上文章及推文拼命護航藍營政府弊案,所以被八卦板板友戲稱爲糞坑板(因爲藍營的支持者蛆蛆多)

下面用Tableau做視覺化分析,有興趣可以到網站上互動或載下來編輯

但若先不看立場,可以先從整體對照到特殊的使用者,其中一個是看發文與回文(Re)的比例,上方是推(+1)噓(-1)加總,下方是文章數量。

藍色:發文
橘色:回文
在發文與回文的比例上,推噓加總約 1:3,文章數約1:2

進一步從id的角度來看,看看Top10推噓有何不同?

Top10的推噓統計中,mark2165遙遙領先,在他的文章下面常常有人喊頭目,儼然意見領袖之姿(但這個稱號的原因我就不太清楚了?),第二名的ptt名人KingKingCold只有近一半的總和,但文章數量上KingKingCold只有89篇,換算成平均單篇較高

以Top10推噓加總的id來看,在推文與回文的比例也有些不同,以Top1的mark2165(下方的青綠色)來說,幾乎都是發文,回文的比例很少。目前看到許多ptt的異常使用者分析都會濾除回文,我推測可能是假設如果是要進行議題設定是比較難透過回文發揮的,因為腳本可能已經設定好了,用回文的話會有其他影響因素。

相對於推噓加總來源主要來自發文的mark2165,第二順位的KingKingCold卻是大量來自回文,其他如sunyeah, TheoEpstein也有這種偏好

但這只是分析的某個片面之詞,上面有資料,也有互動的網站,期待有不同的看法~

天下對於韓流質疑的報導是2019/01/09刊出,點出對於mark2165的質疑,卻還是在2019/03/22/當選板主(他的政見發表),或許代表該id還是有一定的受歡迎程度,不一定是營造出來的?

以社群網路分析(Social Network Analysis)互動關係

除了看整體的風向,也可以看看使用者間的互動關係~

id的屬性(Node)主要是統計發文與回文的讚噓發文數等加總,兩個人中間線條的粗細代表互動量(推噓與箭頭的加總,各算一次),顏色代表互動中最多的類別,。

兩個人互動中

推文最多,會以藍色標示,
噓文用紅色,
箭頭是淡綠色。
點越大代表推噓加總越高,可能是越受歡迎~

由於整體數量過於龐大,做些簡單的篩選,找出id間的強烈關係,兩個id之間單向互動量必須超過100,且經過此篩除後,變成孤立點的也篩除,就只剩下136個id(佔整體id的0.3%)與159條互動量的線(佔整體互動線條的0.02%),就會發現有趣的群聚現象。

整體網路呈現長形,距離越遠可能代表的是不同群體,中間有些節點代表了類似橋梁的腳色,與不同的群體互動,下方的大圈圈是mark2165受到部分用戶的積極互動
為了突出高互動量的id,下面將互動量門檻調高到250
mark2165有許多fans,大量推文的有ninaman, bluesunflowe,大量箭頭的是sxxs,看來其稱號「頭目」也是滿符合的~
對mark2165的推文數量排序
ninaman與bottger對mark以推文居多,卻常噓WeiKitten不知道是否為立場不同? 細部可能要觀察發文內容的語意分析或文字雲,加強量化分析缺乏的面向
KingKingCold的高互動關係中比較多是回應別人,相對於mark2165的高互動量都是來自於別人的回應呈現反向的特徵
gn02118620跟許多不同的id都有高互動量,類似一個橋樑的腳色
初步的分析大概到這邊,還有很多不完備的,不管是資料來源、分析角度、語意分析都還有很大的空間,在觀察特殊的使用者(抑或指摘為網軍)要如何區分狂熱的積極使用者,需要一些關鍵性的條件,主要應該是一些有規律的機器人行為,留待下次分析囉~

參考資料:

  1. 無所不在的自然語言處理 — 基礎概念、技術與工具介紹 能大致了解整體NLP的研究範疇
  2. i’Analyseur 是一個PTT分析平台,針對ID或IP提供整合性且視覺化的分析。(2019/06/30時網站掛了)
  3. 「抓到了?!」用數據分析鳥瞰 PTT 政治文帳號 (上) 王銘宏/逢甲大學資訊工程學系助理教授 的文章,利用統計數據找出異常使用者
  4. 《PTT原始資料全揭露!「韓流」怎麼造出來的?》
  5. 互联网数字宣传战(二):数字世界里的水军们如何介入现实世界里的政治
CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…
加载中…

发布评论