鑫大叔
鑫大叔

一個在獲得肺腺癌末期患者頭銜後更加迷茫的大叔

不負責任之馬特市的拍手數分析

(编辑过)
做到一半覺得自己腦袋抽了才會花時間做這個分析……拍手數變化和我這個小人物好像也沒啥關聯,有這麽閑還不如去讀書?

🟥 前言

首先要贊嘆@catding 大大做了一個matters儀表板,不然不會玩API的大叔都不知道去哪拿數據來分析。順便提供剛發現的資料下載方法給還不知道的市民:

1. 在文章列表隨便找個地方點擊滑鼠右鍵,看到”Export“點下去。

想要下載資料,點滑鼠右鍵選”Export“

2. 選取所需格式,點擊”Export“。

選所需格式,點擊”Export“

🟥 資料範圍

所用資料為2021年1月1日 - 7月15日。爲什麽不是取到18號?因爲matters儀表板所提供的拍手數是當下的最新數字,我假設文章發表後的幾天拍手數會慢慢下降,所以4天前的文章應該不會再增加多少拍手數。

🟥 文章拍手數量分佈月表

因爲是第一次看,所以先從月表開始看起。

文章拍手數量分佈圖

單從文章拍手平均數來看,其實5月就有些許上升,但是拍手數在1-50之間的文章從1月到5月都是~50%+,所以應該只是正常起伏。

再看6月和7月的數據,拍手數在1-50之間的文章數量大幅下降,相對的拍手數51-100之間的文章比例從16%上升到43%。

🟥 文章拍手數量分佈對比(1-5月 vs. 6-7月半)

雖然1-100之間的變化最大,但其實零拍手(<1)的數量也是也是從4.5%掉到0.4%。看到這裏其實我已經覺得這個變化應該是自動拍手帶來的,但是要下結論還爲時過早。

文章拍手數量分佈對比(1-5月 vs. 6-7月半)

🟥 文章拍手數量分佈日表

上圖已經確認主要差異在於1-100之間的拍手數,所以接下來會用熱力圖觀察5-7月的每日數據,區間以5爲單位(因爲拍手最大值 = 5)。

我知道這個圖小到爆,用電腦勉强能看。不過這個圖表的重點在於顔色(越紅數字越大,反之越綠數字越小)。可以看到主要有四個區間。

  1. 從5月1-16日:紅色主要分佈於5-25之間的拍手數
  2. 從5月17日-6月6日:紅色主要分佈於1-20之間
  3. 6月7日:唯有這一天,紅色主要分佈於71-80之間
  4. 6月8日-7月15日:雖然沒有前面三個區間穩定,但是可以看出紅色主要分佈於36-70之間。

🔷 不解之處(6月7日開始飄高的拍手數歸咎於自動拍手的疑點)

兩個版本的自動拍手分別在6月8日和6月9日低調發佈,所以上面第四區間雖然對的上時間,但是我不理解明明是低調發佈,怎麽一出場便成巔峰?難道不是應該一開始沒幾個人用,然後慢慢使用者越來越多嗎?這部分暫時沒想到要怎麽調查,就先放著不管了~

第三點也很是詭異,爲什麽6月7日這麽特別?不過這個應該不會影響自動拍手脚本的結論,就先按下不談~

5-7月中的每日拍手分佈熱力圖

🟥 除了自動拍手脚本,是否有其他原因導致拍手數提升?

🔷 熱議話題

在研究這個資料前,大叔其實是懷疑近日的熱議話題(抄襲、小號之類),這類文章會讓市民的拍手意願提升也是其中一個因素。

然而實際分析用JMP(分析軟件)畫出的圖讓我不得不承認自己想太多了~

用JMP畫的~

上圖的每個黑點代表每一行資料,也就是一共5.5萬個數據畫成的圖。可以看出6、7月的離群值、標準差、箱形圖和1-5月相比,并無太大差異!!!

所以只能說熱議話題應該不是主要原因,頂多是一小部分。

🔷 灌水文?

先來個作者當月發表文章總數圖,這裏沒有包括7月的資料,因爲這個月還沒結束,無法預測那些作者還會發佈文章。不像之前的圖,每天發佈的文章算是比較有跡可循。

作者當月發表文章總數

6月的數據看起來沒什麽問題,反而是5月的標準差讓我感覺比較有機會看到灌水文。

🔷 文章數量增加?

從下圖右上角的表單可以看出1-4月的每日平均文章數量都在300以下,5月開始接近300,6、7月開始超過300。

下圖為5月1日-7月15日的每日圖,除了可以看出6月7日開始平均拍手數起跳到另一個階段,每日文章數量沒有平均拍手數明顯,但是也可以看出其在6月7日之後開始常常超過上紅綫。

所以總拍手數量的提升有一部分來自於增加的文章數量。

5-7月中的每日平均拍手數

🟥 總結

除了多數人認爲的自動拍手脚本,文章數量增長看起來也是一個原因。謹以此文作爲抛磚引玉之用,期待有人給出不同見解。

CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论