hupili

香港浸会大学讲师

出卖我2万条微信群组关系求200麦邀请好友用还差34点各位大神捧个麦场

我用微信5年,积累了 3201 个好友,443 个群组,通过群组可以连接到 15578 个用户。将用户和群组都作为节点,群组包含用户的关系作为边,可以建立网络图,共 20488 条边。

Gephi跑全图的force simulation会挂,所以先做预处理,把degree小于3的节点都去掉。这样就已经去掉大多数的节点了,这些去掉的节点多半是“悬挂式的”,即偶尔出现在某个陌生群里的陌生微信帐号。研究图谱,我更关心的是链接紧密的部分。比如和我共同参与多个群的用户,或者同时包含多个紧密好友的群组。另外 ego-network里面有一个特殊节点是“ego”,它与所有的群都有一条边(因为抓取的是它的微信号;好吧,他的)。去掉这个点之后,网络社区的划分会更明显一些,否则这个节点会像磁铁一样,把各大板块都吸引到一起。总之,最后画出来是这样的。


图:微信群、用户网络可视化,绿色是群组,红色是人,大小是degree

是不是很像青色杜马中的布林克?

图:青色杜马/蓝色闪电 来自 http://girlschannel.net/topics/971593/3/

这个Force Atlas的布局效果还不错,社群边界非常明显。Gephi的参数是180的斥力和15的引力。微信以私密社交为基础设定,但又通过群组和朋友圈,让玩家可以“顺藤摸瓜”,展开更大的社交面积。刚开始用微信的时候,有种小时打帝国时代的兴奋感,带着一个侦查骑手,逐渐拨开战争迷雾。如今,我终于不再在意拥有什么,而更多地关注不需要的东西,丢弃的瞬间给人带来更多的成就感。这也是本系列研究的初衷。那我们现在就来看下这5年来的成果。

主要板块非常明显:

1、香港

2、数据新闻

3、成电校友

4、浸会大学

其中 1.1 是泛技术群组,其中大多数是ITQ的分群、活动群,单次使用之后,会被大多数人mute掉,只留下强制读报、三无招聘等信息。去年底我解散了ITQ主群,由几位热心群主发起分群,目前区块链、数据、创业三个群还在活跃中。1.1 范围内,有一半与ITQ无任何关系,但是,因为用户(红色节点)的重合,他们被拉到了一起。这也说明了我的主要网络,是从运营ITQ开始,辐射开来的。

1.1 之外的部分,就是各种香港杂牌群组,如行山、聚餐等。

2 是数据新闻板块,和4浸会大学很近,这两个板块与我的工作紧密相关。由于2多是业界、4多是学生,所以两边的联系比较稀疏,有明显的社区分界。两个板块中间的几个红点,主要是几位浸会的老师、和几位比较活跃的同学。希望再过几年(如果有?)再做这个图的时候,2、4板块可以更多粘合在一起,就说明我们的学生已经在业界占有一席之地了。

2.1 是可视化的兴趣组。主要是CSIG可视化专委会的几个群和成员。从我的ego net的方向来看,数据可视化是在数据新闻板块,但距离更远。专门从事可视化研究、偶尔应用到数据新闻领域的老师,可能会看到相反的结果。

3 是成电校友的大板块,数量和密度是非常高的。这是一方面是由校友关系的性质决定,另一方面也展示出一个有趣的现象,就是中大(CUHK)板块并没有像成电这样突出。中大的群不少,嵌入在了1.1里面。成电板块中比较多的还是港漂,人员构成上,和中大板块是接近的。两种不同的结构,一方面显示身份标识的强弱有别,另一方面也由两边所用的平台的差异导致。中大更国际化,所以校友社区在Facebook、Whatsapp上都有,微信上的群组和活动相对较少。不论网络的疏密程度,有一个深刻的体会,几年从业下来,成电人和中大人都不水。正好最近不少朋友跑来要人(又一轮人才荒来袭?),下篇我准备观察一下板块1.1和3.1中间的红点。

板块3的内部结构很有意思。3.1 是成电香港校友,可以看到群的尺寸差异很大,有广播用的大群,也有零零散散的活动群,从工作创业到吃喝玩乐,应有尽有。3.2是成电的非香港群,主要不是按照地域、而是按照兴趣和属性划分的群组,比如成电互联网、成电创业。3.2板块里的跨区域、跨行业群组、用户都很多,相信输入一句「no fog」后,3.2会是该ego net连接世界的gateway。这区域里面典型的群是2015-2018年的成电校友会会长、秘书长联席会议群。3.3骨骼比较清奇,是较为专一主题的区块链群。这里面因为有不少用户节点是非成电的,所以在斥力作用下跑得比较远。

区块链招人哪里找?3.3 和 1.1 之间看看。ITQ分群中最大的一个,也是在边界上的一个是「ITQ-Blockchain」,在布林克的喉咙上。了解一下?

## 技术问答

[1] 这个问题非常棒,我正准备讲,数据是用Python的itchat库抓的。默认只能抓到前面3-5个群组,GitHub#480在讨论,但网上暂时没有结果。这里需要hack一下。

[2] 这个图本质是二分图(bipartite),不是常规图(general graph)。我们直接用常规图的算法,跑二分图,效果还不错,就不做优化了。如果效果不好,可能要处理一下。常见的套路是邻接矩阵和自己做内积(A^T * A),换成共现矩阵。也可以有更复杂的处理。本质上是生成某种相似度度量,在图中作为边的权重。

## Gephi 体验

[1] 在MAC上,Overview窗口里面做平移很困难,我的版本上只能通过zoom in/out切换到不同的位置。

[2] 运算量的限制。跑20000条边、15000节点的 force simulation,程序崩溃了。电脑是三年前的,但配置不差,Intel core i7,32GB。

[3] 找不到一个reset/clear graph的选项。如果从导入数据开始重做又太费事了。 GitHub#480 从11年讨论这个问题,该功能在0.8版本有,0.9又去掉,反复过几次。

發佈評論

看不過癮?

一鍵登入,即可加入全球最優質中文創作社區