不正确的记忆(一)

ZandY
支持者

你们留下的历史和数据,真的让我汗颜。普林斯顿大学的Han Zhang和斯坦福大学的Jennifer Pan曾经用过你们公布的Wickedonna数据集,开发出了一个自动化识别社交媒体上的群体性事件的AI算法。

我不知道你是否已经知晓这个研究,但希望这个消息能够让你感到一点安慰。

從 Mary 看水軍行為學

ZandY
支持者

挺有趣的啊!我虽然也怀疑这些五毛评论是和墙内一脉相承、copy&paste,但也没有去验证过是否同时存在于墙内网站的评论区。感谢提醒,我觉得可以把这一点也加到论文里去了

BTW,可以引申一下我那篇文章,不然我都不知道你写了这个😂

English learning mathods | 正确看待“自然拼读法”,切勿神化

微博上疑似审查的痕迹

ZandY

最近搞大数据防疫、筛查潜在感染者时也有recall&precision的问题。这也是一个典型的技术介入社会的边界问题了

ZandY

有趣,我确实没意识到可能是博主自己设置的。

不过在未登录状态下是可以高级搜索的,这就是我的爬虫原理之一

ZandY
回覆
努力思考@nothink

未登录不可见,我确实想不出原因来。商业动机我觉得说服力不强,因为并没有提示“你必须登录才能阅读这条微博”,很难转化潜在用户。这个甚至可能只是一个无意间的技术bug,结果让我们抓破脑袋。

对啊,中国的审查产业,过于地荒唐离奇……

ZandY
回覆
努力思考@nothink

我也是这么以为的,所以才会觉得在这里可以(部分)看出(可能是)审查的痕迹,因为在显示时被过滤了。

其实Google的检索结果也会有这种情况,不过它的理由是“过于相似”

ZandY

我比较怀疑是微博在主动限制影响力(降温)。不过网警通过搜索引擎来巡逻这个信息倒是很新颖,能确认吗?

ZandY

是,那些只缺少一两条微博的可能是bug。不过缺失特别多的是某些特别的关键词和日期,所以我怀疑很可能是审查

Twitter中文水军:在不存在的世界里打一场宣传战

ZandY
  1. 代码和数据之后会开源
  2. 算法不是重点。和Miller不一样。我没说Adaboost是分类器,base algorithm是decision tree
  3. 随便去爬其他关键词很难找到有同样频率的账号群。null model的核心是表现出coordination
ZandY

因为Twitter的封禁算法并不没有想象中的那么完美,尤其是对于翻墙不断换IP的号,误杀很常见,可以申诉试试