不正确的记忆(一)
你们留下的历史和数据,真的让我汗颜。普林斯顿大学的Han Zhang和斯坦福大学的Jennifer Pan曾经用过你们公布的Wickedonna数据集,开发出了一个自动化识别社交媒体上的群体性事件的AI算法。
我不知道你是否已经知晓这个研究,但希望这个消息能够让你感到一点安慰。
從 Mary 看水軍行為學
挺有趣的啊!我虽然也怀疑这些五毛评论是和墙内一脉相承、copy&paste,但也没有去验证过是否同时存在于墙内网站的评论区。感谢提醒,我觉得可以把这一点也加到论文里去了
BTW,可以引申一下我那篇文章,不然我都不知道你写了这个😂
English learning mathods | 正确看待“自然拼读法”,切勿神化
学英语,至少,应该写对methods?
微博上疑似审查的痕迹
更核心且难的问题也就是,misclassification的成本谁来承担
最近搞大数据防疫、筛查潜在感染者时也有recall&precision的问题。这也是一个典型的技术介入社会的边界问题了
有趣,我确实没意识到可能是博主自己设置的。
不过在未登录状态下是可以高级搜索的,这就是我的爬虫原理之一
正在爬万方的数据,感觉这个方法有用
未登录不可见,我确实想不出原因来。商业动机我觉得说服力不强,因为并没有提示“你必须登录才能阅读这条微博”,很难转化潜在用户。这个甚至可能只是一个无意间的技术bug,结果让我们抓破脑袋。
对啊,中国的审查产业,过于地荒唐离奇……
我也是这么以为的,所以才会觉得在这里可以(部分)看出(可能是)审查的痕迹,因为在显示时被过滤了。
其实Google的检索结果也会有这种情况,不过它的理由是“过于相似”
mark了,有空找来看看
有意思。我之前还没注意到那个关于API的解释。
你在任的时候,连微博都没有。你说,是不是你不行?
我比较怀疑是微博在主动限制影响力(降温)。不过网警通过搜索引擎来巡逻这个信息倒是很新颖,能确认吗?
是,那些只缺少一两条微博的可能是bug。不过缺失特别多的是某些特别的关键词和日期,所以我怀疑很可能是审查
Twitter中文水军:在不存在的世界里打一场宣传战
- 代码和数据之后会开源
- 算法不是重点。和Miller不一样。我没说Adaboost是分类器,base algorithm是decision tree
- 随便去爬其他关键词很难找到有同样频率的账号群。null model的核心是表现出coordination
我原文里面有一个null model的图,虽然不是正常人类的network,但也能看出区别
因为Twitter的封禁算法并不没有想象中的那么完美,尤其是对于翻墙不断换IP的号,误杀很常见,可以申诉试试
Cool. 刚刚去看了一眼,也很有趣
是一篇很好的研究,这两位都是作者。您做的努力,是真的不可磨灭地留了下来了