尿尿
尿尿

我是卑微的尿尿,总有一天,我会让你们每个该吃屎的人都吃屎

Day3 DS review - import datasets, programming with dplyr

学得太多了有点overwhelming



我们要来import data 了


这个是utils,自带的,啥也不用装


. 系列


基本上看看read.csv 和 read.csv2 的區別,我也说不上咋区别了,但是吧,就是有区别


readr 一生推?





传说中的fread



好像带hypfen的都比较不错, 但是要load readxl



辣鸡的gdata




gdata 听说很垃圾



XLconnect 搞Excel - 把RG的那个list 用r整理出能用的list 可能会用上XLconnect















ggplot breaks 的用法很特殊,特此一记


replace 还有missing value 记得有一个课讲missing value 讲得特别好,但是我忘了是啥课,好像是和sentiment analysis有关的,可能是tidy verse toolbox



no output=passed


但是要用filter


dropping full duplicates 好简单哈哈哈哈就是个distinct,但是data.table里好像有更复杂的解


找重复 也有万金油

万金油呵呵



dropping partial duplicates 其实是有万金油的

semi-join就是除怪,把怪踢出去




anti-join 是找怪,把怪单领出来

这个是和factor 有关的,data cleaning这门课说得很清楚。但是知识很杂,基本上每一章都可以另成一本书了

感觉到最后做project的时候会很管用,就是查level有没有啥奇奇怪怪不符合逻辑的归类

感觉stringr应该重新开一个文章。。。

整个str家族都很牛逼,还能detect 哈哈哈

这个filter的用法也很神奇,啥也不写,就assume了logically TRUE


感觉如果不说_all的话,可能就只改第一个见到的




这个有点傻的知识点,只是想remind myself 一下


课programming with dpyr, 我觉得这个课教一些tidyverse dplyr 比较高阶的常识

真的,像什么across,还有前面带点的那些东西,要慢慢适应,不要怕

.keep = "used" 只会让那些用到过的columns 出现

.keep 的default 是全部

across 其实就是同时apply to multiple columns




感觉sub 是stringr里的,整个string manipulation 其实和NPL还有sentiment analysis是相关的。sentiment analysis 就是数褒义词和贬义词。



CC BY-NC-ND 2.0 版权声明

喜欢我的文章吗?
别忘了给点支持与赞赏,让我知道创作的路上有你陪伴。

加载中…

发布评论