在线时间:8:00-16:00
迪恩网络APP
随时随地掌握行业动态
扫描二维码
关注迪恩网络微信公众号
1.提高程序效率,保证执行速度 (1)尽量使用向量化运算 (2)尽量使用矩阵,必要时才使用数据框 (3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL (4)将外部数据导入矩阵时,使用scan函数 (5)删除临时对象和不再用的对象 (6)用ls.objects()列出工作区对象占用的内存大小 2.把数据存在外部 (1)ff包:将数据保存在硬盘,操作起来跟在内存中一样 (2)bigmemory包:支持大规模矩阵的创建 (3)filehash:keyvalue数据库,value在硬盘中 (4)ncdf,ncdf4:读取cndf格式 (5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite 3.使用大规模数据专门的统计方法包 (1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型 (2)biganalytics提供了k-means,column statistics和一个对biglm的封装 (3)bigtabulate提供了table,split和tapply (4)bigalgebra提供了高等线性代数函数 (5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归 (6)brobdingnag包处理大数字 4.大型文本文档常用包 (1)fread:data.table包,大型文本文档读放 (2)read.table.ffdf,read.csv.ffdf:ff包 (3)read.big.matrix:bigmemory,无法在windows下 (4)read.csv.sql:sqldf包 (5)read.table |
请发表评论