生物信息数据存储、管理规范
备注:以下内容来源于生信与NGS⾏业交流群群友,并由群主进行汇总,因博客本身是记录笔记作用,且内容不涉密,分享给大家。又因为无链接,无法设置转载,所以设置的原创。
由于数据项⽬的持续积累,导致存储空间⽇渐不⾜,且包含⼤量⽆⽤中间数据。为了增加存储空间的利⽤率,减少⽆效或冗余数据的持续积累,请严格执⾏以下4个规范开展⽣信分析⼯作:
规范⼀:分析时合理使⽤tmp⽬录
- 个⼈tmp⽬录:/Path/To/user_tmp
- 使⽤⽅法: a. 设置分析程序、流程的输出⽬录为个⼈tmp⽬录,将各项⽬不重要的中间⽂件保存到tmp⽬录下。 b. 将最终结果⽂件拷⻉到项⽬正式⽬录下永久保存和备份。
- 清理:每⽉初,系统⾃动删除tmp⽬录中2个⽉前⽣成的⽂件。tmp⽬录的数据不会备份,请⼤家各⾃确保数据的完整。
规范⼆:开发时,在软件、流程、API中加⼊存储优化操作
1.数据压缩:部分必须保留的fastq或其他纯⽂本型⼤体积⽂件,需压缩为gz等格式,减⼩⽂件体积。
2.数据删除:对熟悉的软件编写标准分析流程或批处理命令时,在流程或命令末尾加⼊中间⽂件删除命令。
规范三:冷数据归档(待完成本地集群部署后实施
归档:对于已经完结的项⽬(尤其是数据>10G的),请在项⽬结束后的2个⽉内,将项⽬数据转移到⼆级存储的归档⽬录(建议进⾏打包压缩)。readme文件中包含数据二级结构,并含有分析人、需求人、项目内容、简易结论等信息。
规范四:系统定期⾃动扫描磁盘⼤⽂件(待完成本地集群部署后实施
1.扫盘:每⽉初扫描⽤户数据⽬录(tmp除外),记录3个⽉前⽣成的⼤⽂件/⽬录(暂定为体积⼤于1G),将⼤⽂件列表保存在指定位置,并通过邮件发送给对于⽤户。(请严格执⾏规范⼀、⼆,尽量避免在项⽬⽬录下产⽣⼤量数据。)
2.白名单:⼀周内,各⽤户整理需要保留⽂件或⽬录的⽩名单,管理员将⽩名单加⼊扫描系统中,避免再次扫描。
3.删除:各用户在⼀周内完成大体积数据的删除工作。
4.提醒:未及时清理的大文件,系统每日会自动发邮件提醒处理大文件。
注: ⼀级存储:性能好,适合高频数据读写操作。用于存储所有项目的数据。
⼆级存储:性能次之,适合低频读取。用于单向同步⼀级存储数据;归档保存项目冷数据。