当前位置: 首页 > news >正文

生物信息数据存储、管理规范

备注:以下内容来源于生信与NGS⾏业交流群群友,并由群主进行汇总,因博客本身是记录笔记作用,且内容不涉密,分享给大家。又因为无链接,无法设置转载,所以设置的原创。

  由于数据项⽬的持续积累,导致存储空间⽇渐不⾜,且包含⼤量⽆⽤中间数据。为了增加存储空间的利⽤率,减少⽆效或冗余数据的持续积累,请严格执⾏以下4个规范开展⽣信分析⼯作:

规范⼀:分析时合理使⽤tmp⽬录

  1. 个⼈tmp⽬录:/Path/To/user_tmp
  2. 使⽤⽅法: a. 设置分析程序、流程的输出⽬录为个⼈tmp⽬录,将各项⽬不重要的中间⽂件保存到tmp⽬录下。 b. 将最终结果⽂件拷⻉到项⽬正式⽬录下永久保存和备份。
  3. 清理:每⽉初,系统⾃动删除tmp⽬录中2个⽉前⽣成的⽂件。tmp⽬录的数据不会备份,请⼤家各⾃确保数据的完整。

规范⼆:开发时,在软件、流程、API中加⼊存储优化操作

1.数据压缩:部分必须保留的fastq或其他纯⽂本型⼤体积⽂件,需压缩为gz等格式,减⼩⽂件体积。

2.数据删除:对熟悉的软件编写标准分析流程或批处理命令时,在流程或命令末尾加⼊中间⽂件删除命令。

规范三:冷数据归档(待完成本地集群部署后实施

归档:对于已经完结的项⽬(尤其是数据>10G的),请在项⽬结束后的2个⽉内,将项⽬数据转移到⼆级存储的归档⽬录(建议进⾏打包压缩)。readme文件中包含数据二级结构,并含有分析人、需求人、项目内容、简易结论等信息。

规范四:系统定期⾃动扫描磁盘⼤⽂件(待完成本地集群部署后实施

1.扫盘:每⽉初扫描⽤户数据⽬录(tmp除外),记录3个⽉前⽣成的⼤⽂件/⽬录(暂定为体积⼤于1G),将⼤⽂件列表保存在指定位置,并通过邮件发送给对于⽤户。(请严格执⾏规范⼀、⼆,尽量避免在项⽬⽬录下产⽣⼤量数据。)

2.白名单:⼀周内,各⽤户整理需要保留⽂件或⽬录的⽩名单,管理员将⽩名单加⼊扫描系统中,避免再次扫描。

3.删除:各用户在⼀周内完成大体积数据的删除工作。

4.提醒:未及时清理的大文件,系统每日会自动发邮件提醒处理大文件。

注: ⼀级存储:性能好,适合高频数据读写操作。用于存储所有项目的数据。

       ⼆级存储:性能次之,适合低频读取。用于单向同步⼀级存储数据;归档保存项目冷数据。

相关文章:

  • 设计微信小程序/网站怎么优化推广
  • 部门网站建设方案/浙江网站推广公司
  • wordpress 全屏幻灯片/进入百度app查看
  • wordpress发表的文章点不开/app拉新渠道
  • 网站开速度 流失/看b站视频软件下载安装
  • 中国建设综合门户网站/网站一般怎么推广
  • RNN从理论到实战【实战篇】
  • 【第25天】SQL进阶-查询优化- performance_schema系列实战二:锁问题排查(全局读锁)(SQL 小虚竹)
  • C# 中的闭包一个小问题
  • 《Buildozer打包实战指南》第二节 安装Kivy和Buildozer
  • 达梦数据库导入dmp文件
  • linux基功系列之man帮助命令实战
  • Transformer模型详解相关了解
  • Eclipse 连接 SQL Server 数据库教程
  • 实时更新的github hosts地址
  • 一周技术学习笔记(第97期)-掌握DDD不是想象的那么容易吗?
  • 计算机基础(六):静态链接与动态链接
  • Tslib配置文件ts.conf