为啥要这个index 建立索引为什么 hisat2
索引(index)是帮助MySQL高效获取数据的数据结构(有效),在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据, 这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。简而言之:帮助MySQL高效的查询出数据的数据结构叫做索引。
索引类似于书籍的目录,提高数据检索的效率,减少数据库IO的成本
通过索引列对数据进行排序,降低数据排序的成本,降低CPU的消耗
首先,bowtie的作用就是在一个大字符串里面搜索一个小字符串!那么本身就有一个非常笨的复杂方法来搜索,比如,大字符串长度为100万,小字符串为10,那么就依次取出大字符串的10个字符来跟小字符串比较即可,这样的算法是非常不经济的,我简单用perl代码实现一下。
http://www.biotrainee.com/thread-26-1-1.html
----
bowtie第三讲:序列查询。
自己动手写bowtie第一讲:BWT算法详解并建立索引
**
写在前面index问题1:为什么要index
**
为什么比对的时候需要用到index?这里强烈建议大家去看Jimmy写的bowtie算法原理探究bowtie算法原理探究。
高通量测序遇到的第一个问题就是,成千上万甚至上几亿条read如果在合理的时间内比对到参考基因组上,并且保证错误率在接受范围内。为了提高比对速度,就需要根据参考基因组序列,经过BWT算法转换成index,而我们比对的序列其实是index的一个子集。当然转录组比对还要考虑到可变剪切的情况,所以更加复杂。
因此我门不是直接把read回贴到基因组上,而是把read和index进行比较。人类的index一般都是有现成的,我建议大家下载现成的,我曾经尝试过用服务器自己创建index,花的时间让我怀疑人生。
链接:https://www.jianshu.com/p/681e02e7f9af
来自官网:为了用整个index代表整个基因组,HISAT2 用小的index覆盖了整个基因组,每个index覆盖了56 Kbp的范围,覆盖整个人类基因组需要55,000 indexes,这些index结合其他策略可以快速准确的比对序列。
写在前面index问题2:如何获得index
1 HISAT2官网下载
人类和小鼠的索引有现成的,HISAT2官网可以直接下载进行序列比对。如下图所示:选择hg19和mm10的index,文章中RNA-Seq测序数据,可以包括人类和小鼠的数据,因此需要小鼠和人类的索引。
作者:Y大宽
链接:https://www.jianshu.com/p/479c7b576e6f
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
1.需要建立一个index文件有两种方法。
为啥要这个index?需要把测序数据和这个参考基因组做对比,但是又不能直接和基因组做对比,不然哪儿跟哪儿可能区分不开,只能拿个简化版的注释文件做对比。
第一种,直接去HISAT2这个网站下载就好了。生信小白就是这么干的。这次采用的是mm10 j基因组,所以下载了这个,但是,wget 方式太慢,又没有迅雷会员,便用IDM软件下载,还算快吧,但也好久了。(15:00 -24:00)
第二种方式,自己下载基因组,自己用Hisat2软件构建index文件,但是我看不懂,更不会自己构建,算了,还是直接下载吧。
————————————————
版权声明:本文为CSDN博主「leo12354」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/leo12354/article/details/105954250