当前位置：首页 > news >正文

为啥要这个index 建立索引为什么 hisat2

news 来源：原创 2024/11/2 18:20:45

索引（index）是帮助MySQL高效获取数据的数据结构（有效），在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引。简而言之：帮助MySQL高效的查询出数据的数据结构叫做索引。

索引类似于书籍的目录，提高数据检索的效率，减少数据库IO的成本
通过索引列对数据进行排序，降低数据排序的成本，降低CPU的消耗

首先，bowtie的作用就是在一个大字符串里面搜索一个小字符串！那么本身就有一个非常笨的复杂方法来搜索，比如，大字符串长度为100万，小字符串为10，那么就依次取出大字符串的10个字符来跟小字符串比较即可，这样的算法是非常不经济的，我简单用perl代码实现一下。

http://www.biotrainee.com/thread-26-1-1.html
----

bowtie第三讲：序列查询。
自己动手写bowtie第一讲：BWT算法详解并建立索引
**

写在前面index问题1：为什么要index

**
为什么比对的时候需要用到index？这里强烈建议大家去看Jimmy写的bowtie算法原理探究bowtie算法原理探究。
高通量测序遇到的第一个问题就是，成千上万甚至上几亿条read如果在合理的时间内比对到参考基因组上，并且保证错误率在接受范围内。为了提高比对速度，就需要根据参考基因组序列，经过BWT算法转换成index，而我们比对的序列其实是index的一个子集。当然转录组比对还要考虑到可变剪切的情况，所以更加复杂。
因此我门不是直接把read回贴到基因组上，而是把read和index进行比较。人类的index一般都是有现成的，我建议大家下载现成的，我曾经尝试过用服务器自己创建index，花的时间让我怀疑人生。
链接：https://www.jianshu.com/p/681e02e7f9af

来自官网：为了用整个index代表整个基因组，HISAT2 用小的index覆盖了整个基因组，每个index覆盖了56 Kbp的范围，覆盖整个人类基因组需要55,000 indexes，这些index结合其他策略可以快速准确的比对序列。

写在前面index问题2：如何获得index
1 HISAT2官网下载
人类和小鼠的索引有现成的，HISAT2官网可以直接下载进行序列比对。如下图所示：选择hg19和mm10的index，文章中RNA-Seq测序数据，可以包括人类和小鼠的数据，因此需要小鼠和人类的索引。

作者：Y大宽
链接：https://www.jianshu.com/p/479c7b576e6f
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1.需要建立一个index文件有两种方法。

为啥要这个index？需要把测序数据和这个参考基因组做对比，但是又不能直接和基因组做对比，不然哪儿跟哪儿可能区分不开，只能拿个简化版的注释文件做对比。

第一种，直接去HISAT2这个网站下载就好了。生信小白就是这么干的。这次采用的是mm10 j基因组，所以下载了这个，但是，wget 方式太慢，又没有迅雷会员，便用IDM软件下载，还算快吧，但也好久了。（15：00 -24:00)

第二种方式，自己下载基因组，自己用Hisat2软件构建index文件，但是我看不懂，更不会自己构建，算了，还是直接下载吧。
————————————————
版权声明：本文为CSDN博主「leo12354」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/leo12354/article/details/105954250