转录组入门,了解参考基因组及基因注释

作者: 金沙澳门官网网址  发布:2019-09-21

职分列表

转录组入门(4):精晓参谋基因组及基因注释,转录基因组

职分列表

  • 1.在UCSC下载hg19参谋基因组;
  • 2.从gencode数据库下载基因注释文件,何况用IGV去查看感兴趣的基因的构造,譬喻TP53,KRAS,EGF中华V等等。
  • 3.截图多少个基因的IGV可视化结构
  • 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构
  • 5.了解IGV常识

在UCSC下载hg19参照他事他说加以考察基因组 hg19、GRCH38、 ensembl75那3种基因组版本应该是我们见得相当多的了,国际通用的人类参考基因组,其实她们积存的是同等的fasta系列,只是个别对应着二种国际生物音信学数据库能源收罗存储单位,即NCBI,UCSC及ENSEMBL各自发表的基因组音讯而已。有一部分参照基因组非常的小众,存款和储蓄的队列也分化,例如BGI做的中国家基础因组,还会有DNA双螺旋结构提议者沃森(Watson)的基因组,还应该有二零一四年刊登在nature上边的可以称作最周密的印尼人做的基因组。早先时代大家先不思虑那几个小众基因组,主要就下载hg19和hg38,都以UCSC提供的,就算hg38比照hg19以来,做了好些个改良,优点也相当的多,但因为方今截止相当多批注消息都是本着于hg19的坐标类别来的,大家就都下载了,正好本人钻探一下。也顺手下载叁个小鼠的最新版参照他事他说加以考察基因组吧,反正比对也正是睡个觉的素养,顺便深入分析一下结出,看看比对率是或不是十分低。

mkdir rna_seq/data/reference && cd rna_seq/data/reference
mkdir -p genome/hg19 && cd genome/hg19
# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# nohup 是永久执行,& 是指在后台运行。nohup COMMAND & 这样就能使命令永久的在后台执行
nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa

从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的构造 下载基因注释文件 官方网站:

wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode.v26lift37.annotation.gtf.gz

  下载安装IGV、BEDtool 官方网址: Binary Distribution 版本)

wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz
tar -zxvf bedtools-2.26.0.tar.gz
cd bedtools2
make

  截图几个基因的IGV可视化结构 批量截图:TP53,KRAS,EGF路虎极光

grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed
grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed
~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt

grep是叁个多用途的公文搜索工具,linux中选择非常频仍,何况利用很灵巧,能够是变量,也能够是字符串。最中央的用法有以下二种:

  • 1.查找内容中无空格,能够直接实行grep命令,比方:grep pass a.txt,表示在a.txt文件中寻找pass所在的行
  • 2.假使搜索内容中有空格,则供给运用单引号可能双引号把寻找内容引起来,例如:grep "hello all" a.txt也许grep 'hello all' a.txt,假如不加单双引号,则提示错误,不恐怕辨别,因为不加引号,间接grep hello all a.txt,表示在all和a.txt中找寻hello,那早晚是难堪的

grep -w option file:精确寻找,能够说正确性搜索,比方:grep -w b* a.txt:此命令推行时,*不会默感觉其余字符,只表示字面意思,便是一个*字符

管道命令操作符:”|”,它仅能处理经由前面一个指令传出的正确输出信息,也就是 standard output 的信息,对于 stdandard error 信息没有直接处理能力。然后,传递给下一个命令,作为标准的输入 standard input

cut 命令从文件的每一行剪切字节、字符和字段并将这一个字节、字符和字段写至正规输出。倘若不点名 File 参数,cut 命令将读取标准输入。必得钦定 -b、-c 或 -f 标记之一。使用 -f 选项提取钦定字段 下载ENSEMBL,NCBI的gtf

axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz
axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz

axel  ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz
axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz

职责列表 1.在UCSC下载hg19参照基因组; 2.从gencode数据库下载基因注释文件,而且用...

  • 1.在UCSC下载hg19参照他事他说加以考察基因组;
  • 2.从gencode数据库下载基因注释文件,何况用IGV去查看感兴趣的基因的组织,举个例子TP53,KRAS,EGF福特Explorer等等。
  • 3.截图几个基因的IGV可视化结构
  • 4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构
  • 5.了解IGV常识

在UCSC下载hg19参照基因组

hg19、GRCH38、 ensembl75那3种基因组版本应该是豪门见得比较多的了,国际通用的人类参谋基因组,其实她们储存的是平等的fasta类别,只是个别对应着二种国际生物音讯学数据库能源搜罗存款和储蓄单位,即NCBI,UCSC及ENSEMBL各自发表的基因组消息而已。有一部分参谋基因组十分小众,存款和储蓄的行列也分化样,比方BGI做的华夏基因组,还会有DNA双螺旋结构提议者沃森(Watson)的基因组,还应该有二〇一四年登出在nature上面包车型客车叫做最周到的印尼人做的基因组。中期大家先不考虑那个小众基因组,首要就下载hg19和hg38,都以UCSC提供的,尽管hg38相比hg19的话,做了重重更进一竿,优点也非常的多,但因为近期结束非常多解说新闻都以对准于hg19的坐标种类来的,我们就都下载了,正好自身商量一下。也顺烧伤载多个小鼠的最新版参照他事他说加以考察基因组吧,反正比对也便是睡个觉的武术,顺便分析一下结实,看看比对率是或不是异常低。

mkdir rna_seq/data/reference && cd rna_seq/data/reference
mkdir -p genome/hg19 && cd genome/hg19
# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
# nohup 是永久执行,& 是指在后台运行。nohup COMMAND & 这样就能使命令永久的在后台执行
nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar zvfx chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*.fa

从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的组织

下载基因注释文件

官网:

wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz
gzip -d gencode.v26lift37.annotation.gtf.gz

 

下载安装IGV、BEDtool

官网: Binary Distribution 版本)

本文由金沙澳门官网发布于金沙澳门官网网址,转载请注明出处:转录组入门,了解参考基因组及基因注释

关键词: 金沙澳门官网

上一篇:虚构机安装Kali
下一篇:没有了