Bedtools

使用bedtools对两个文件取交集

:warning: 报错了

a record where naming convention (leading zero)

参考作者的解决办法加上 -nonamecheck参数

intersectBed

  • 比较A文件与B文件是否有交集,有则将文件A与文件B输出在同一行,若无交集则输出A文件位置其余对于的位置使用-1补齐

    intersectBed  -a CpG_context_D1.bed -b exon_3.bed -loj|less
    ## 获取匹配的行,会将b文件写在后面

fastaFromBed

根据基因组位置来提取对应的fasta序列

序号注意的细节是,bed从0开始计数,而gff文件中序列的坐标是从0开始的,因此使用gff中的坐标做bed文件时会存在一个碱基的误差

~/software/bedtools2-2.29.0/bin/fastaFromBed -fi ~/genome_data/genome_Garb.CRI/G.arboreum.Chr.v1.0.fa  -fo 1 -name -bed A2_intronR.txt
  • -fi 指定基因组序列文件

  • -fo 输出文件

  • -name+ 以bed文件中的坐标作为基因名

  • -name 以bed文件中第4列作为基因名,如果第4列有重复好像就会为空

  • -bed 基因坐标文件

  • -s 提取对应的正负链

:warning: 从使用bedtools提取的时候,开始坐标不会被提取所以会少掉一个碱基。

提取序列中GC碱基含量

这里GC含量指的是,GC碱基的占比

  • 提供参考基因组序列

  • 提供对应的位置bed信息

windowMaker

  • -g 或者b指定输入文件类型

  • -w指定窗口大小

  • -s指定滑动的窗口大小,不指定的话就等于 -w参数大小

  • -n固定窗口数目

  • -i指定输出文件的id号

将bed文件转换为BAM文件后,建索引方便提取数据

提取基因启动子区域序列

Last updated

Was this helpful?