🎨
booknote
  • Zpliu'Booknote
  • ggplot2
    • 不继承原有数据
    • Untitled Folder 1
      • 直方图绘制
    • 02基于Github笔记实现
    • 回归分析
    • 饼图
    • Theme函数
    • 直方图
    • 分面
    • pheatmap
    • 折线图
    • 桑基图
    • GO富集分析图
    • jupyter内使用R
    • 维恩图
    • 自定义图例
    • ggridges 山峦图
    • GO气泡图
    • 散点图
    • 从数据框中计算频率
    • 箱型图
  • 前端操作
    • 实例练习
      • 动态搜索网页
        • 后端
          • Node 服务框架
          • primer数据表的增删改查
          • 前端post请求
          • login 验证
          • Vue模板
            • Vue-router前端渲染
            • main.vue
          • 基于cookie登录验证
          • 使用mysql包进行数据库的交互
          • 数据库表
            • 学生信息表
            • 用户登录表
            • mysql 事务
            • 教师表
            • 引物表
          • mysql服务
          • html模板页面
            • 错误模板页
          • 08文件上传与下载
        • 解决webpack打包后文件过大问题
        • 前端
          • vue
            • 基于element-ui框架
            • 06 个人主页
            • 08上传组件el-upload
            • element-ui
            • Vue 构建前端框架
            • login登录界面
            • 07表格多选
            • show-data页面
          • vue-cookie
          • vue-router
            • 路由组件传参
        • Appach代理服务转发node
      • pie-progress
        • 01
      • 登录界面
      • Untitled
    • JavaScript
      • fasta文件校验
      • codewar中的练习题
      • 6kyu
      • chapter03
        • 数据类型
      • tweenjs
    • css
      • CSS布局
      • 02定位
    • 前端使用ajax进行异步请求
    • gitbook
    • html
      • 03表格
      • Vue星空
    • Log for study
  • 可变剪切
    • 第六次分析
      • 设计引物
      • 多倍化过程中的变化3
      • 不同棉种间AS的差异
      • At与Dt中不存在保守转录本的基因
      • AS调控基因表达
      • 多倍化过程中变化2
      • 可变剪切统计
      • 可变剪切的进化分析
      • 保守AS模式的鉴定
      • 提纲
      • 可变剪切的翻译分析
      • 多倍化过程中isoform的变化
      • 表观遗传在AS中的作用
      • 全长转录本数据的统计
      • 表观遗传在AS中的作用2
    • 03表观遗传与可变剪切
    • 数据处理流程
      • 计算同源基因间AS的保守程度
      • 重新开始鉴定AS.md
      • 统计IR保守性比例
      • 基因分类
      • 20200111可变剪切数目统计
      • 完全保守的基因对
      • 20200315
      • 20200214
      • 第三个结果
      • 20191230对AS类型进行定义
      • AS保守程度的统计
      • 20200219合并IR
      • 20200320
      • IR事件保守的长度
      • 分析同源基因中发生IR事件的频率
      • 保守的IR的长度统计
      • 筛选基因用于GO富集分析
      • 2020102把没有发生剪切事件的位置找出来
      • 对剪切事件进行分类
      • 06比较不同棉种中isform的差异
      • 甲基化数据处理
      • 寻找motif
      • 根据IR的保守程度对基因进行GO富集分析
      • 分析同源基因间可变剪切的差异
      • 基于前面已经分好的类进行统计
      • 寻找同源基因对应的位点
      • 对同源基因的剪切事件进行分类.md
      • 分析染色体上各种特征
      • HIN1下游调控基因的分析
      • intron 分布
      • 20200102GO富集分析
      • 01全长转录组数据处理
      • 甲基化重复间的处理
    • 文献理解
      • 10核小体定位决定外显子识别
      • 22
      • 09梨树中两个亚基因组经历unbiased 进化
      • 11RNA介导的局部染色质修饰对可变剪切的调控
      • 19讨论染色质开放程度与IR的关系
      • 03植物中的表观遗传
      • 06甲基化在拟南芥开花过程中的研究
      • 20可变剪切的进化
      • 14干旱积累对HIN1蛋白剪切效率的影响
      • 18内含子保留事件中不断变化的范式和调控方式
      • 04从RNA-seq研究可变剪切
      • 16多种RNA-seq策略揭示棉花中高精度的转录态势
      • 07ChIp-seq测序原理 chromatin immunoprecipitation
      • 05甲基化测序数据比对原理
      • 13使用iso-seq分析高粱转录本数据
      • 15POWERDRESS与HDA9相互作用促进去乙酰化
      • 12通过转录与染色质结构的耦合调控可变剪切
      • 英语句子
      • paper list
      • 01多组学数据揭示表观遗传
      • 02A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulat
      • 17可变剪切与表观遗传导致白血病
      • 21smallRNA与DNA甲基化
    • 文章提纲
    • AS多倍化过程中的变化
    • 软件使用
      • 01三代测序Iso-seq
      • Bedtools
      • iso-seq测序2.0版本
      • 02Chip-seq操作流程
      • EMBOSS
      • 05鉴定duplicate gene
      • 07kobas本地进行注释
      • MEME本地化
      • DNA甲基化分析流程
      • stringtie
    • 第7个结果
    • 原始数据处理
      • 01三代测序数据原理
      • 02测序read数目统计
    • 第8个结果
    • 第五次分析
      • isoform水平分析
      • rmats2sashimiplot
      • 可变剪切的鉴定
      • 使用单个样本的数据进行AS分析
    • 表观遗传
    • 保守AS的鉴定
    • 第四次分析了
      • 甲基化计算
      • AS统计
      • 分析IR在各个基因组的保守性
    • 第三次对AS进行统计
      • 鉴定DRMs区域
      • 04
      • 重新下载原始数据进行比对
      • 02
      • 01
    • 第三个结果
    • 原始read的分类
    • 表观数据分析
    • 从RNA-seq研究可变剪切
  • 文献
    • 表观遗传
      • 植物中甲基化机制以及靶向操纵工具
    • 陈增建老师
      • 文章
    • 可变剪切
      • Post-transcriptional splicing of nascent RNA contributes to widespread intron retention in plants
      • Variant phasing and haplotypic expression from long-read sequencing in maize
      • 02
      • 01
      • 可变剪接的研究进展及展望
      • 06
      • Co-expression networks reveal the tissue-specific regulation of transcription and splicing
    • panGenome
      • 番茄中广泛的结构变异对基因表达和性状改良中的作用
    • TWAS
      • TWAS解读
    • 数量遗传older
      • Reinventing quantitative genetics for plant breeding: something old, something new, something borrow
    • Untitled 1
    • 多倍化
      • Measuring and interpreting transposable element expression
      • Homoeolog expression bias and expression level dominance (ELD) in four tissues of natural allotetrap
    • 转录调控
      • 指导植物RNA聚合酶II转录的‘GPS’
      • 02综述
    • 3D基因组
      • Methods for mapping 3D chromosome architecture
      • 由粘连蛋白介导的人类基因组中染色体loop图谱
      • 经典Hi-C文献
      • 小麦染色质被组装成基因组疆域和转录工厂
      • Lamina-associated domains: peripheral matters and internal affairs
      • Three-dimensional chromatin landscapes in T cell acute lymphoblastic leukemia
      • Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer
      • Evolutionary dynamics of 3D genome architecture following polyploidization in cotton
      • On the existence and functionality of topologically associating domains
    • Untitled
    • GWAS
      • Population Genomic Analysis and De Novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary
  • CRISP Case9
    • sgRNA设计
    • 01编辑效率检测
    • Hi-TOM
    • 02检查单株覆盖度
  • python
    • matplotlib
      • 图片的基本设置
      • 韦恩图
      • 折线图
      • 堆积直方图
      • 散点图
      • imshow绘制热图
    • 爬虫
      • 根据关键字获取对应的基因
      • TE
    • 多进程
    • 基于模块化编程
    • pybedtools
      • 01API
    • 高级特性
      • 列表操作
      • pickle
    • SOS
      • Script of scripts (SOS)
    • python 解析命令行参数
    • 简单实现python多进程
    • gffutils
      • gffutils
    • 多线程读取文件
    • rpy2
      • 在jupyter中调用R代码
    • pandas
      • 取数据
    • pysam
      • 01API接口
  • cottonWeb
    • 初始化项目
    • views
      • login
      • 404页面
      • register页面
    • 后端
      • Hi-C
      • 错误代码合集
      • SequenceServer搭建网页服务
      • 手把手教你搭建JBrowse-初始化应用
      • 优化JBrowse
    • Vue中使用Echarts
    • 2配置axios请求
    • 07搜索框实时推荐
    • 动画效果
    • layout布局
    • mysql
      • 基因操作
    • 路由配置
  • Vue
    • vue-route
      • 路由
    • Vue中发起ajax请求
    • 计算属性和侦听器
    • provide inject
    • 列表渲染
    • 自定义指令
    • 事件处理
    • Vue项目
      • 九宫格实现
      • 使用vue-resource进行ajax请求
      • 在项目中使用v-router
      • 新闻页面
      • 项目迁移
      • 使用Mint UI组件库
    • 案例操作
      • 02基于Github笔记实现
      • 实现购物车功能
      • Vue组建化
      • todomvc实现日程安排
    • 页面组件化
    • Vue 实例化操作
    • vue
    • 动画的渲染
    • 模板语法
    • class & style
    • 13 动画和过渡效果
    • 02guide
    • 深入了解组件化
    • 表单输入绑定
    • 条件渲染v-if
    • vue-chartjs
      • 起步
  • 并行计算
    • 实验室考试
    • 计算圆周率PI
    • 04.forthClass
    • 使用python3中的threading模块进行简单的并行计算
    • test
      • lastTest
      • 111
    • 第三节课作业
    • 05 test
    • 04test
    • 05homework
    • 04homework
    • OpenMP
    • 集群结构
    • CPU核、多线程、多进程
    • 05Class
    • 06class
    • 07class
    • 08class
  • WebPack
    • 打包css文件
    • 基于Webpack进行Vue开发
    • 处理url 图片
    • webpack 打包Vue
    • 基于webpack的路由操作
    • webpack
  • VueCLI
    • 03组件批量注册
    • 04拖拽插件
    • 05axios跨域问题
    • 07时间轴
    • Blast+ 网页实现
    • VueCLI 安装
    • axios请求
  • Script
    • 转录因子结合位点预测
    • BinomTest
  • mysql
    • 常见函数
      • 常见函数
      • 函数
    • 查询
      • 排序查询
      • 联合查询
      • 基本查询语句
    • 字段约束条件
    • SQLyog
    • 修改
      • 修改
    • powerdesigner数据库模型设计
    • 插入
      • 插入数据
    • 事务
      • 事务
    • 添加新用户
    • 视图
      • 视图
  • 文本编辑器
    • vscode 连接数据库
    • Vue模板补齐
    • visual Studio Code
  • source_code
    • Untitled
    • 并行计算
      • 04test
    • 公众号
      • RNA-seq
    • Untitled 1
  • GWAS
    • QQ-plot
  • RNA-seq
    • 01AnalysisFlow
    • 02脚本批量提交
    • 差异表达基因
    • 文献
      • 01SPL1赋予植物热忍受能力
    • 02 建库方式
  • Linux
    • LSF
    • 02诺和致源下载数据
    • 配置阿里yum源
    • linux三剑客
    • 云梯
    • 取文件相同列
    • root基本命令
    • 服务器网站数据搬迁
    • shell脚本激活Conda环境
    • 使用vscode与服务端R交互
    • 如何使用Conda
    • vim常见使用方法
    • oh-my-zsh
    • bash中的字典与数组
  • SNP分子标记
    • vcf文件处理
  • 生信软件
    • samtools
    • bedtools
    • annovar注释SNP
    • HiC-Pro安装
    • Untitled
    • bwa使用
  • Hi-C
    • 软件
      • HiCPlotter安装
      • pre程序
    • 20200102计算共线性区间保守的boundary
    • 20200108保守的TAD
    • PanGenome
      • PanGenome与各个元件进行注释
      • Pan-Genome数据比对
      • 鉴定两个基因组之间重排
  • node
    • mysql
      • 使用Promise封装
      • 基本的SQL语句
      • mysql的增删改查
      • 在node中使用mysql
    • session与cookie保留用户登录状态
    • MongoDB
      • MongoDB中的SQL语句
      • MongoDB 数据库
      • mongoose中一些常用的查询语句
      • :pig_nose: node中使用MongoDB的实例
      • MongoDB关联查询
      • 设计数据模型
    • 保持数据库处于连接状态
    • npm
    • node中路由设计
    • express中中间件的概念
    • art-template模块的用法
    • curd增删改查的使用
    • Promise 异步编程
    • 关于express框架的学习
    • express-session
    • 配置log4js
  • Cell-Ranger
    • count输出文件夹
      • ANALYSIS
      • feature_bc_matrix文件夹
      • Analysis 结果
      • BARcoded BAM
    • CellRanger aggr
    • 10X genomics测序中用到的术语
    • single sample Analysis
    • Cell Ranger count使用手册
  • HOX3
    • 03共表达分析
    • 01RNA-seq
    • 02基因差异表达分析
  • vue-admin
    • 项目目录结构
  • R
    • dplyr
      • dpylr
      • 过滤数据框
  • 系统遗传学
    • 翻译综述
    • 从脊椎动物的视角解析衰老的遗传机制
    • 01
  • eQTL
    • PEER
      • PEER方法
      • 软件使用
    • 群体结构
      • bcftools
  • sQTL
    • HISAT2比对
    • 02数据处理
  • 资源
    • hexo服务搭建
    • 转录因子数据库
    • 前端资源
    • 01 优雅的PPT设计
    • 文章书写规范
  • SVG
    • 01起步
  • 王悦瑾
    • Bash练习题
    • Bash脚本
    • 9_28起步
  • ES6
    • 模板字符串
    • promise源码解析
    • 01
  • scRNAseq
    • 干细胞不对称分裂
      • Root stem cell niche organizer specification by molecular convergence of PLETHORA and SCARECROW tran
    • 茉莉酸代谢
    • 老年痴呆
  • 多倍体进化
    • 棉花进化
    • 棉属A基因组的起源与进化
  • Vuex
    • 解构前端登录请求
    • VueX
  • ElementUI
    • 源码学习
      • 01drawer
    • Element UI:rocket:
  • reference周记
    • 第一期
    • test
  • 苏柃
    • Bash练习
Powered by GitBook
On this page
  • 全长转录本数据统计
  • 基因所转录出的PacBio转录本数
  • 分析PloyA位点和剪接位点附近的motif
  • 剪接位点2bp的序列
  • 分析测序深度对于基因转录的影响

Was this helpful?

  1. 可变剪切
  2. 第六次分析

全长转录本数据的统计

Previous表观遗传在AS中的作用Next表观遗传在AS中的作用2

Last updated 4 years ago

Was this helpful?

全长转录本数据统计

​ 对于每个棉种的原始下机数据进行统计,统计raw sequencing data中read数和consensus read数

 samtools view m54136_180615_020020.subreads.bam |cut -f1|awk -F "/" '{print $NF}'|awk -F "_" '{print $2-$1+1}'|awk '{a+=$1}END{print a}'

棉种

raw sequence base

consensus reads count

Ga_1

12083371005

320874

Ga_2

12402699575

292447

Gr_1

9756254646

238566

Gr_2

9939418624

248497

Gh_1

16310848287

319380

Gh_2

15711398953

366003

Total

76GB

  1. 原始数据到最终得到的转录本数

    这个数据在原始数据的统计表1中有

  2. 饱和曲线分析,表明Iso-seq在基因的检测上已经达到了饱和,而对于新转录本的检测仍旧还需要提高测序深度

  3. PacBio转录本与reference转录本长度的比较

  4. PacBio转录本的exon数目与reference exons数目比较

  5. 比对转录本进行分类

    这里可以用实验去验证一些参考基因组中没有注释的剪切位点的信息;

    同时说明PacBio可以检测到一些新的剪切位点的信息

    转录本的长度分布,最长的转录本和最短的转录本对应的基因:

    基因组

    incomplete-splice matches

    unAnnotion isoform

    None gene region

    total

    prfect match

    TM1

    46127

    37265

    4924

    88316

    29737

    A2

    28544

    38570

    1880

    68994

    15035

    D5

    34829

    17141

    3264

    55234

    22787

    将Annotion进行细分:

    • 与某一个转录本的剪切位点完全相同

    • 与参考转录本的剪接位点部分相同

基因组

最短Isoform

最长Isoform

A2

evm.TU.Ga02G1745 302bp

evm.TU.Ga10G0940 12893bp unAnnotion

D5

Gorai.007G076700 301bp unAnnotion

Gorai.002G214500 12207bp

TM1

Ghir_D13G001640 311bp

Ghir_A07G019100 15431bp unAnnotion

测得的转录本长度范围在301bp到1543bp,对应的基因注释为

  • AT3G01490 301bp 蛋白激酶超家族

  • AT3G02260 15431bp 生长素转运蛋白

基因所转录出的PacBio转录本数

  1. 对基因的转录本类型进行分析

    • 只转录出Annotion 转录本的基因

    • 只转录出unAnnotion转录本基因

    • 转录出Annotion与unAnnotion转录本基因

    通过PacBio测序,发现许多基因中仍旧可以鉴定到一些没有被注释的剪切信息,

    基因组

    只转录出Annotion 的

    只转录出unAnnotion

    转录出Annotion与unAnnotion

    total

    TM1

    14953

    7861

    9153

    31967

    A2

    6857

    6200

    7156

    20213

    D5

    9470

    2137

    6630

    18237

    平均每个基因被测到FL-read数目,和转录本数

    基因组

    平均转录出Isoform数

    平均测到FL-read数

    A2

    2.6

    20.2

    D5

    3.3

    16.5

    TM1

    2.8

    14.8

比较不同基因组中在单外显子,和多外显子基因上PacBio转录本类型的数目。

基因是否是单外显子还是多外显子,取决于参考基因组中exon数目最多的那个转录本。

多外显子基因转录出更多类型的PacBio转录本,同时单外显子基因平均转录PacBio转录本的数目大于1,说明基因在转录过程中存在丰富的剪接形式。

与此同时两个二倍体物种相比于四倍体物种有着更加多的转录本

##统计每个基因的exon数目
awk  -F "\t" '$3~/exon/{print $9}' ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf|sed -e 's/;.*//g' -e 's/transcript_id \"//g' -e 's/\"//g'|sort |uniq -c |sed 's/\..*//g'|sort -k2,2 -k1,1nr |uniq -f1 1 |awk '{print $2"\t"$1}' >gene_exon_count.txt
##统计每种exon基因转录出PacBio转录本的数目
##画图的时候去除掉没有检测到PacBio转录本的基因数

分析PloyA位点和剪接位点附近的motif

剪接位点2bp的序列

对于鉴定到的所有外显子坐标进行motif的分析,第一个核苷酸最后一个核苷酸位点附近的2bp序列作为受体位点和供体位点。分析内含子剪接位点的motif

  • 供体5‘ 端GU DNA代码GT

  • 受体3’端 AG DNA代码 AG

  • 多少内含子是规范的GU-AG

##提取PacBio转录本exon的5'和3’处的2bp序列
awk '$2~/PacBio/{print $0}' ../../CO31_32_result/07_annotation/merge.gtf >PacBio.gtf
##提起内含子边界坐标序列
extract_splice_sites.py PacBio.gtf >111
awk '$4=="+"{OFS="\t";print $1,$2+1,$2+3,$1"_"$2"_"$3"*5","1",$4;print $1,$3-2,$3,$1"_"$2"_"$3"*3","1",$4}$4=="-"{OFS="\t";print $1,$3-2,$3,$1"_"$2"_"$3"*5","1",$4;print $1,$2+1,$2+3,$1"_"$2"_"$3"*3","1",$4}'  111 >intron_boundary.bed 
#奇数行为5‘ 偶数行为3’
fastaFromBed  -bed intron_boundary.bed  -fi genome.fa -name+ -s -fo  intron_boundary.fa
##供体端的motif 比例
grep "*5::" -A1  intron_boundary.fa |sed '/^[>-]/d'|awk '$1=="GT"{a+=1}END{print a/NR}'
##受体端的motif 比例
grep "*3::" -A1  intron_boundary.fa |sed '/^[>-]/d'|awk '$1=="AG"{a+=1}END{print a/NR}'
##intron 规范边界比例
sed '/^>/d' intron_boundary.fa |awk 'NR%2!=0{printf $1}NR%2==0{print $0}'|awk '$0=="GTAG"{a+=1}END{print a/NR}'

基因组

规范供体

规范受体

规范的内含子

TM1

0.93

0.95

0.92

A2

0.93

0.945

0.92

D5

0.92

0.934

0.909

Iso-seq 精确的确定了ployA的位置和内含子的边界

内含子边界的motif序列信息,以及主要的内含子是由哪种motif组成的。

  • 单外显子转录本

  • 多外显子基因,其中多少基因会产生多个转录本结构

  • 分析多外显子转录本的长度分布

  • 分析参考基因组中鉴定到的多个TSS基因在PacBio有多少重叠。

  • R1区域外显子上游的内含子35bp序列

  • R2区域外显子上游和下游的32bp序列

  • R3区域外显子下游的内含子区域40bp序列

  • PAS(每条转录本的最后的位置)上游的35bp用于搜索ployA信号。

分析基因是否存在多TTS和多ployA基因

分析存在多TTS和多ployA的基因,以及ployA的motif分类。

每个转录本的截取CS(切割位点)上游50bp的序列,使用SignalSleuth2,扫描CS位点上游1-40bp的motif序列

分析物种中特异性的ployA位点。

多倍化过程中同源基因的ploy或者TSS数目发生变化

ploy信号到时候就将提取上游50bp序列,扫描上游40bp的序列

top 10的motif序列,规范的序列 AATAAA ATTAAA

##提取CS位点上游的50bp序列
python ~/github/zpliuCode/Isoseq3/02spliceSitemotif/polyadenylation.py  ~/work/Alternative/result/Gh_result/CO31_32_result/collapse/merge.gtf ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_genome_HAU_v1.0.fasta TM1_polyadenylation_50b.txt 
##扫描CS位点上游1-40bp的motif
+ -k 6 对6聚体motif进行排名
+ -once motif只计数一次
+ -topn 输出前10个频率最高的motif
perl ~/software/SignalSleuth2/SignalSleuth2.pl -seqfile TM1_polyadenylation_50b.txt -from 10 -to 50 -once T -sort T -topn 10 -cnt T -pssm T -k 6
统计出现次数
awk '{print $1"\t"$NF}' *.cnt

motif排名

TM1

A2

D5

ATTTTT

9246

7270

5613

TATTTT

8785

6848

5348

AATTTT

8606

6844

5362

TTTTAT

8504

6683

5305

TTATTT

8372

6516

5077

AATAAA

8044

6512

4800

AAATTT

8016

6511

4893

TTTATT

8014

6279

4945

TTTTTT

7663

6001

4735

ATATTT

7643

6114

4488

在TM-1、A2、D5中分别检测到8044、6512、4800个规范的ployadentlation motif AATAA

分析基因包含多个ployA和多个TSS位点的信息

在TM1、A2、D5中比较基因转录出转录本的个数:

58%,70%,65%的基因存在多个转录本,这些存在多个转录本的基因中,存在多个ployA或者TTS位点的基因。

  • 内部的剪接位点完全相同,存在只由于ployA或者TSS造成转录本的差异的比例。

基因组

单个转录本的基因

多个转录本的基因

基因数

转录本数

TM1

13361

18606

31967

83392

A2

6046

14167

20213

67113

D5

6326

11911

18237

51964

##比较基因内转录本间的剪接位点和TSS、ployA
python  ~/github/zpliuCode/Isoseq3/05polyadenylation/transcript_different_polyadenylation.py  ~/work/Alternative/result/Gr_result/CO41_42_result/collapse/merge.gtf D5.txt
##单个ployA的基因数
awk '$7==1{print $0}' TM1.txt |cut -f1|sort |uniq |wc -l
##单个TSS的基因数
awk '$8==1{print $0}' TM1.txt |cut -f1|sort |uniq |wc -l
##剪接位点相同的转录本数
awk '$6=="splitsame"{print $2"\n"$3}' TM1.txt |sort |uniq |wc -l

多转录本的基因中有多少存在多个ployA和TSS的

大约有94.9%和98.7%的多转录本基因,存在多个TSS和ployA位点

平均每个基因存在TSS和ployA的数目:

  • A2 2.8个TSS和3.0个ployA

  • D5 2.4个TSS和2.7个ployA

  • TM1 2.27个TSS和2.4个ployA

基因组

多个TSS

多个ployA基因数

单个TSS

单个ployA

A2

13447 94.9%

13994 98.7%

720

173

D5

11195 93.9%

11710 98.3%

716

201

TM1

17448 93.7%

18289 98.3%

1158

317

举一个重要基因,存在多个ployA和TSS的例子,设计RACE进行扩增。

TSS和ployA产生不同的转录本:两个转录本之间剪接位点完全相同,只在ployA或者TSS位点上存在差异的转录本数。由于ployA和TSS的不同造成转录本间差异的比例。

基因组

剪接位点都相同但TSS或者ployA位点不同

A2

19794(29.5%)

D5

15242(29.3%)

TM1

20189(24.2%)

分析测序深度对于基因转录的影响

测序饱和度分析,统计每个转录本的FL-read数目

统计每个转录本对应的基因数

##将注释文件中所有的转录本和基因信息提取出来,包括scaffold的,剔除比对到非基因区域的转录本
awk  '$3~/transcript/{print $0}' merge.gtf |awk  -F ";" '{print $3"\t"$2}'|sed -e 's/orginal_gene_id //g' -e 's/transcript_id //g' -e 's/\"//g' |sed 's/ //g' |awk '$1!~/PB/&&$2~/PB/{print $0}' >../../02Saturation_cruve/gene_Isoform.txt
##检测到参考基因注释的基因数和转录本对应的fl-read数
python ~/github/zpliuCode/Isoseq3/01saturation_curve/stattic_PacBio_readCount.py  -quiver  ../CO31_32_result/04_Cluster/quivered.all.fa   -collapse ../CO31_32_result/06_Alignment/all.collapsed.group.txt -gene ./gene_Isoform.txt  -out gene_isoform_readCount.txt

进行饱和曲线分析

  • 根据测得的FL-read数目进行分析

  • 依次随机10%、20%~100%的FL-read;看会有多少基因和转录本被测到

##统计FL read 数目
grep ">" ../CO31_32_result/03_Classify/total.flnc.fasta |wc -l
##随机取样
 python ~/github/zpliuCode/Isoseq3/01saturation_curve/saturation_cruve.py  TM1_gene_isoform_readCount.txt  479445 plot_gene_isoform_saturation_cruve.txt
 awk '{print $0"\tfullMatch"}' full_match_cruve.txt  >>TM1_plot_cruve.txt
 awk '{print $0"\tincompleteMatch"}' incomplete_spliceMatch_cruve.txt >>TM1_plot_cruve.txt
 awk '{print $0"\tunAnnotion"}' unAnnotion_cruve.txt >>TM1_plot_cruve.txt

转录本长度和支持的FL-read 数目热图。

https://www.cnblogs.com/jinhh/p/8328818.html