🎨
booknote
  • Zpliu'Booknote
  • ggplot2
    • 不继承原有数据
    • Untitled Folder 1
      • 直方图绘制
    • 02基于Github笔记实现
    • 回归分析
    • 饼图
    • Theme函数
    • 直方图
    • 分面
    • pheatmap
    • 折线图
    • 桑基图
    • GO富集分析图
    • jupyter内使用R
    • 维恩图
    • 自定义图例
    • ggridges 山峦图
    • GO气泡图
    • 散点图
    • 从数据框中计算频率
    • 箱型图
  • 前端操作
    • 实例练习
      • 动态搜索网页
        • 后端
          • Node 服务框架
          • primer数据表的增删改查
          • 前端post请求
          • login 验证
          • Vue模板
            • Vue-router前端渲染
            • main.vue
          • 基于cookie登录验证
          • 使用mysql包进行数据库的交互
          • 数据库表
            • 学生信息表
            • 用户登录表
            • mysql 事务
            • 教师表
            • 引物表
          • mysql服务
          • html模板页面
            • 错误模板页
          • 08文件上传与下载
        • 解决webpack打包后文件过大问题
        • 前端
          • vue
            • 基于element-ui框架
            • 06 个人主页
            • 08上传组件el-upload
            • element-ui
            • Vue 构建前端框架
            • login登录界面
            • 07表格多选
            • show-data页面
          • vue-cookie
          • vue-router
            • 路由组件传参
        • Appach代理服务转发node
      • pie-progress
        • 01
      • 登录界面
      • Untitled
    • JavaScript
      • fasta文件校验
      • codewar中的练习题
      • 6kyu
      • chapter03
        • 数据类型
      • tweenjs
    • css
      • CSS布局
      • 02定位
    • 前端使用ajax进行异步请求
    • gitbook
    • html
      • 03表格
      • Vue星空
    • Log for study
  • 可变剪切
    • 第六次分析
      • 设计引物
      • 多倍化过程中的变化3
      • 不同棉种间AS的差异
      • At与Dt中不存在保守转录本的基因
      • AS调控基因表达
      • 多倍化过程中变化2
      • 可变剪切统计
      • 可变剪切的进化分析
      • 保守AS模式的鉴定
      • 提纲
      • 可变剪切的翻译分析
      • 多倍化过程中isoform的变化
      • 表观遗传在AS中的作用
      • 全长转录本数据的统计
      • 表观遗传在AS中的作用2
    • 03表观遗传与可变剪切
    • 数据处理流程
      • 计算同源基因间AS的保守程度
      • 重新开始鉴定AS.md
      • 统计IR保守性比例
      • 基因分类
      • 20200111可变剪切数目统计
      • 完全保守的基因对
      • 20200315
      • 20200214
      • 第三个结果
      • 20191230对AS类型进行定义
      • AS保守程度的统计
      • 20200219合并IR
      • 20200320
      • IR事件保守的长度
      • 分析同源基因中发生IR事件的频率
      • 保守的IR的长度统计
      • 筛选基因用于GO富集分析
      • 2020102把没有发生剪切事件的位置找出来
      • 对剪切事件进行分类
      • 06比较不同棉种中isform的差异
      • 甲基化数据处理
      • 寻找motif
      • 根据IR的保守程度对基因进行GO富集分析
      • 分析同源基因间可变剪切的差异
      • 基于前面已经分好的类进行统计
      • 寻找同源基因对应的位点
      • 对同源基因的剪切事件进行分类.md
      • 分析染色体上各种特征
      • HIN1下游调控基因的分析
      • intron 分布
      • 20200102GO富集分析
      • 01全长转录组数据处理
      • 甲基化重复间的处理
    • 文献理解
      • 10核小体定位决定外显子识别
      • 22
      • 09梨树中两个亚基因组经历unbiased 进化
      • 11RNA介导的局部染色质修饰对可变剪切的调控
      • 19讨论染色质开放程度与IR的关系
      • 03植物中的表观遗传
      • 06甲基化在拟南芥开花过程中的研究
      • 20可变剪切的进化
      • 14干旱积累对HIN1蛋白剪切效率的影响
      • 18内含子保留事件中不断变化的范式和调控方式
      • 04从RNA-seq研究可变剪切
      • 16多种RNA-seq策略揭示棉花中高精度的转录态势
      • 07ChIp-seq测序原理 chromatin immunoprecipitation
      • 05甲基化测序数据比对原理
      • 13使用iso-seq分析高粱转录本数据
      • 15POWERDRESS与HDA9相互作用促进去乙酰化
      • 12通过转录与染色质结构的耦合调控可变剪切
      • 英语句子
      • paper list
      • 01多组学数据揭示表观遗传
      • 02A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulat
      • 17可变剪切与表观遗传导致白血病
      • 21smallRNA与DNA甲基化
    • 文章提纲
    • AS多倍化过程中的变化
    • 软件使用
      • 01三代测序Iso-seq
      • Bedtools
      • iso-seq测序2.0版本
      • 02Chip-seq操作流程
      • EMBOSS
      • 05鉴定duplicate gene
      • 07kobas本地进行注释
      • MEME本地化
      • DNA甲基化分析流程
      • stringtie
    • 第7个结果
    • 原始数据处理
      • 01三代测序数据原理
      • 02测序read数目统计
    • 第8个结果
    • 第五次分析
      • isoform水平分析
      • rmats2sashimiplot
      • 可变剪切的鉴定
      • 使用单个样本的数据进行AS分析
    • 表观遗传
    • 保守AS的鉴定
    • 第四次分析了
      • 甲基化计算
      • AS统计
      • 分析IR在各个基因组的保守性
    • 第三次对AS进行统计
      • 鉴定DRMs区域
      • 04
      • 重新下载原始数据进行比对
      • 02
      • 01
    • 第三个结果
    • 原始read的分类
    • 表观数据分析
    • 从RNA-seq研究可变剪切
  • 文献
    • 表观遗传
      • 植物中甲基化机制以及靶向操纵工具
    • 陈增建老师
      • 文章
    • 可变剪切
      • Post-transcriptional splicing of nascent RNA contributes to widespread intron retention in plants
      • Variant phasing and haplotypic expression from long-read sequencing in maize
      • 02
      • 01
      • 可变剪接的研究进展及展望
      • 06
      • Co-expression networks reveal the tissue-specific regulation of transcription and splicing
    • panGenome
      • 番茄中广泛的结构变异对基因表达和性状改良中的作用
    • TWAS
      • TWAS解读
    • 数量遗传older
      • Reinventing quantitative genetics for plant breeding: something old, something new, something borrow
    • Untitled 1
    • 多倍化
      • Measuring and interpreting transposable element expression
      • Homoeolog expression bias and expression level dominance (ELD) in four tissues of natural allotetrap
    • 转录调控
      • 指导植物RNA聚合酶II转录的‘GPS’
      • 02综述
    • 3D基因组
      • Methods for mapping 3D chromosome architecture
      • 由粘连蛋白介导的人类基因组中染色体loop图谱
      • 经典Hi-C文献
      • 小麦染色质被组装成基因组疆域和转录工厂
      • Lamina-associated domains: peripheral matters and internal affairs
      • Three-dimensional chromatin landscapes in T cell acute lymphoblastic leukemia
      • Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer
      • Evolutionary dynamics of 3D genome architecture following polyploidization in cotton
      • On the existence and functionality of topologically associating domains
    • Untitled
    • GWAS
      • Population Genomic Analysis and De Novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary
  • CRISP Case9
    • sgRNA设计
    • 01编辑效率检测
    • Hi-TOM
    • 02检查单株覆盖度
  • python
    • matplotlib
      • 图片的基本设置
      • 韦恩图
      • 折线图
      • 堆积直方图
      • 散点图
      • imshow绘制热图
    • 爬虫
      • 根据关键字获取对应的基因
      • TE
    • 多进程
    • 基于模块化编程
    • pybedtools
      • 01API
    • 高级特性
      • 列表操作
      • pickle
    • SOS
      • Script of scripts (SOS)
    • python 解析命令行参数
    • 简单实现python多进程
    • gffutils
      • gffutils
    • 多线程读取文件
    • rpy2
      • 在jupyter中调用R代码
    • pandas
      • 取数据
    • pysam
      • 01API接口
  • cottonWeb
    • 初始化项目
    • views
      • login
      • 404页面
      • register页面
    • 后端
      • Hi-C
      • 错误代码合集
      • SequenceServer搭建网页服务
      • 手把手教你搭建JBrowse-初始化应用
      • 优化JBrowse
    • Vue中使用Echarts
    • 2配置axios请求
    • 07搜索框实时推荐
    • 动画效果
    • layout布局
    • mysql
      • 基因操作
    • 路由配置
  • Vue
    • vue-route
      • 路由
    • Vue中发起ajax请求
    • 计算属性和侦听器
    • provide inject
    • 列表渲染
    • 自定义指令
    • 事件处理
    • Vue项目
      • 九宫格实现
      • 使用vue-resource进行ajax请求
      • 在项目中使用v-router
      • 新闻页面
      • 项目迁移
      • 使用Mint UI组件库
    • 案例操作
      • 02基于Github笔记实现
      • 实现购物车功能
      • Vue组建化
      • todomvc实现日程安排
    • 页面组件化
    • Vue 实例化操作
    • vue
    • 动画的渲染
    • 模板语法
    • class & style
    • 13 动画和过渡效果
    • 02guide
    • 深入了解组件化
    • 表单输入绑定
    • 条件渲染v-if
    • vue-chartjs
      • 起步
  • 并行计算
    • 实验室考试
    • 计算圆周率PI
    • 04.forthClass
    • 使用python3中的threading模块进行简单的并行计算
    • test
      • lastTest
      • 111
    • 第三节课作业
    • 05 test
    • 04test
    • 05homework
    • 04homework
    • OpenMP
    • 集群结构
    • CPU核、多线程、多进程
    • 05Class
    • 06class
    • 07class
    • 08class
  • WebPack
    • 打包css文件
    • 基于Webpack进行Vue开发
    • 处理url 图片
    • webpack 打包Vue
    • 基于webpack的路由操作
    • webpack
  • VueCLI
    • 03组件批量注册
    • 04拖拽插件
    • 05axios跨域问题
    • 07时间轴
    • Blast+ 网页实现
    • VueCLI 安装
    • axios请求
  • Script
    • 转录因子结合位点预测
    • BinomTest
  • mysql
    • 常见函数
      • 常见函数
      • 函数
    • 查询
      • 排序查询
      • 联合查询
      • 基本查询语句
    • 字段约束条件
    • SQLyog
    • 修改
      • 修改
    • powerdesigner数据库模型设计
    • 插入
      • 插入数据
    • 事务
      • 事务
    • 添加新用户
    • 视图
      • 视图
  • 文本编辑器
    • vscode 连接数据库
    • Vue模板补齐
    • visual Studio Code
  • source_code
    • Untitled
    • 并行计算
      • 04test
    • 公众号
      • RNA-seq
    • Untitled 1
  • GWAS
    • QQ-plot
  • RNA-seq
    • 01AnalysisFlow
    • 02脚本批量提交
    • 差异表达基因
    • 文献
      • 01SPL1赋予植物热忍受能力
    • 02 建库方式
  • Linux
    • LSF
    • 02诺和致源下载数据
    • 配置阿里yum源
    • linux三剑客
    • 云梯
    • 取文件相同列
    • root基本命令
    • 服务器网站数据搬迁
    • shell脚本激活Conda环境
    • 使用vscode与服务端R交互
    • 如何使用Conda
    • vim常见使用方法
    • oh-my-zsh
    • bash中的字典与数组
  • SNP分子标记
    • vcf文件处理
  • 生信软件
    • samtools
    • bedtools
    • annovar注释SNP
    • HiC-Pro安装
    • Untitled
    • bwa使用
  • Hi-C
    • 软件
      • HiCPlotter安装
      • pre程序
    • 20200102计算共线性区间保守的boundary
    • 20200108保守的TAD
    • PanGenome
      • PanGenome与各个元件进行注释
      • Pan-Genome数据比对
      • 鉴定两个基因组之间重排
  • node
    • mysql
      • 使用Promise封装
      • 基本的SQL语句
      • mysql的增删改查
      • 在node中使用mysql
    • session与cookie保留用户登录状态
    • MongoDB
      • MongoDB中的SQL语句
      • MongoDB 数据库
      • mongoose中一些常用的查询语句
      • :pig_nose: node中使用MongoDB的实例
      • MongoDB关联查询
      • 设计数据模型
    • 保持数据库处于连接状态
    • npm
    • node中路由设计
    • express中中间件的概念
    • art-template模块的用法
    • curd增删改查的使用
    • Promise 异步编程
    • 关于express框架的学习
    • express-session
    • 配置log4js
  • Cell-Ranger
    • count输出文件夹
      • ANALYSIS
      • feature_bc_matrix文件夹
      • Analysis 结果
      • BARcoded BAM
    • CellRanger aggr
    • 10X genomics测序中用到的术语
    • single sample Analysis
    • Cell Ranger count使用手册
  • HOX3
    • 03共表达分析
    • 01RNA-seq
    • 02基因差异表达分析
  • vue-admin
    • 项目目录结构
  • R
    • dplyr
      • dpylr
      • 过滤数据框
  • 系统遗传学
    • 翻译综述
    • 从脊椎动物的视角解析衰老的遗传机制
    • 01
  • eQTL
    • PEER
      • PEER方法
      • 软件使用
    • 群体结构
      • bcftools
  • sQTL
    • HISAT2比对
    • 02数据处理
  • 资源
    • hexo服务搭建
    • 转录因子数据库
    • 前端资源
    • 01 优雅的PPT设计
    • 文章书写规范
  • SVG
    • 01起步
  • 王悦瑾
    • Bash练习题
    • Bash脚本
    • 9_28起步
  • ES6
    • 模板字符串
    • promise源码解析
    • 01
  • scRNAseq
    • 干细胞不对称分裂
      • Root stem cell niche organizer specification by molecular convergence of PLETHORA and SCARECROW tran
    • 茉莉酸代谢
    • 老年痴呆
  • 多倍体进化
    • 棉花进化
    • 棉属A基因组的起源与进化
  • Vuex
    • 解构前端登录请求
    • VueX
  • ElementUI
    • 源码学习
      • 01drawer
    • Element UI:rocket:
  • reference周记
    • 第一期
    • test
  • 苏柃
    • Bash练习
Powered by GitBook
On this page
  • 不同亚基因组间转录调控的差异
  • 不同基因组间表达水平的归一化
  • 二倍体和四倍体在AS上的差异
  • 分析At、Dt不存在保守转录本的基因,在AS上的差异
  • 总结
  • $\color{red}{只在At中表达的基因,只在Dt中表达基因的GO和FPKM}$差异
  • 分析AS isoform在四个同源基因中的变化
  • 1.1筛选同源基因
  • 统计AS isoform在多倍化中的变化
  • 亚基因同源基因中AS isoform不对称的丢失和不对称的获得
  • AS调控同源基因的表达
  • 保守AS isoform对应的AS events
  • 转录后调控
  • 同源基因参考转录本发生了变化
  • 并行分化
  • 趋同进化
  • 1.A2、D5、At、Dt都存在保守的转录本
  • 2.At与Dt不存在保守的isoform,而At与二倍体都存在保守的isoform

Was this helpful?

  1. 可变剪切
  2. 第六次分析

不同棉种间AS的差异

不同亚基因组间转录调控的差异

不同基因组间表达水平的归一化

TM-1 BAM文件中matching read

## 统计matching read的数目,差的不多不用归一化了
samtools view -c TM1_rmdup.bam 
# TM1
79728632
# A2
53231641
# D5
49082779

分别比较不同基因组间同源基因在AS调控转录上的差异,首先将基因分成3类:

  • 只转录出与特定转录本不存在差异的isoform

  • 转录出的转录本与参考基因组特定的转录本存在AS的差异,并且导致了编码改变和提取终止的终止密码

  • 转录出的转录本与参考基因组特定的转录本存在AS的差异,inframeChange

二倍体和四倍体在AS上的差异

首先对基因进行筛选:

  • FPKM值大于1

  • PacBio转录本数目大于等于1

分析所有表达的基因中,有多少同源基因存在保守的isoform

##统计保守基因的比例
awk '$5!=0{a+=1}END{print a/NR}' A2_vs_At/11

通过比较发现A2与D5中存在60%多的基因存在保守的isoform;而At与Dt中仅仅只有30%;

比较

所有同源基因中存在保守转录本的比例

存在AS

不存在AS

A2_vs_At

0.588204

0.570681

0.619732

D5_vs_Dt

0.606159

0.585748

0.651137

A2_vs_D5

0.640385

0.635929

0.649465

At_vs_Dt

0.384105

0.355213

0.438226

针对筛选了的基因可以统计:

  • 多少基因存在AS

  • 多少基因同时没有AS的存在

##比较两个基因组上的差异
python differentialAS.py  -homolog A2_vs_At/A2_vs_At_collinearity.txt  -AS1 A2_AS.txt  -AS2 TM1_AS.txt  -FPKM1 A2_gene_FPKM.txt  -FPKM2 TM1_gene_FPKM.txt  -ORF1 A2_ORF.txt  -ORF2 TM1_ORF.txt  -o A2_vs_At/11
## 两个同源基因都不存在AS,统计转录本的数目
awk '$2==0&&$7==0{a+=$4;b+=$5;c+=$9}END{print a"\t"b"\t"c}' A2_vs_At/11
##两个同源基因存在AS
awk '$2!=0&&$7!=0||($2!=0&&$7==0)||($2==0&&$7!=0){a+=$4;b+=$5;c+=$9}END{print a"\t"b"\t"c}' A2_vs_At/11

统计表达了的基因;通过统计发现

A2_vs_At, D5_vs_Dt这些分别有4034/11292(35.72%)、3649/11690(31.21%)、4205/12772(32.92%) 、3359/9651(34.8%)的基因同时不存在AS

比较

表达的基因数

同时不存在AS的基因对

存在AS的基因对(一个有AS、一个没有AS)

两种基因中保守的isoform数

两种基因中isform1特异性转录本

isoform2特异性转录本

A2_vs_At

11292

4034

7258

2634/5603

3557/18741

2534/12087

D5_vs_Dt

11690

3649

8041

2501/6058

2698/15739

2181/12973

A2_vs_D5

12772

4205

8567

2867/6853

3368/19773

2843/15164

At_vs_Dt

9651

3359

6292

2914/2752

1521/13217

2882/13173

发现在不存在AS的基因,与存在AS的基因在特异性转录本的数目上存在差异,进行卡方测验

A2At否发生AS

保守的isoform数

不保守的isoform数

都没有发生AS

2634

6091

发生AS的基因对中

5603

30828

D5Dt否发生AS

保守的isoform数

不保守的isoform数

不发生AS

2501

4879

发生AS

6058

28712

A2D5否发生AS

保守的isoform数

不保守的isoform数

不发生AS

2867

6211

发生AS

6853

34937

AtDt否发生AS

保守的isoform数

不保守的isoform数

不发生AS

2914

6091

发生AS

2752

26390

AS造成同源基因特异性isoform的增加

在证明了发生AS的基因中亚基因组特异性的转录本数目更多,进一步证明特异性转录本随着AS事件的增加,这些转录本也会随之增加;说明AS对基因转录出特异性转录本起着一定的作用

首先将基因的AS划分区段,比较每个区段中特异性转录本数目的变化。

for i in 1
do
## 比较AS为0的两个基因组中特异性转录本的平均水平
awk '$2==0{print $0}' 11|awk '{print $4}' >A_0AS
awk '$7==0{print $0}' 11|awk '{print $9}' >B_0AS
## 1~5个剪切事件时对应的特异性isoform数目
awk '$2>0&&$2<=5{print $0}' 11|awk '{print $4}' >A_5AS
awk '$7>0&&$7<=5{print $0}' 11|awk '{print $9}' >B_5AS
## 5~10个剪切事件对应的特异性isoform数目
awk '$2>5&&$2<=10{print $0}' 11|awk '{print $4}' >A_10AS
awk '$7>5&&$7<=10{print $0}' 11|awk '{print $9}' >B_10AS
## 10~15个剪切事件对应的特异性isoform数目
awk '$2>10&&$2<=15{print $0}' 11|awk '{print $4}' >A_15AS
awk '$7>10&&$7<=15{print $0}' 11|awk '{print $9}' >B_15AS
## 15~20个剪切事件对应的特异性isoform数目
awk '$2>15{print $0}' 11|awk '{print $4}' >A_20AS
awk '$7>15{print $0}' 11|awk '{print $9}' >B_20AS
done

分析At、Dt不存在保守转录本的基因,在AS上的差异

AS有助于形成基因组特异性的转录本,并且At和Dt中存在保守转录本的基因的比例比较低。AS是否是造成At、Dt间发生分化的原因。接下来分析At、Dt中不存在保守转录本的这些基因的特异性的转录本是否与AS有关;这些亚组特异性的转录本里有多少是AS isoform(也就是与参考转录本相比发生了AS的)

###亚基因组间不存在保守转录本的基因
python ASDiffer/ASregularunConservegene.py -homolog At_vs_Dt_collinerity.txt  -FPKMAt ../TM1_gene_FPKM.txt  -FPKMDt ../TM1_gene_FPKM.txt  -ORFAt ../TM1_ORF.txt  -ORFDt ../TM1_ORF.txt  -ASAt ../TM1_AS.txt  -ASDt ../TM1_AS.txt  -gtfAt ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf -gtfDt ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf -reforfAt ../../collapse/TM1_reference.orf  -reforfDt ../../collapse/TM1_reference.orf  -o zzzz

+ At_Dt_noneConserve ##亚基因组间不存在保守转录本的基因总数分类:
+ At_reference_nonDt  ##只有A亚组转录出与参考转录本一致的CDS
+ Dt_reference_nonAt ##只有D亚组转录出与参考转录本一致的CDS
+ nonAt_nonDt_reference ##A、D亚基因组都没有转录出与参考转录本一致的CDS
+ At_Dt_reference ## At、Dt都转录出与参考转录本一致的序列但是,A、D参考转录本本身的序列就不一致

在At或者Dt与参考基因组比较时,只有A亚组转录出与参考基因组相同的转录本基因比例与D亚组的比例上没有差异。

比较只有A亚组转录出了与参考转录本一致的CDS而D亚组没有转录出来的基因在三个方面的差异:

  • AS isoform数目上的差异;可变剪切的保守性分析

  • FPKM上的差异

  • GO的功能富集

  • 举个例子

Ghir_A01G000300存在IR事件导致提前终止而Ghir_D01G000310则不存在

Ghir_D01G007630这个基因存在一个A3事件导致起始密码子滞后,改变了ORF的长度

##对AS进行注释
python ASDiffer/ASAnnotion.py  -gene At_reference_nonDt -ORF ../TM1_ORF.txt -AS ../TM1_AS.txt  -o At_reference_nonDt_annotion
## 提取与参考转录本存在AS差异
 grep -E -v "^$" At_reference_nonDt_annotion |grep Ghir_A|less

为了衡量这些A、D同源基因在AS上存在差异,对AS的位置进行了注释

At基因转录出与参考转录本一致的CDS而Dt亚基因组没有转出出与参考基因组一致的CDS;通过将这些基因的AS(PacBio与参考转录本间存在差异)进行注释,比较这些AS的差异;

  • 总共有多少PacBio与参考转录本存在AS的差异

  • 这些差异的AS注释的区域

通过比较发现,

转录本与参考转录本存在AS的差异

类型

总转录本数

AS isoform

比例

A一致 时At

4462

1485

0.333

A一致时 Dt

3749

2435

0.650

D一致时,At

3991

2719

0.681

D一致时,Dt

4768

1584

0.332

对这些AS isoform的AS事件进行注释**

cut -f1,4 At_reference_nonDt_annotion |grep  -E -v "^$" |sort|uniq|grep Ghir_A|grep 3UTR|wc -l

当At转录出与参考转录本一致的CDS时,

对应的AS注释为coden比例:

896/(43+159+896) 81.6%

1325/(1325+42+24) 95.3%

当Dt转录出与参考转录本一致的CDS时

对应的AS注释为coden比例:

948/(948+55+178) 80.27%

1409/(1409+53+17) 95.3%

类型

5UTR

3UTR

coden

A一致时,At

159

43

896

A一致时,Dt

42

24

1325

D一致时,At

53

17

1409

D一致时,Dt

178

55

948

分析特异性的亚组间特异性的AS isoform,

亚组特异性AS isoform对应的AS events:

  1. At转录本与参考转录本CDS一致,而Dt不一致时;并且只有Dt发生了AS,At没有发生AS;

  2. Dt转录本与参考转录本CDS一致,而At不一致时;并且只有At发生了AS,Dt没有发生AS;

总结

在不同棉种中鉴定完可变剪切和直系同源基因的数据后,接下来就是分析不同棉种中同源基因的AS差异。

首先根据基因表达量和PacBio检测到转录本的数目,找出expressed的基因;通过比较同源基因转录本CDS序列的长度来判断转录本是否相同;分析存在相同转录本的基因所占的比例,发现A2和D5同源基因具有相同功能转录本的基因比例最高;而At、Dt中的比例是最低的仅仅只有38%。A、D两个亚基因组存在于单个个体时表现出最高比例;而在多倍化后A、D亚组间具有保守转录本的基因比例迅速下降。

这里At、Dt的保守的比例这么低可能和AS有关,于是根据基因是否鉴定到AS分为存在AS的同源基因对和不存在AS的同源基因对;分析存在AS的基因中亚基因组特异性转录本的数目显著的增加,说明AS有助于同源基因转录出一些特异性的转录本。接下来讨论At和Dt中为什么只有这么少的同源基因存在保守的isoform;(看看这些基因的isoform是否与二倍体存在保守)并且哪些基因转录出了与参考转录本一致的CDS;对这些不存在保守转录本的基因进行了一个分类,主要分成4大类。

At和Dt基因中不存在保守转录本的基因:

  1. At转录出与参考转录本一致的序列,但是Dt没有 1449/5944

  2. Dt转录出与参考转录本一致的序列,但是At没有 1570/5944

  3. At与Dt都没有转录出与参考转录本一致的序列 1270/5944

  4. At与Dt都转录出与参考转录本一致的序列,但是At和Dt之间存在差异 1655/5944

    对基因进行一个定义

    表达的基因:只要转录出的CDS与参考转录本CDS 长度上一致

    未表达的基因:没有转录出与参考转录本CDS长度上一致

    通过分析这些同源基因中有24%的同源基因只在At中转录出了与参考转录本一致的序列,有26%的同源基因只在Dt中转录出了与参考转录本一致的序列;与此同时还有27%的同源基因,它们的参考基因组CDS不一致。

    这里猜测是AS导致转录出的转录本与参考转录本不一致,通过统计发现在At表达而Dt未表达的基因中

    At中AS isoform(与参考转录本相比存在AS差异)的比例为0.333,Dt的AS isoform为0.650;Dt中表达而At中未表达的基因中, At中AS isoform的比例为0.681,Dt中isoform的比例为0.332。

    AS在基因在转录的过程中扮演着重要的作用,即使在正确转录出与参考转录本CDS一致的情况下,仍旧存在33%的转录本与参考转录本存在AS差异;而在没有转录出与参考转录本CDS一致的情况下,有65%的转录本存在AS的差异。对这些AS isoform的剪接事件所在的区域进行注释发现,80%和95%的剪接事件是发生在coden区域的。$\textcolor{red}{综上所述,A、D两个亚组在AS isofoms比例上存在着差异,}$$\color{red}{并且这些AS events主要发生在coden区域;从而影响后续翻译过程中的密码子识别。}$

$\color{red}{只在At中表达的基因,只在Dt中表达基因的GO和FPKM}$差异

分析AS isoform在四个同源基因中的变化

前面分析了At、与Dt之间存在分化后,接下来探讨AS在四个基因组$\color{red}{并行分化}$和$\color{red}{趋同进化}$的作用;

A2与D5中30%的基因没有保守的转录本而在At与Dt中存在60%多的同源基因没有保守的转录本,这很矛盾。接下来通过将At、Dt中不存在保守转录本的同源基因分别与各自的二倍体祖先基因进行比较,分析这些同源基因特异性的转录本是否存在功能 Ghir_A01G000230 基因与DGhir_D01G000240 就存在两个不一样的转录本;并且都高表达;而在二倍体中都只转录出与D基因组相同的转录本

Ghir_A02G007670 二倍体中都只转录出与At基因组相同的转录本;而Dt转录出的转录本中与某个参考转录本存在AS,并且这个参考转录本与A2、D5、At中保守的转录本在CDS上一致的;则可以说明AS调控Dt基因的转录;这里的调控分为两种,AS导致转录本降解,AS导致新功能的发生

Gorai.005G219000基因的两个转录本分布由Ghir_A03G019040 与Ghir_D02G020390基转录;而A2的转录本却丢失掉了

Ghir_D01G022920基因发生了一个外显子跳跃事件,产生的CDS序列长度为825,如果加上这个外显子78bp;刚好就和A2、D5、Dt的CDS序列一样长

1.1筛选同源基因

  • FPKM>1,PacBio转录本数大于1;认为表达了

  • 四个同源基因中至少3个表达了

  • 参考一下参考转录本的CDS的长度信息

Gorai.010G047000基因编码·出了4392长度的PacBio转录本并且与Gorai.010G047000.3是一致的;相比于Gorai.010G047000.1发生了inframeChange

总共$\color{red}{21066}$对同源基因在经过表达量的筛选后,一共得到了$\color{red}{10751}$对符合条件的同源基因。

1.1.1 统计这四组同源基因中每个亚基因组AS gene 的比例

根据筛选到的四组同源基因,统计每个基因组中发生AS的基因的比例;以及各个基因组之间,有多少同源基因同时发生AS;在发生AS的同源基因中,有1995个同源基因都存在AS,占所有已表达基因的18.56%

##同源基因发生AS的数目
awk '$4~/PB/{print $0}' AS/D5_AS.txt |cut -f2|sort |uniq |wc -l
##统计保守的

A2

D5

At

Dt

5435/10751

6142/10751

4553/10751

4556/10751

接下来统计$\color{red}{AS isoforms}$(与ORF起始或终止位点相同的参考转录本相比,存在AS的差异)的转录本的保守情况

统计这些同源基因中转录出AS isoform的数目

##统计每个PacBio转录本与参考转录本相比是否发生AS,来定义AS isoform
python ../../At_vs_Dt/ASDiffer/PacBiovsRef.py  -ORF ../../TM1_ORF.txt   -gtf ~/work/Alternative/data/Ghirsutum_genome_HAU_v1.0/Ghirsutum_gene_model.gtf -AS ../../TM1_AS.txt  -refORF ../../../collapse/TM1_reference.orf  -o zzzzzzzzz

这里是总的基因 对应的AS isoform,还需要统计10751个同源基因中AS isofrom的数目

A2

D5

At

Dt

9471

8503

7909

7901

检测到的 isoform

2573

2170

1422

1440

从同源基因中推断得到的

12044

10673

9331

9341

total

统计AS isoform在多倍化中的变化

A2中的AS isoforms在多倍化后的状态:

  • 在At和Dt中都存在保守的AS isoform

  • 要么在At中保守,要么在Dt中保守

同理Dt中的也进行一个统计

##统计不同基因组间保守的AS isoform
python conserve_AS_isoform.py -homolog ../all_homologGene.txt  -A2 A2_pacBio_AS.txt  -D5 D5_pacBio_AS.txt -TM1 TM1_pacBio_AS.txt  -o zzzzzz
##统计对应的基因
sed '/^$/d' zzzzzz |sed 's/,.*//g' |cut -f1|xargs  -I {} grep -E "{}\s+" A2_pacBio_AS.txt |cut -f3|sort |uniq |xargs  -I {} grep {} ../all_homologGene.txt >A2_At_Dt_ASIsoform_geneList
##要么与At保守、要么与Dt保守
sed '/^$/d' A2_At_noDt_ASIsoform.txt |sed 's/,.*//g' |cut -f1|xargs  -I {} grep -E "{}\s+" A2_pacBio_AS.txt |cut -f3|sort |uniq |xargs  -I {} grep {} ../all_homologGene.txt |cat - A2_At_Dt_ASIsoform_geneList |sort|uniq -u >A2_At_noDt_ASIsoform_geneList

统计A2、D5中AS isoform在多倍化后的状态

二倍体

在两个亚组都保守

只在At中保守

只在Dt中保守

Total

A2

653

1090

704

2447

D5

710

1113

712

2535

A2中有2,447(45.02%)AS基因在多倍化过程中存在保守的AS isoform; D基因组中有2,535(41.27%)AS基因在多倍化过程中存在保守的AS isoform

有多少AS isoform在多倍化后丢失掉了

#统计保守isoform的数目
cat A2_At_Dt_ASIsoform.txt A2_At_noDt_ASIsoform.txt A2_noAt_Dt_ASIsoform.txt |awk '$1=="AS"{print $0}'|cut -f2|sed 's/,/\n/g'|sort |uniq |wc -l

基因组

保守的

丢失的AS isoform

total

A2

5100(42.34%)

6944(57.66%)

12044

D5

4903(45.94%)

5770(54.06%)

10673

统计At和Dt中的AS isofrom在多倍化前的状态

四倍体亚基因组

在二倍体中保守

只与A2保守

只与D5保守

At

914

923

451

Dt

884

510

884

有多少AS isofrom是在多倍化后新产生的

基因组

保守的

新产生的

total

At

4121(44.16%)

5210(55.84%)

9331

Dt

4053(43.39%)

5288(56.61%)

9341

四倍体中大多数AS isoform转录本可能是多倍化后产生的,并且二倍体中很多AS isoform在多倍化后丢失掉了(也可能是由于组织测的不够多);同时在四倍体中存在43%~44%的AS isoform保守,而将近有55%的AS isoform转录本是多倍化后产生的。A2、D5在多倍化过程中AS isoform没有偏好性

亚基因同源基因中AS isoform不对称的丢失和不对称的获得

从整体上来看A2与D5在AS isoform丢失的比例是差不多的,At、Dt获得AS isoform的比例也是差不多的。接下来对二倍体基因丢失AS isoforms的情况进行分类。

对丢失和获得的程度进行一个量化:

  • 只在A2基因组中的AS isoform在多倍化后发生丢失

  • 只在D5基因组中的AS isoform在多倍化后发生丢失

  • 只在At基因组中多倍化后获得新的AS isoform

  • 只在Dt基因组中多倍化后获得新的AS isoform

##A2基因发生AS isofroms lost
cat A2_AS_isoform.txt A2_conservedASIsofrom A2_noidentifyASisoform.txt |sort |uniq -u 
##D5基因发生AS isoforms lost

在二倍体A2和D5中有多少AS isoform同时发生丢失,多少A2中特异性的AS isoform发生丢失,多少D5中特异性的AS isoform发生丢失

AS调控同源基因的表达

transcript regulation and post-transcript regulation

多倍化过程中造成同源基因表达量下调的最有可能是转录调控的差异导致的;

首先比较A亚组同源基因对表达量是否存在差异;

判断同源基因中主要转录的isoform ORF的比例是否一致;

提取同源基因的表达量

python ~/work/Alternative/result/Gh_result/CO31_32_result/ORF/AddAnnotionTag.py ../../../TM1_gene_FPKM.txt ../../all_homologGene.txt   2
##所有基因的总FPKM值进行归一化
TM1:557211;A2:886732;D5:585450   比例:1.59  1.51
##筛选FC >2 的差异表达基因 A-B/min(A,B)

二倍体

下调表达

上调表达

没有差异

A2

1863

112

8776

D5

1621

39

9091

At、Dt两个一起算

A2

149

357

10245

D5

142

216

10393

在这些下调表达的基因中,有多少基因转录出一致的转录本;

  1. 同源基因转录出最主要的那个转录本的比例仍旧是一致的;说明造成同源基因表达量改变的原因就可能就转录调控或者多倍化。

  2. 在表达量不存在差异的情况下,转录本的表达比例发生改变,或者是不存在保守的转录本;这种基因可能就受到了转录调控和转录后调控

  1. 表达是否发生改变

  2. 计算比例最高的那个转录本

  3. 比较同源基因间比例最高的那个转录本是否是一致的

筛选存在保守AS isoform的同源基因

  • A2和At中存在保守AS isoform

  • D5和Dt中存在保守AS isoform

##筛选A2 At中存在保守AS isoform的同源基因
cat A2_D5/A2_At_Dt_ASIsoform_geneList A2_D5/A2_At_noDt_ASIsoform_geneList  At_Dt/A2_D5_At_ASIsoform_geneList At_Dt/A2_noD5_At_ASIsoform_geneList |sort|uniq |wc -l
##提取对应的保守的AS isoform编号
for i in 1
do
 cut -f1,2,3 ../A2_D5/A2_At_Dt_ASIsoform.txt  >A2_At_conserved_ASisoform.txt
 cut -f1,2,3 ../A2_D5/A2_At_noDt_ASIsoform.txt >>A2_At_conserved_ASisoform.txt
 cut -f1,2,4 ../At_Dt/A2_D5_At_ASIsoform.txt >>A2_At_conserved_ASisoform.txt
 cat ../At_Dt/A2_noD5_At_ASIsoform.txt >>A2_At_conserved_ASisoform.txt
 awk '$1=="AS"{print $0}'  A2_At_conserved_ASisoform.txt|sort |uniq  >tmp
 mv tmp A2_At_conserved_ASisoform.txt
done
##筛选D5 Dt中存在保守AS isoform的同源基因
cat ../A2_D5/D5_At_Dt_ASIsoform_geneList ../A2_D5/D5_noAt_Dt_ASIsoform_geneList  ../At_Dt/A2_D5_Dt_ASIsoform_geneList  ../At_Dt/noA2_D5_Dt_ASIsoform_geneList  |sort |uniq  >D5_Dt_conserved_ASisoform_geneList
##筛选D5 Dt中保守的AS isoform编号

for i in 1
do
 cut -f1,2,4 ../A2_D5/D5_At_Dt_ASIsoform.txt  >D5_Dt_conserved_ASisoform.txt
 cut -f1,2,3 ../A2_D5/D5_noAt_Dt_ASIsoform.txt >>D5_Dt_conserved_ASisoform.txt
 cut -f1,3,4 ../At_Dt/A2_D5_Dt_ASIsoform.txt >>D5_Dt_conserved_ASisoform.txt
 cat ../At_Dt/noA2_D5_Dt_ASIsoform.txt >>D5_Dt_conserved_ASisoform.txt
 awk '$1=="AS"{print $0}'  D5_Dt_conserved_ASisoform.txt|sort |uniq  >tmp
 mv tmp D5_Dt_conserved_ASisoform.txt
done

比较同源基因的表达差异:

python ../AnnotionAS/isoformradio.py  -homolog ../../all_homologGene.txt  -FC A2_At_FC.txt  -isoformFPKM1 ../A2_transcript_FPKM.txt  -isoformFPKM2 ../TM1_transcript_FPKM.txt  -CDS1 ../PacBioIsoform/A2_pacBio_AS.txt  -CDS2 ../PacBioIsoform/TM1_pacBio_AS.txt  -o 11111
  • 表达水平存在差异,但最主要表达的转录本的ORF是一样的

  • 表达水平存在差异,并且主要表达的转录本的ORF发生了变化

  • 表达水平不存在差异,主要表达的转录本ORF没有发生变化

  • 表达水平不存在差异,

保守AS isoform对应的AS events

同源基因间保守的剪切方式,产生对应的保守的AS isoform

保守的AS events:

  • 根据gtf注释文件判断AS events 发生在第几个intron区域

python AnnotionAS/conserve_AS_event.py  -homolog ../all_homologGene.txt  -A2isoform ASisoformLose/A2_conservedASIsofrom -Atisoform ASisoformLose/At_conservedASIsofrom -D5isoform ASisoformLose/D5_conservedASIsofrom -Dtisoform ASisoformLose/Dt_conservedASIsofrom -A2AS ../../A2_AS.txt  -D5AS ../../D5_AS.txt  -TM1AS ../../TM1_AS.txt -A2gtf ~/work/Alternative/result/Ga_result/CO11_12_result/07_annotation/merge.gtf -D5gtf ~/work/Alternative/result/Gr_result/CO41_42_result/07_annotation/merge.gtf -TM1gtf ~/work/Alternative/result/Gh_result/CO31_32_result/07_annotation/merge.gtf  -o 11

转录后调控

同源基因总的表达量没有差异,但是最主要表达的那个转录本的表达水平、或者比例发生了变化

同源基因参考转录本发生了变化

Ghir_D03G009660 基因参考转录本长度为1932,而A2、D5、At的参考转录本长度均为1998;

多倍化对转录本的一个塑造

并行分化

  • A2

趋同进化

1.A2、D5、At、Dt都存在保守的转录本

2.At与Dt不存在保守的isoform,而At与二倍体都存在保守的isoform

python fourHomologAS.py  -homolog A2_D5_At_Dt_collinearity.txt  -FPKMA2 ../A2_gene_FPKM.txt  -FPKMD5 ../D5_gene_FPKM.txt  -FPKMAt ../TM1_gene_FPKM.txt  -FPKMDt ../TM1_gene_FPKM.txt  -ORFA2 ../A2_ORF.txt  -ORFD5 ../D5_ORF.txt  -ORFAt ../TM1_ORF.txt  -ORFDt ../TM1_ORF.txt  -o 11
Previous多倍化过程中的变化3NextAt与Dt中不存在保守转录本的基因

Last updated 4 years ago

Was this helpful?