🎨
booknote
  • Zpliu'Booknote
  • ggplot2
    • 不继承原有数据
    • Untitled Folder 1
      • 直方图绘制
    • 02基于Github笔记实现
    • 回归分析
    • 饼图
    • Theme函数
    • 直方图
    • 分面
    • pheatmap
    • 折线图
    • 桑基图
    • GO富集分析图
    • jupyter内使用R
    • 维恩图
    • 自定义图例
    • ggridges 山峦图
    • GO气泡图
    • 散点图
    • 从数据框中计算频率
    • 箱型图
  • 前端操作
    • 实例练习
      • 动态搜索网页
        • 后端
          • Node 服务框架
          • primer数据表的增删改查
          • 前端post请求
          • login 验证
          • Vue模板
            • Vue-router前端渲染
            • main.vue
          • 基于cookie登录验证
          • 使用mysql包进行数据库的交互
          • 数据库表
            • 学生信息表
            • 用户登录表
            • mysql 事务
            • 教师表
            • 引物表
          • mysql服务
          • html模板页面
            • 错误模板页
          • 08文件上传与下载
        • 解决webpack打包后文件过大问题
        • 前端
          • vue
            • 基于element-ui框架
            • 06 个人主页
            • 08上传组件el-upload
            • element-ui
            • Vue 构建前端框架
            • login登录界面
            • 07表格多选
            • show-data页面
          • vue-cookie
          • vue-router
            • 路由组件传参
        • Appach代理服务转发node
      • pie-progress
        • 01
      • 登录界面
      • Untitled
    • JavaScript
      • fasta文件校验
      • codewar中的练习题
      • 6kyu
      • chapter03
        • 数据类型
      • tweenjs
    • css
      • CSS布局
      • 02定位
    • 前端使用ajax进行异步请求
    • gitbook
    • html
      • 03表格
      • Vue星空
    • Log for study
  • 可变剪切
    • 第六次分析
      • 设计引物
      • 多倍化过程中的变化3
      • 不同棉种间AS的差异
      • At与Dt中不存在保守转录本的基因
      • AS调控基因表达
      • 多倍化过程中变化2
      • 可变剪切统计
      • 可变剪切的进化分析
      • 保守AS模式的鉴定
      • 提纲
      • 可变剪切的翻译分析
      • 多倍化过程中isoform的变化
      • 表观遗传在AS中的作用
      • 全长转录本数据的统计
      • 表观遗传在AS中的作用2
    • 03表观遗传与可变剪切
    • 数据处理流程
      • 计算同源基因间AS的保守程度
      • 重新开始鉴定AS.md
      • 统计IR保守性比例
      • 基因分类
      • 20200111可变剪切数目统计
      • 完全保守的基因对
      • 20200315
      • 20200214
      • 第三个结果
      • 20191230对AS类型进行定义
      • AS保守程度的统计
      • 20200219合并IR
      • 20200320
      • IR事件保守的长度
      • 分析同源基因中发生IR事件的频率
      • 保守的IR的长度统计
      • 筛选基因用于GO富集分析
      • 2020102把没有发生剪切事件的位置找出来
      • 对剪切事件进行分类
      • 06比较不同棉种中isform的差异
      • 甲基化数据处理
      • 寻找motif
      • 根据IR的保守程度对基因进行GO富集分析
      • 分析同源基因间可变剪切的差异
      • 基于前面已经分好的类进行统计
      • 寻找同源基因对应的位点
      • 对同源基因的剪切事件进行分类.md
      • 分析染色体上各种特征
      • HIN1下游调控基因的分析
      • intron 分布
      • 20200102GO富集分析
      • 01全长转录组数据处理
      • 甲基化重复间的处理
    • 文献理解
      • 10核小体定位决定外显子识别
      • 22
      • 09梨树中两个亚基因组经历unbiased 进化
      • 11RNA介导的局部染色质修饰对可变剪切的调控
      • 19讨论染色质开放程度与IR的关系
      • 03植物中的表观遗传
      • 06甲基化在拟南芥开花过程中的研究
      • 20可变剪切的进化
      • 14干旱积累对HIN1蛋白剪切效率的影响
      • 18内含子保留事件中不断变化的范式和调控方式
      • 04从RNA-seq研究可变剪切
      • 16多种RNA-seq策略揭示棉花中高精度的转录态势
      • 07ChIp-seq测序原理 chromatin immunoprecipitation
      • 05甲基化测序数据比对原理
      • 13使用iso-seq分析高粱转录本数据
      • 15POWERDRESS与HDA9相互作用促进去乙酰化
      • 12通过转录与染色质结构的耦合调控可变剪切
      • 英语句子
      • paper list
      • 01多组学数据揭示表观遗传
      • 02A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulat
      • 17可变剪切与表观遗传导致白血病
      • 21smallRNA与DNA甲基化
    • 文章提纲
    • AS多倍化过程中的变化
    • 软件使用
      • 01三代测序Iso-seq
      • Bedtools
      • iso-seq测序2.0版本
      • 02Chip-seq操作流程
      • EMBOSS
      • 05鉴定duplicate gene
      • 07kobas本地进行注释
      • MEME本地化
      • DNA甲基化分析流程
      • stringtie
    • 第7个结果
    • 原始数据处理
      • 01三代测序数据原理
      • 02测序read数目统计
    • 第8个结果
    • 第五次分析
      • isoform水平分析
      • rmats2sashimiplot
      • 可变剪切的鉴定
      • 使用单个样本的数据进行AS分析
    • 表观遗传
    • 保守AS的鉴定
    • 第四次分析了
      • 甲基化计算
      • AS统计
      • 分析IR在各个基因组的保守性
    • 第三次对AS进行统计
      • 鉴定DRMs区域
      • 04
      • 重新下载原始数据进行比对
      • 02
      • 01
    • 第三个结果
    • 原始read的分类
    • 表观数据分析
    • 从RNA-seq研究可变剪切
  • 文献
    • 表观遗传
      • 植物中甲基化机制以及靶向操纵工具
    • 陈增建老师
      • 文章
    • 可变剪切
      • Post-transcriptional splicing of nascent RNA contributes to widespread intron retention in plants
      • Variant phasing and haplotypic expression from long-read sequencing in maize
      • 02
      • 01
      • 可变剪接的研究进展及展望
      • 06
      • Co-expression networks reveal the tissue-specific regulation of transcription and splicing
    • panGenome
      • 番茄中广泛的结构变异对基因表达和性状改良中的作用
    • TWAS
      • TWAS解读
    • 数量遗传older
      • Reinventing quantitative genetics for plant breeding: something old, something new, something borrow
    • Untitled 1
    • 多倍化
      • Measuring and interpreting transposable element expression
      • Homoeolog expression bias and expression level dominance (ELD) in four tissues of natural allotetrap
    • 转录调控
      • 指导植物RNA聚合酶II转录的‘GPS’
      • 02综述
    • 3D基因组
      • Methods for mapping 3D chromosome architecture
      • 由粘连蛋白介导的人类基因组中染色体loop图谱
      • 经典Hi-C文献
      • 小麦染色质被组装成基因组疆域和转录工厂
      • Lamina-associated domains: peripheral matters and internal affairs
      • Three-dimensional chromatin landscapes in T cell acute lymphoblastic leukemia
      • Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer
      • Evolutionary dynamics of 3D genome architecture following polyploidization in cotton
      • On the existence and functionality of topologically associating domains
    • Untitled
    • GWAS
      • Population Genomic Analysis and De Novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary
  • CRISP Case9
    • sgRNA设计
    • 01编辑效率检测
    • Hi-TOM
    • 02检查单株覆盖度
  • python
    • matplotlib
      • 图片的基本设置
      • 韦恩图
      • 折线图
      • 堆积直方图
      • 散点图
      • imshow绘制热图
    • 爬虫
      • 根据关键字获取对应的基因
      • TE
    • 多进程
    • 基于模块化编程
    • pybedtools
      • 01API
    • 高级特性
      • 列表操作
      • pickle
    • SOS
      • Script of scripts (SOS)
    • python 解析命令行参数
    • 简单实现python多进程
    • gffutils
      • gffutils
    • 多线程读取文件
    • rpy2
      • 在jupyter中调用R代码
    • pandas
      • 取数据
    • pysam
      • 01API接口
  • cottonWeb
    • 初始化项目
    • views
      • login
      • 404页面
      • register页面
    • 后端
      • Hi-C
      • 错误代码合集
      • SequenceServer搭建网页服务
      • 手把手教你搭建JBrowse-初始化应用
      • 优化JBrowse
    • Vue中使用Echarts
    • 2配置axios请求
    • 07搜索框实时推荐
    • 动画效果
    • layout布局
    • mysql
      • 基因操作
    • 路由配置
  • Vue
    • vue-route
      • 路由
    • Vue中发起ajax请求
    • 计算属性和侦听器
    • provide inject
    • 列表渲染
    • 自定义指令
    • 事件处理
    • Vue项目
      • 九宫格实现
      • 使用vue-resource进行ajax请求
      • 在项目中使用v-router
      • 新闻页面
      • 项目迁移
      • 使用Mint UI组件库
    • 案例操作
      • 02基于Github笔记实现
      • 实现购物车功能
      • Vue组建化
      • todomvc实现日程安排
    • 页面组件化
    • Vue 实例化操作
    • vue
    • 动画的渲染
    • 模板语法
    • class & style
    • 13 动画和过渡效果
    • 02guide
    • 深入了解组件化
    • 表单输入绑定
    • 条件渲染v-if
    • vue-chartjs
      • 起步
  • 并行计算
    • 实验室考试
    • 计算圆周率PI
    • 04.forthClass
    • 使用python3中的threading模块进行简单的并行计算
    • test
      • lastTest
      • 111
    • 第三节课作业
    • 05 test
    • 04test
    • 05homework
    • 04homework
    • OpenMP
    • 集群结构
    • CPU核、多线程、多进程
    • 05Class
    • 06class
    • 07class
    • 08class
  • WebPack
    • 打包css文件
    • 基于Webpack进行Vue开发
    • 处理url 图片
    • webpack 打包Vue
    • 基于webpack的路由操作
    • webpack
  • VueCLI
    • 03组件批量注册
    • 04拖拽插件
    • 05axios跨域问题
    • 07时间轴
    • Blast+ 网页实现
    • VueCLI 安装
    • axios请求
  • Script
    • 转录因子结合位点预测
    • BinomTest
  • mysql
    • 常见函数
      • 常见函数
      • 函数
    • 查询
      • 排序查询
      • 联合查询
      • 基本查询语句
    • 字段约束条件
    • SQLyog
    • 修改
      • 修改
    • powerdesigner数据库模型设计
    • 插入
      • 插入数据
    • 事务
      • 事务
    • 添加新用户
    • 视图
      • 视图
  • 文本编辑器
    • vscode 连接数据库
    • Vue模板补齐
    • visual Studio Code
  • source_code
    • Untitled
    • 并行计算
      • 04test
    • 公众号
      • RNA-seq
    • Untitled 1
  • GWAS
    • QQ-plot
  • RNA-seq
    • 01AnalysisFlow
    • 02脚本批量提交
    • 差异表达基因
    • 文献
      • 01SPL1赋予植物热忍受能力
    • 02 建库方式
  • Linux
    • LSF
    • 02诺和致源下载数据
    • 配置阿里yum源
    • linux三剑客
    • 云梯
    • 取文件相同列
    • root基本命令
    • 服务器网站数据搬迁
    • shell脚本激活Conda环境
    • 使用vscode与服务端R交互
    • 如何使用Conda
    • vim常见使用方法
    • oh-my-zsh
    • bash中的字典与数组
  • SNP分子标记
    • vcf文件处理
  • 生信软件
    • samtools
    • bedtools
    • annovar注释SNP
    • HiC-Pro安装
    • Untitled
    • bwa使用
  • Hi-C
    • 软件
      • HiCPlotter安装
      • pre程序
    • 20200102计算共线性区间保守的boundary
    • 20200108保守的TAD
    • PanGenome
      • PanGenome与各个元件进行注释
      • Pan-Genome数据比对
      • 鉴定两个基因组之间重排
  • node
    • mysql
      • 使用Promise封装
      • 基本的SQL语句
      • mysql的增删改查
      • 在node中使用mysql
    • session与cookie保留用户登录状态
    • MongoDB
      • MongoDB中的SQL语句
      • MongoDB 数据库
      • mongoose中一些常用的查询语句
      • :pig_nose: node中使用MongoDB的实例
      • MongoDB关联查询
      • 设计数据模型
    • 保持数据库处于连接状态
    • npm
    • node中路由设计
    • express中中间件的概念
    • art-template模块的用法
    • curd增删改查的使用
    • Promise 异步编程
    • 关于express框架的学习
    • express-session
    • 配置log4js
  • Cell-Ranger
    • count输出文件夹
      • ANALYSIS
      • feature_bc_matrix文件夹
      • Analysis 结果
      • BARcoded BAM
    • CellRanger aggr
    • 10X genomics测序中用到的术语
    • single sample Analysis
    • Cell Ranger count使用手册
  • HOX3
    • 03共表达分析
    • 01RNA-seq
    • 02基因差异表达分析
  • vue-admin
    • 项目目录结构
  • R
    • dplyr
      • dpylr
      • 过滤数据框
  • 系统遗传学
    • 翻译综述
    • 从脊椎动物的视角解析衰老的遗传机制
    • 01
  • eQTL
    • PEER
      • PEER方法
      • 软件使用
    • 群体结构
      • bcftools
  • sQTL
    • HISAT2比对
    • 02数据处理
  • 资源
    • hexo服务搭建
    • 转录因子数据库
    • 前端资源
    • 01 优雅的PPT设计
    • 文章书写规范
  • SVG
    • 01起步
  • 王悦瑾
    • Bash练习题
    • Bash脚本
    • 9_28起步
  • ES6
    • 模板字符串
    • promise源码解析
    • 01
  • scRNAseq
    • 干细胞不对称分裂
      • Root stem cell niche organizer specification by molecular convergence of PLETHORA and SCARECROW tran
    • 茉莉酸代谢
    • 老年痴呆
  • 多倍体进化
    • 棉花进化
    • 棉属A基因组的起源与进化
  • Vuex
    • 解构前端登录请求
    • VueX
  • ElementUI
    • 源码学习
      • 01drawer
    • Element UI:rocket:
  • reference周记
    • 第一期
    • test
  • 苏柃
    • Bash练习
Powered by GitBook
On this page
  • 保守转录本与不保守转录本的差异
  • A、D两个亚基因组间的差异
  • At、DT同源基因间AS的分化
  • 使用k-mer获取对应保守的AS事件

Was this helpful?

  1. 可变剪切
  2. 第六次分析

多倍化过程中变化2

保守转录本与不保守转录本的差异

特异性的转录本:A2与At相比CDS不保守的转录本

1.保守转录本与不保守转录本在亚基因组间的占比

多倍化过程中有54.1%~60.7%的转录本是特异性的转录本,并且在A基因组中有更高比例的特异性转录本存在,D5基因组中特异性转录本的比例最低

基因组

保守转录本

特异性转录本

总的转录本

A2

17915(39.3%)

27629(60.7%)

45544

At

13386(41.8%)

18612(58.2%)

31998

Dt

15357(45.9%)

18106(54.1%)

33463

D5

17151(44.0%)

21821(56%)

38,972

2.转录出特异性转录本的基因数,在多倍化过程中逐渐减少,多倍化后更少的基因转录出多个特异性的转录本

在A2中一共有8557个基因存在特异性的转录本,At中一共有7630个基因存在特异性的转录本,D5中一共有8103的基因存在特异性的转录本,Dt中一共有7420个基因存在特异性的转录本。

在二倍体中更多的基因转录出多个特异性的转录本

cut -f1 Dt_specialIsoformAnnotion.txt |sort |uniq -c|awk '{print $1}'|sort |uniq -c|awk '$2>=10{a+=$1}$2<10{print "Dt\t"$2"\t"$1}END{print "Dt\t>10\t"a}'

3.特异性转录本与保守转录本在CDS长度和FPKM上的比较

低表达的转录本:FPKM值<1,卡方测验

不同类型的转录本与转录本的表达水平是否存在差异

At中类型

低表达

高表达

特异性的转录本

10424(56.0%)

8188

保守的转录本本

5163(38.6%)

8223

Dt中类型

低表达

高表达

特异性的转录本

10519(58.0%)

7587

保守的转录本本

5854(38.1%)

9503

A2中类型

低表达

高表达

特异性的转录本

16706(60.4%)

10923

保守的转录本本

7572(42.3%)

10343

D5中类型

低表达

高表达

特异性的转录本

11935(54.7)

9886

保守的转录本本

6298(36.7%)

10853

##进行卡方测验
data=matrix(c(10424,5163,8188,8223),nrow=2)
chisq.test(data)
#或者fisher.test(data)

4.特异性转录本中不同AS类型的数目

在同一个直系基因组中将特异性的转录本与保守的转录本进行比较,发现差异的AS在其中的比例,

并且这种差异的AS被认为是亚组特异性的AS

基因组

保守的转录本

特异的转录本

特异转录本与保守转录本间存在AS 差异

其他原因导致的特异性转录本

A2

17915

27629

17566

10063

At

13386

18612

12831

5781

D5

17151

21821

15032

6789

Dt

15357

18106

12530

5576

这些AS事件的种类和数目的统计

##剪切事件数目的统计
cut -f3 A2_specialIsoformAnnotion.txt |sed 's/,/\n/g'|sort |uniq 
##存在AS事件差异数目,和特异性转录本数目之间的相关性
python ../../D5_vs_DT/conserve_vs_specialIsoform/special_AS.py A2_specialIsoformAnnotion.txt  11

同时基因产生特异性转录本的数目与AS的数目存在正相关,这只筛选存在AS差异的基于进行相关性分析

##相关性分析函数
cor.test()

基因组

IR

ES

A5

A3

total

A2

7231

1132

2788

4139

15290

At

5953

1133

3120

4044

14251

D5

6805

1452

3186

5046

16489

Dt

5979

1076

3003

3905

13963

5.A、D亚组间特异性转录本的丢失与获得

A2 vs At 11292

D5 vs Dt 11690

不同的基因组对于特异性转录本的比例是否存在相关性,在多倍化过程中A基因组显著性的更多的基因发生了特异性转录本的丢失;而在四倍体中同样的是At中更多基因获得了特异的转录本。

卡方测验:特异性转录本的丢失

A2 和D5进行比较谁丢的多的时候,A2和D5的总的基因数目要一样;

At和Dt进行比较谁获得的特异性转录本多的时候,At和Dt总的基因数目要一样多;

使用四元同源基因对。

基因组

存在特异性转录本的基因

不存在特异性转录本的基因

Total

A2

8557(75.77%)

2735

11292

D5

8103(69.3%)

3587

11690

At

7630(67.5%)

3662

11292

Dt

7420(63.5%)

4270

11690

基因组

存在特异性转录本的基因

不存在特异性转录本的基因

Total

A2

6927(64.44%)

3824

10751

D5

6519(60.63%)

4232

10751

At

6154(57.24%)

4597

10751

Dt

5984(55.66%)

4767

10751

awk -F "\t" '{split($2,a,",");split($5,b,",");if(length(a)==1&&length(b)==1){print $0}}' A2_special_At_allConserve.FPKM |less

特异性转录本丢失的例子

特异性转录本获得的例子

5.根据基因包含特异性转录本的情况对基因进行分类

  1. high

  2. mild

  3. none

不同类别基因的表达水平的差异

6.基因主要表达的转录本是否发生改变

在多倍化过程中存在特异性转录本和保守转录本的基因中,基因所表达的productive 转录本是否发生了改变。

##提取既存在保守转录本又存在特异性转录本的基因对
awk -F "\t" '$4!=""{print $0}' A2_allConserve_At_special.txt |cut -f1-4  >Isoform_DomainFPKMChange/conserve_specialIsoform.txt 
awk -F "\t" '$2!=""{print $0}' A2_special_At_allConserve.txt |cut -f1,2,4,5 >>Isoform_DomainFPKMChange/conserve_specialIsoform.txt 
awk -F "\t"  '$5!=""&&$2!=""{print $0}' gene_conserve_allSpecial.txt |cut -f1,2,4,5 >>Isoform_DomainFPKMChange/conserve_specialIsoform.txt 
##这些基因的主要表达的转录本是否仍旧保守
python /public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result/evolution4/A2_vs_AT/conserve_vs_specialIsoform/special_vs_conserveFPKMDomain.py -Aisoform  ../A2_PacBio.txt   -Bisoform ../TM1_PacBio.txt  -input Isoform_DomainFPKMChange/conserve_specialIsoform.txt -o Isoform_DomainFPKMChange/conserve_specialIsoformDomain.txt

类型

主要表达的转录本发生改变

productive 转录本没有发生改变

Total

A基因组

1599

3338

4937

D基因组

1375

3604

4979

可以做一个胶图,那些有些高表达基因既存在保守转录本,又存在不保守转录本,但是表达量高的是不保守转录本

对这些主要表达转录本发生改变的基因进行功能富集分析

处理GO的输出结果

##去除基因id信息
grep -E  -v "^[#-]" AgenomeGO.txt |sed '/^$/d'|cut -f1-7|awk -F "\t" '$7<=0.01{print $0}'|less
##找单个基因的注释信息
grep Ghir_A07G023100 /data/cotton/zhenpingliu/genome/genome_data/Ghirsutum_genome_HAU_v1.1/Gh_PrimaryPeptide_vs_Arabidopsis_Annotation.txt

A基因组中基因富集在脂质代谢作用上;

D基因组中基因富集在激动蛋白途径,与细胞骨架相关

找差异表达基因做胶图

筛选发生剪接事件的地方有较多的read覆盖,同时基因的表达水平也比较高

##筛选剪接事件出比对的read count
python /public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result/16example/stat_ASevent_readCount.py  -a A2_AS.bed -b hisat2.bed -chromsome chromsome.bed -o AS_AS_count.txt
##

举例子

A2 vs At中的基因

evm.TU.Ga05G1374 vs Ghir_A05G013330 二倍体中高表达的转录本包含一个IR事件,而四倍体At中是正常的那个

evm.TU.Ga03G0628 vs Ghir_A02G005750 二倍体中存在一个高表达的IR转录本

evm.TU.Ga03G1862 vs Ghir_A03G015520 二倍体中存在一个高表达的IR转录本

evm.TU.Ga05G0904 vs Ghir_A05G008720 二倍体中存在一个高表达的A5转录本

evm.TU.Ga05G1931 vs Ghir_A05G018570 四倍体中存在一个RI高表达基因

PB.10935.3 、PB.11193.4

D5 vs Dt中的基因

Gorai.006G171900 vs Ghir_D09G015850 ,在四倍体中存在一个RI的高表达转录本

Gorai.003G002800 vs Ghir_D03G000260,在四倍体中存在一个RI高表达的转录本

Gorai.001G174600 vs Ghir_D07G015890,在四倍体中存在一个RI的高表达的转录本

7.同一个基因组内,不同类型基因的比较

多倍化过程中,稳定的转录后调控基因表达水平相比于不稳定的转录后调控基因表达水平更高;可能不稳定的转录后调控基因产生的转录本大多是无意义的

不存在保守转录本的这些基因,表达量最低,这里把两个基因组的数据放在同一个图内,并且对不同基因组间的表达量进行一个标准化

A2 vs At 时,保证基因的总的表达量是一致的

A2基因总表达量为:886732 read数为 77490057

At基因总表达量为:270235 read数为 55815433

Dt基因总表达量为:286558 read数为 58665229

D5基因总的表达量为:585450 read数为 73759547

At按照A2总表达量进行标准化,乘以3倍;Dt按照D5的表达量进行标准化乘以2

A、D两个亚基因组间的差异

大多数AS可能是noise,并且产生截断的蛋白质;并且物种间AS的不保守可能也是由于AS与物种特异性功能的形成有关;例如人类和老鼠中仅仅只有10%的AS event在同源基因间是保守的;AS的快速分化有助于物种的形成。

类型

数目

所有转录本都保守

1170

At中所有转录本保守、但是Dt中有特异性的转录本

855

Dt中有特异性的转录本、但是At所有转录本都保守

943

At、Dt除了保守转录本,两个都存在特异性转录本

1621

不存在保守的转录本

5062

根据转录本的保守情况对两个亚基因组同源基因进行分类:

  • 存在保守转录本的同源基因

  • 不存在保守转录本的同源基因

比较两类基因在二倍体和多倍体中的状态(比较7605组四元同源基因对,FPKM都>1,PacBio数目>1):

 ##二倍体中存在保守转录本的基因
 evolution4/A2_D5_At_Dt/diploid_conserve_geneList

type

存在保守转录本

不存在保守转录本

total

二倍体

5157(67.8%)

2448(32.2%)

7605

四倍体

3018(39.7%)

4587(60.3%)

7605

多倍化后更多的亚基因组同源基因不存在保守的转录本;多倍化加深了A、D亚组间转录本的差异

  • A2、D5中保守的基因在多倍化后,变得不保守

    • At、Dt的比例

  • A2、D5中不保守的基因在多倍化后,变得保守。

    • At、Dt的比例

并行分化

二倍体中保守的基因,但在多倍化后At、Dt间发生了分化,分化的情况统计;

  • 两个亚基因组与二倍体都不保守

  • 其中一个亚基因组与二倍体存在保守的转录本,而另一个亚基因组与二倍体不存在保守的转录本

在5157个二倍体中保守的转录本中,其中有2670个在多倍化后变得不保守;在这些多倍化过程中变化的四元同源基因对中

python /public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result/evolution4/A2_D5_At_Dt/differentitation/differentitation.py -homolog differentiation_geneList.txt -A2D5 ../diploid_conserve.txt  -A2At ../A2_vs_At_conserve.txt  -D5Dt ../D5_vs_Dt_conserve.txt  -o test

At发生了分化,Dt与二倍体保守的转录本一样

1018(38.12%)

2670

类型

基因数目

total

Dt发生了分化,At与二倍体保守的转录本一样

961(36%)

2670

At、Dt发生分化,都与二倍体不保守

691(25.88%)

2670

通过卡方检验发现,At、Dt在多倍化过程中发生分化的基因数目上没有显著性差异,

比较这些基因的表达水平和转录本的表达水平;为了进行四组同源基因间基因表达水平的比较,将所有的同源基因按照A2的水平进行标准化

At中所有的基因表达水平乘以3.28,Dt中所有基因的表达水平乘以3.1,D5中所有基因的表达水平乘以1.51

A基因组发生分化的基因相比于D基因有着更低的表达水平;

D基因组发生分化的基因相比于A基因有着更低的表达水平

A、D基因组都发生分化的基因有着最低的表达水平。

多倍化后同源基因间转录本的分化表明它们剪切模式可能发生了改变

在At发生分化的基因中,有多少基因存在特异性AS,鉴定不同同源基因间的AS模式的差异。

类型

存在AS基因

特异性的AS的基因

total

A基因组发生分化

648

559

1018

D基因组发生分化

606

519

961

At发生分化的基因,特异性的AS事件

在At分化的基因,找到对应的特异性转录本,统计特异性转录本所包含的AS 事件,过滤掉那些与其他基因组保守的事件,最终得到的就是导致A基因组发生分化的AS 事件。亚组间特异的AS事件,找到它在其他基因组的位置,使用k-mer运算,在blast后得到相似的k-mer片段,在相似位置 处的k-mer则认为是对应的序列

对得到的k-mer序列与AS事件序列进行blastn,相似度大于90%,相似长度占AS事件长度达到90%,e-value<1e-5

##统计各个基因组中保守的AS 事件
awk '$2!=""{print $1 "\t"$2}' /public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result/evolution4/A2_D5_At_Dt/blast/At_Dt/At_Dt_conerved_AS >>At_conserve_AS.txt 
##发生AS的分化基因
cut -f3 ../A2_D5_Dt_conserve.txt |xargs -I {} grep {} ../../../../evolution2/TM1_AS.txt  >111
grep "PB" 111  >At_differentiation_AS.txt

Dt发生分化的基因,AS模式的改变

趋同进化

二倍体内转录本不保守,而在多倍化后At、Dt亚基因组存在保守的转录本;

  • A2向D基因组方向趋同

  • D5向A基因组方向趋同

##二倍体内转录本差异的基因
cat ../diploid_conserve_geneList ../filter_homologGene.txt |sort |uniq -u  >diploid_differentiation.txt 
##差异的基因在多倍化后变得保守
cat diploid_differentiation.txt  ../ployploid_conserve_geneList |sort |uniq -d >parallel_geneList
##A基因组发生趋同
python parallel.py  -A2 ../../A2_PacBio.txt  -D5 ../../D5_PacBio.txt  -TM1 ../../TM1_PacBio.txt  -ho parallel_geneList  -oA A2_At_Dt_geneList -oD D5_At_Dt_geneList
##D基因组发生趋同

二倍体中差异的基因,在多倍化后变成了保守的状态;

在2448个差异的二倍体基因中,共有531个基因在多倍化后发生了趋同进化,其中有174个基因发生了D5向A2方向的趋同,有266个基因发生了A2向D5方向的趋同,仍旧有99个基因趋同的方向是不确定的;

多倍化过程中,更多的同源基因向D基因组方向同化

类型

基因数目

total

向A基因组同化

174(32.8%)

531

向D基因组同化

266(50.1%)

531

无方向的趋同

99(17.1%)

531

At、DT同源基因间AS的分化

两个亚基因组同源基因间的AS是否发生了分化,分析每个基因组同源基因所包含的AS数目,以及AS保守的比例。

以下为21066个四元同源基因,所包含剪切事件的数目和基因数;

这里的AS 事件只使用发生在PacBio转录本上的

同源基因

剪切事件数目

基因数

A2

18814

6417

D5

18991

6805

At

13981

5122

Dt

14083

5115

使用k-mer获取对应保守的AS事件

 python conserve_AS_kmer.py  -A2 A2_AS.txt  -At At_AS.txt  -Dt Dt_AS.txt  -D5 D5_AS.txt  -kmer A2_kmer.txt  -o 111
##获取各个基因组间保守的剪切事件
awk '$2~/Ghir_A/{print $1"\t"$2}$3~/Ghir_A/{print $1"\t"$3}$4~/Ghir_A/{print $1"\t"$4}' A2_conserve_kmer_AS.txt

awk '$2~/evm/{print $2"\t"$1}$3~/evm/{print $3"\t"$1}$4~/evm/{print $4"\t"$1}' At_conserve_kmer_AS.txt

## 存在保守转录本的基因中,保守AS模式的基因
cut -f3 ployploid_conserve_geneList|xargs  -I {} grep {} At_Dt_AS_diversity.txt |awk '$3=="noDiver"{print $0}'|wc -l

同源基因间存在AS的差异

AS差异:存在不保守的AS事件

对这7605个同源基因AS的保守性分析,发现有5032(3166+1866)对基因在AS上存在差异;并且不存在保守转录本的同源基因对中AS差异的比例,显著的高于存在保守转录本的同源基因对

类型

AS差异

AS不存在差异

Total

存在保守转录本

1866

1152

3018

不存在保守转录本

3166

1421

4587

在不存在保守转录本的基因中,AS的差异显著的高于存在保守转录本;说明亚基因组间AS的差异是导致两个基因组产生不同转录本的原因之一。这里举个例子,由于AS的分化导致At、Dt转录本的差异

有多少同源基因的分化是由于AS导致的转录本的分化

A2、D5存在保守转录本、At与Dt间不存在保守转录本;并且其中一个基因组是由于特异性的AS导致

接下来主要讨论A、D亚组间productive转录本的差异

productive转录本在多倍化过程中的变化

在CDS的长度是否发生改变:

  • A2和D5中productive 转录本一样;At和Dt中存在一个一样的productive 转录本(单个受AS调控)

    At分化的基因中的productive 转录本,与参考转录本相比是否存在AS

  • A2和D5中productive 转录本一样;At和Dt中都不存在一样的转录本(两个基因同时受AS调控)

  • A2和D5中productive 转录本不一样,但是At与Dt分别与对应的祖先一样(多倍化前就发生了分化)

  • A2和D5中productive 转录本不一样,多倍化后只保留了A基因组或者只保留了D基因组的productive 转录本(单个基因受到AS调控)

  • A2和D5中productive转录本不一样,At和Dt也都找不到与祖先一样的(同时受到AS调控)

在7605对At、Dt分化的基因中

#统计分化基因的produc转录本
 python geneDivesityByAS.py   -TM1 ../../evolution4/TM1_PacBio.txt  -A2 ../../evolution4/A2_PacBio.txt  -D5 ../../evolution4/D5_PacBio.txt -homo ployploid_nonConserve_geneList  -o 11

即使存在保守的转录本,而productive 转录本仍旧可能发生改变

类别

数目

At、A2、D5

754

Dt、A2、D5

822

只有A2、D5相同的production 转录本

674

A2、D5不一样,继承给了At、Dt

257

A2、D5不一样,At与A2一样,Dt与D5仍旧不一样

662

A2、D5不一样,Dt与D5一样,At与A2仍旧不一样

947

A2、D5不一样,At与Dt也都没找到与祖先一样的

2132

A2、D5、At、Dt都一样

1357

total

7605

在7605个四元同源基因对中,将两个亚基因组与二倍体祖先基因组相比。

  • Dt亚组保守而At亚组转录本发生变化数目(822+947=1769)

  • At亚组保守而Dt亚组转录本发生变化数目(754+662=1416)

  • At和Dt亚组转录本与祖先相比都发生变化(674+2132=2806)

  • At和Dt都没有变(1357+257=1614)

多倍化加剧了At、Dt亚组转录本的分化,将四倍体基因与二倍体祖先相比发现2806(36.89%)的亚基因组同源基因productive isoform同时发生了分化,有1769(23.26%)At同源基因的productive isoform发生了分化;而有1416(18.62%)的Dt同源基因productive isoform发生了分化;存在1614(21.22%)的同源基因在多倍化过程中保持一致的productive isoform。

在At与Dt之间仅有2088(27.46%%)的基因存在保守的productive isoform;但是(1357+947+662+257+822+754)63.11%的基因在多倍化过程中没有改变productive isoform。功能冗余的基因组,在同一个基因组后由于其中一个基因组受到的选择压力变小了,从而发生了分化。

总共(1769+1416)个同源基因发生了production的分化;更多的At基因在productive转录本上发生了分化;

比较At发生分化的productive 转录本FPKM与Dt中没有发生分化的productive转录本的FPKM的差异;

###获取转录本表达量的log2差异倍数
awk '$7<1&&$8<1{print 1}$7<1&&$8>1{print 1/$8}$7>1&&$8<1{print $7/1}$7>1&&$8>1{print $7/$8}' 11

在At发生分化的基因中,At的转录本表达水平显著性的低于保守的Dt中的转录本;

在Dt发生分化的基因中,Dt转录本的表达水平显著性的低于保守的At;在At亚基因组中productive isoform发生分化的基因中,这些分化产生的isoform相比于保守的productive显著的发生了截断。

大部分发生分化的productive isoform可能由于AS引入提前终止的密码子,导致表达水平的下调和CDS序列的截断。

韦恩图,统计At与Dt间productive isoform的保守情况。

有多少gene Productive isoform分化的可能是由于AS产生的

  • 将Production isoform发生改变的住转录本与参考转录本进行AS的比较。

python /public/home/zpliu/work/Alternative/result/Gh_result/CO31_32_result/evolution5/At_Dt/ASregulation/At_differentation/ASregulateproductiveIsoform.py  -ref ../../../../evolution4/TM1_reference_isoform.txt  -PacBio ../../../../evolution4/TM1_PacBio.txt  -AS ../../../../evolution2/TM1_AS.txt  -homo A2_At_productiveIsoform.txt  -o 11

At中production isoform发生改变;而Dt中production 转录本是保守的;鉴定到了202个基因322个AS事件

Dt中production isoform发生改变;而At中production转录本是保守的;鉴定到了186个基因283个AS事件

总共鉴定到了388个基因对应605个剪切事件可能,导致production isoform 发生改变;

这605个剪切事件中有多少比例是亚基因组特异性的剪切事件。

举个特例、跑个胶图

At production isoform 发生改变的基因中;

Ghir_A13G024480存在一个IR事件,导致产生一个新的productive转录本;

Ghir_A11G008990存在一个特异的IR事件,而Dt中不存在这个IR事件

A2、D5、At、Dt四个AS模式是否保守:

  • A2、D5、At(At基因组中保守的剪接模式,亚基因组间AS的分化)

  • A2、D5、Dt(Dt基因组中保守的剪接模式,亚基因组间AS的分化)

  • A2、At、Dt(AS的趋同)

  • D5、At、Dt(AS的趋同)

  • A2、D5、At、Dt(四个基因组都保守的模式

对于不保守的事件,使用k-mer找到对应的坐标

PreviousAS调控基因表达Next可变剪切统计

Last updated 4 years ago

Was this helpful?

A基因组中主要表达的转录本发生改变

D基因组中主要表达的转录本发生改变

http://kobas.cbi.pku.edu.cn/kobas3/retrieve/?taskid=06a7875bd08d45d9ab659b6ec67221a8
http://kobas.cbi.pku.edu.cn/kobas3/retrieve/?taskid=ff13d4ec8e3e4c538b841fba6c8830d7