🎨
booknote
  • Zpliu'Booknote
  • ggplot2
    • 不继承原有数据
    • Untitled Folder 1
      • 直方图绘制
    • 02基于Github笔记实现
    • 回归分析
    • 饼图
    • Theme函数
    • 直方图
    • 分面
    • pheatmap
    • 折线图
    • 桑基图
    • GO富集分析图
    • jupyter内使用R
    • 维恩图
    • 自定义图例
    • ggridges 山峦图
    • GO气泡图
    • 散点图
    • 从数据框中计算频率
    • 箱型图
  • 前端操作
    • 实例练习
      • 动态搜索网页
        • 后端
          • Node 服务框架
          • primer数据表的增删改查
          • 前端post请求
          • login 验证
          • Vue模板
            • Vue-router前端渲染
            • main.vue
          • 基于cookie登录验证
          • 使用mysql包进行数据库的交互
          • 数据库表
            • 学生信息表
            • 用户登录表
            • mysql 事务
            • 教师表
            • 引物表
          • mysql服务
          • html模板页面
            • 错误模板页
          • 08文件上传与下载
        • 解决webpack打包后文件过大问题
        • 前端
          • vue
            • 基于element-ui框架
            • 06 个人主页
            • 08上传组件el-upload
            • element-ui
            • Vue 构建前端框架
            • login登录界面
            • 07表格多选
            • show-data页面
          • vue-cookie
          • vue-router
            • 路由组件传参
        • Appach代理服务转发node
      • pie-progress
        • 01
      • 登录界面
      • Untitled
    • JavaScript
      • fasta文件校验
      • codewar中的练习题
      • 6kyu
      • chapter03
        • 数据类型
      • tweenjs
    • css
      • CSS布局
      • 02定位
    • 前端使用ajax进行异步请求
    • gitbook
    • html
      • 03表格
      • Vue星空
    • Log for study
  • 可变剪切
    • 第六次分析
      • 设计引物
      • 多倍化过程中的变化3
      • 不同棉种间AS的差异
      • At与Dt中不存在保守转录本的基因
      • AS调控基因表达
      • 多倍化过程中变化2
      • 可变剪切统计
      • 可变剪切的进化分析
      • 保守AS模式的鉴定
      • 提纲
      • 可变剪切的翻译分析
      • 多倍化过程中isoform的变化
      • 表观遗传在AS中的作用
      • 全长转录本数据的统计
      • 表观遗传在AS中的作用2
    • 03表观遗传与可变剪切
    • 数据处理流程
      • 计算同源基因间AS的保守程度
      • 重新开始鉴定AS.md
      • 统计IR保守性比例
      • 基因分类
      • 20200111可变剪切数目统计
      • 完全保守的基因对
      • 20200315
      • 20200214
      • 第三个结果
      • 20191230对AS类型进行定义
      • AS保守程度的统计
      • 20200219合并IR
      • 20200320
      • IR事件保守的长度
      • 分析同源基因中发生IR事件的频率
      • 保守的IR的长度统计
      • 筛选基因用于GO富集分析
      • 2020102把没有发生剪切事件的位置找出来
      • 对剪切事件进行分类
      • 06比较不同棉种中isform的差异
      • 甲基化数据处理
      • 寻找motif
      • 根据IR的保守程度对基因进行GO富集分析
      • 分析同源基因间可变剪切的差异
      • 基于前面已经分好的类进行统计
      • 寻找同源基因对应的位点
      • 对同源基因的剪切事件进行分类.md
      • 分析染色体上各种特征
      • HIN1下游调控基因的分析
      • intron 分布
      • 20200102GO富集分析
      • 01全长转录组数据处理
      • 甲基化重复间的处理
    • 文献理解
      • 10核小体定位决定外显子识别
      • 22
      • 09梨树中两个亚基因组经历unbiased 进化
      • 11RNA介导的局部染色质修饰对可变剪切的调控
      • 19讨论染色质开放程度与IR的关系
      • 03植物中的表观遗传
      • 06甲基化在拟南芥开花过程中的研究
      • 20可变剪切的进化
      • 14干旱积累对HIN1蛋白剪切效率的影响
      • 18内含子保留事件中不断变化的范式和调控方式
      • 04从RNA-seq研究可变剪切
      • 16多种RNA-seq策略揭示棉花中高精度的转录态势
      • 07ChIp-seq测序原理 chromatin immunoprecipitation
      • 05甲基化测序数据比对原理
      • 13使用iso-seq分析高粱转录本数据
      • 15POWERDRESS与HDA9相互作用促进去乙酰化
      • 12通过转录与染色质结构的耦合调控可变剪切
      • 英语句子
      • paper list
      • 01多组学数据揭示表观遗传
      • 02A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulat
      • 17可变剪切与表观遗传导致白血病
      • 21smallRNA与DNA甲基化
    • 文章提纲
    • AS多倍化过程中的变化
    • 软件使用
      • 01三代测序Iso-seq
      • Bedtools
      • iso-seq测序2.0版本
      • 02Chip-seq操作流程
      • EMBOSS
      • 05鉴定duplicate gene
      • 07kobas本地进行注释
      • MEME本地化
      • DNA甲基化分析流程
      • stringtie
    • 第7个结果
    • 原始数据处理
      • 01三代测序数据原理
      • 02测序read数目统计
    • 第8个结果
    • 第五次分析
      • isoform水平分析
      • rmats2sashimiplot
      • 可变剪切的鉴定
      • 使用单个样本的数据进行AS分析
    • 表观遗传
    • 保守AS的鉴定
    • 第四次分析了
      • 甲基化计算
      • AS统计
      • 分析IR在各个基因组的保守性
    • 第三次对AS进行统计
      • 鉴定DRMs区域
      • 04
      • 重新下载原始数据进行比对
      • 02
      • 01
    • 第三个结果
    • 原始read的分类
    • 表观数据分析
    • 从RNA-seq研究可变剪切
  • 文献
    • 表观遗传
      • 植物中甲基化机制以及靶向操纵工具
    • 陈增建老师
      • 文章
    • 可变剪切
      • Post-transcriptional splicing of nascent RNA contributes to widespread intron retention in plants
      • Variant phasing and haplotypic expression from long-read sequencing in maize
      • 02
      • 01
      • 可变剪接的研究进展及展望
      • 06
      • Co-expression networks reveal the tissue-specific regulation of transcription and splicing
    • panGenome
      • 番茄中广泛的结构变异对基因表达和性状改良中的作用
    • TWAS
      • TWAS解读
    • 数量遗传older
      • Reinventing quantitative genetics for plant breeding: something old, something new, something borrow
    • Untitled 1
    • 多倍化
      • Measuring and interpreting transposable element expression
      • Homoeolog expression bias and expression level dominance (ELD) in four tissues of natural allotetrap
    • 转录调控
      • 指导植物RNA聚合酶II转录的‘GPS’
      • 02综述
    • 3D基因组
      • Methods for mapping 3D chromosome architecture
      • 由粘连蛋白介导的人类基因组中染色体loop图谱
      • 经典Hi-C文献
      • 小麦染色质被组装成基因组疆域和转录工厂
      • Lamina-associated domains: peripheral matters and internal affairs
      • Three-dimensional chromatin landscapes in T cell acute lymphoblastic leukemia
      • Disruption of chromatin folding domains by somatic genomic rearrangements in human cancer
      • Evolutionary dynamics of 3D genome architecture following polyploidization in cotton
      • On the existence and functionality of topologically associating domains
    • Untitled
    • GWAS
      • Population Genomic Analysis and De Novo Assembly Reveal the Origin of Weedy Rice as an Evolutionary
  • CRISP Case9
    • sgRNA设计
    • 01编辑效率检测
    • Hi-TOM
    • 02检查单株覆盖度
  • python
    • matplotlib
      • 图片的基本设置
      • 韦恩图
      • 折线图
      • 堆积直方图
      • 散点图
      • imshow绘制热图
    • 爬虫
      • 根据关键字获取对应的基因
      • TE
    • 多进程
    • 基于模块化编程
    • pybedtools
      • 01API
    • 高级特性
      • 列表操作
      • pickle
    • SOS
      • Script of scripts (SOS)
    • python 解析命令行参数
    • 简单实现python多进程
    • gffutils
      • gffutils
    • 多线程读取文件
    • rpy2
      • 在jupyter中调用R代码
    • pandas
      • 取数据
    • pysam
      • 01API接口
  • cottonWeb
    • 初始化项目
    • views
      • login
      • 404页面
      • register页面
    • 后端
      • Hi-C
      • 错误代码合集
      • SequenceServer搭建网页服务
      • 手把手教你搭建JBrowse-初始化应用
      • 优化JBrowse
    • Vue中使用Echarts
    • 2配置axios请求
    • 07搜索框实时推荐
    • 动画效果
    • layout布局
    • mysql
      • 基因操作
    • 路由配置
  • Vue
    • vue-route
      • 路由
    • Vue中发起ajax请求
    • 计算属性和侦听器
    • provide inject
    • 列表渲染
    • 自定义指令
    • 事件处理
    • Vue项目
      • 九宫格实现
      • 使用vue-resource进行ajax请求
      • 在项目中使用v-router
      • 新闻页面
      • 项目迁移
      • 使用Mint UI组件库
    • 案例操作
      • 02基于Github笔记实现
      • 实现购物车功能
      • Vue组建化
      • todomvc实现日程安排
    • 页面组件化
    • Vue 实例化操作
    • vue
    • 动画的渲染
    • 模板语法
    • class & style
    • 13 动画和过渡效果
    • 02guide
    • 深入了解组件化
    • 表单输入绑定
    • 条件渲染v-if
    • vue-chartjs
      • 起步
  • 并行计算
    • 实验室考试
    • 计算圆周率PI
    • 04.forthClass
    • 使用python3中的threading模块进行简单的并行计算
    • test
      • lastTest
      • 111
    • 第三节课作业
    • 05 test
    • 04test
    • 05homework
    • 04homework
    • OpenMP
    • 集群结构
    • CPU核、多线程、多进程
    • 05Class
    • 06class
    • 07class
    • 08class
  • WebPack
    • 打包css文件
    • 基于Webpack进行Vue开发
    • 处理url 图片
    • webpack 打包Vue
    • 基于webpack的路由操作
    • webpack
  • VueCLI
    • 03组件批量注册
    • 04拖拽插件
    • 05axios跨域问题
    • 07时间轴
    • Blast+ 网页实现
    • VueCLI 安装
    • axios请求
  • Script
    • 转录因子结合位点预测
    • BinomTest
  • mysql
    • 常见函数
      • 常见函数
      • 函数
    • 查询
      • 排序查询
      • 联合查询
      • 基本查询语句
    • 字段约束条件
    • SQLyog
    • 修改
      • 修改
    • powerdesigner数据库模型设计
    • 插入
      • 插入数据
    • 事务
      • 事务
    • 添加新用户
    • 视图
      • 视图
  • 文本编辑器
    • vscode 连接数据库
    • Vue模板补齐
    • visual Studio Code
  • source_code
    • Untitled
    • 并行计算
      • 04test
    • 公众号
      • RNA-seq
    • Untitled 1
  • GWAS
    • QQ-plot
  • RNA-seq
    • 01AnalysisFlow
    • 02脚本批量提交
    • 差异表达基因
    • 文献
      • 01SPL1赋予植物热忍受能力
    • 02 建库方式
  • Linux
    • LSF
    • 02诺和致源下载数据
    • 配置阿里yum源
    • linux三剑客
    • 云梯
    • 取文件相同列
    • root基本命令
    • 服务器网站数据搬迁
    • shell脚本激活Conda环境
    • 使用vscode与服务端R交互
    • 如何使用Conda
    • vim常见使用方法
    • oh-my-zsh
    • bash中的字典与数组
  • SNP分子标记
    • vcf文件处理
  • 生信软件
    • samtools
    • bedtools
    • annovar注释SNP
    • HiC-Pro安装
    • Untitled
    • bwa使用
  • Hi-C
    • 软件
      • HiCPlotter安装
      • pre程序
    • 20200102计算共线性区间保守的boundary
    • 20200108保守的TAD
    • PanGenome
      • PanGenome与各个元件进行注释
      • Pan-Genome数据比对
      • 鉴定两个基因组之间重排
  • node
    • mysql
      • 使用Promise封装
      • 基本的SQL语句
      • mysql的增删改查
      • 在node中使用mysql
    • session与cookie保留用户登录状态
    • MongoDB
      • MongoDB中的SQL语句
      • MongoDB 数据库
      • mongoose中一些常用的查询语句
      • :pig_nose: node中使用MongoDB的实例
      • MongoDB关联查询
      • 设计数据模型
    • 保持数据库处于连接状态
    • npm
    • node中路由设计
    • express中中间件的概念
    • art-template模块的用法
    • curd增删改查的使用
    • Promise 异步编程
    • 关于express框架的学习
    • express-session
    • 配置log4js
  • Cell-Ranger
    • count输出文件夹
      • ANALYSIS
      • feature_bc_matrix文件夹
      • Analysis 结果
      • BARcoded BAM
    • CellRanger aggr
    • 10X genomics测序中用到的术语
    • single sample Analysis
    • Cell Ranger count使用手册
  • HOX3
    • 03共表达分析
    • 01RNA-seq
    • 02基因差异表达分析
  • vue-admin
    • 项目目录结构
  • R
    • dplyr
      • dpylr
      • 过滤数据框
  • 系统遗传学
    • 翻译综述
    • 从脊椎动物的视角解析衰老的遗传机制
    • 01
  • eQTL
    • PEER
      • PEER方法
      • 软件使用
    • 群体结构
      • bcftools
  • sQTL
    • HISAT2比对
    • 02数据处理
  • 资源
    • hexo服务搭建
    • 转录因子数据库
    • 前端资源
    • 01 优雅的PPT设计
    • 文章书写规范
  • SVG
    • 01起步
  • 王悦瑾
    • Bash练习题
    • Bash脚本
    • 9_28起步
  • ES6
    • 模板字符串
    • promise源码解析
    • 01
  • scRNAseq
    • 干细胞不对称分裂
      • Root stem cell niche organizer specification by molecular convergence of PLETHORA and SCARECROW tran
    • 茉莉酸代谢
    • 老年痴呆
  • 多倍体进化
    • 棉花进化
    • 棉属A基因组的起源与进化
  • Vuex
    • 解构前端登录请求
    • VueX
  • ElementUI
    • 源码学习
      • 01drawer
    • Element UI:rocket:
  • reference周记
    • 第一期
    • test
  • 苏柃
    • Bash练习
Powered by GitBook
On this page
  • 对同源基因的AS和ORF进行统计
  • 梳理一下AS的结果
  • 针对ORF和AS进行分类
  • 根据是否与AS相关联将PacBio转录本分成两类:
  • 进行卡方检验
  • 小结
  • AS与基因表达

Was this helpful?

  1. 可变剪切
  2. 第六次分析

可变剪切的进化分析

对同源基因的AS和ORF进行统计

对于AS isoform的分类不能用AS来描述了;改成使用是否包含这段AS片段

例如Ghir_A01G005170基因中对应的PB.5574.2转录本就存在一个ES事件,但是这个转录本不包含对应的exon序列;suppa软件的输出中将其放在最后一列。

对每个棉种中基因的AS和ORF数据进行统计分析:

  • 基因存在发生AS的转录本,与正常功能的转录本;并且对应的ORF发生了提前终止、或者frameshift

  • 基因存在发生AS的转录本,与正常功能的转录本;并且对应的ORF编码框没有发生改变,发生了in-frame change;在中间增加了一个序列;或者later stop

梳理一下AS的结果

A3:Ghir_A01:116840-116977:116835-116977:-

两个转录本上的exon坐标前面表示比较长的那一段exon序列;后面那一段表示比较短的那段exon序列

RI:Ghir_A01:524019:524047-524087:524141:-

表示两端exon的坐标序列;从第二个到第三个则是对应保留的intron坐标,第一个转录本表示包含保留的Intron

SE:Ghir_A01:2306968-2307075:2307164-2307243:+

中间的坐标表示被跳跃的exon坐标;两端的坐标分别表示两端exon的位置,第一个转录本表示包含跳跃的exon

A5:Ghir_A01:242983-244582:242983-244631:-

前面的坐标表示包含A5那段序列的转录本,在两端exon的坐标;后面则是不包含A5那段序列的转录本

针对ORF和AS进行分类

  • 转录本与注释的转录本再ORF上存在差异、转录本与对应的注释转录本再AS上同样存在差异

  • 转录本与注释的转录本ORF上不存在差异,转录本与对应的注释转录本再AS上不存在差异

  • 转录本与注释的转录本ORF上不存在差异,转录本与对应的注释转录本再AS上存在差异

  • 转录本与对应的注释转录本存在差异,但是与对应的注释转录本再AS上不存在差异

对转录本进行打上标签:

  • 相比于对应的参考转录本,发生了AS,并且包含剪切片段

  • 相比于对应的参考转录本,发生了AS,并且不包含剪切片段

  • 相比于对应的参考转录本,没有发生AS

## 提取所有AS的信息
awk 'NR>=2{print $0}' D52_A5_strict.ioe  >>All_alternative.txt 
##给PacBio转录本进行注释
python  ~/work/Alternative/result/Gh_result/CO31_32_result/AS2/Add_AsTage.py All_alternative.txt  ../ORF/ORF.txt  11

根据是否与AS相关联将PacBio转录本分成两类:

比较noAS 转录本与AS转录本在移码框和终止密码子上是否存在差别;然后再看每种剪切事件对应的转录本有多少比例发生移码突变,有多少发生终止密码子提前

  • 分析与AS相关的转录本的组成

    将isoform associate with Alternative splice 转录本分为两类:

    1. contain alternative splice fragment 相比于参考基因组转录本

    2. not contain alternative splice fragment

基因组

与AS相关

与AS无关

TM1

24407

46154

A2

13547

41398

D5

13433

33915

统计AS associate 相关的isoform中多少AS events包含了alternative splice fragment

可以发现在大多数IR事件中,PacBio检测到的AS associate isoform是包含了对应的intron的;而A3、A5、ES事件中;包含AS片段的转录本比例与不包含的比例接近1:1;这也可能是导致PacBio转录本相比于参考基因组的cDNA序列长度更长的原因之一;

基因组

RI

ES

A3

A5

TM1

9069/1673

1231/1371

6338/4507

4822/3752

A2

6186/443

726/568

2970/2097

2380/1674

D5

5421/630

785/673

2767/2807

1821/1561

  • 分析AS associate isoform与编码框的偏移

for i in 1
do
grep  NoAS 11 |awk '$9=="frameshift"{print $0}'|wc -l
grep  NoAS 11 |awk '$9=="noframeshift"{print $0}'|wc -l
grep  NoAS 11 |awk '$9=="inframeChange"{print $0}'|wc -l
done
##移码框的卡方检验
>c=matrix(c(5583,7885,40571,16522),nrow=2)
>chisq.test(c) ##卡方检验
>fisher.test(c) ##使用fisher T检验

基因组

frameshift

noframeshift

inframeChange

TM1_noAS

5583 12.10%

39621 85.85%

950 2.06%

TM1_AS

7885 32.31%

13820 56.62%

2702 11.07%

A2_noAS

5994

34402

1004

A2_AS

4981

7029

1537

D5_noAS

3981

29100

834

D5_AS

3911

7461

2061

  • 分析AS associate isoform 与终止密码子的提前

##将AS associate isoform分类
for i in 1
do
grep -v NoAS 11 |awk '$10=="earlyqStop"{print $0}'|wc -l
grep -v NoAS 11 |awk '$11=="laterStop"{print $0}'|wc -l
grep -v NoAS 11 |awk '$9=="noframeshift"&&$5==$8&&$4==$7{print $0}'|wc -l
grep -v NoAS 11 |awk '$9=="inframeChange"{print $0}'|wc -l
grep -v NoAS 11 |awk '$5==$8&&$4!=$7{print $0}'|wc -l
done
## 卡方检验终止密码子是否发生改变
>c=matrix(c(8444,9910,37710,14497),nrow=2)
>chisq.test(c) ##卡方检验

基因组

early

later

both unchange

ORF change but stop not change

TM1_noAS

7420

1024

27669

9091+950

TM1_AS

8523

1387

2413

9382+2702

A2_noAS

8476

425

23395

8100+1004

A2_AS

6203

67

7

5733+1537

D5_noAS

5713

1009

21102

834+5257

D5_AS

4763

519

1476

2061+4614

分析四种剪切事件中发生frameshift和early stop codan的比例

##只分析那种存在一种剪切事件的转录本
grep -v NoAS 11 |awk '$9=="inframeChange"&&$11==""{print $0}$9!="inframeChange"&&$15==""{print $0}'
##A5发生frameshift的数目
for i in 1
do
grep -v NoAS 11 |awk '$9=="inframeChange"&&$11==""{print $0}$9!="inframeChange"&&$15==""{print $0}'|grep ":RI:" |awk '$9=="frameshift"{print $0}'|wc -l  
##A5总数
grep -v NoAS 11 |awk '$9=="inframeChange"&&$11==""{print $0}$9!="inframeChange"&&$15==""{print $0}' |grep ":RI:"|wc -l
done
##A5发生early stop的数目
grep -v NoAS 11 |awk '$9=="inframeChange"&&$11==""{print $0}$9!="inframeChange"&&$15==""{print $0}'|grep ":RI:" |awk '$10=="earlyStop"{print $0}'|wc -l

进行卡方检验

编码框的改变

类别

发生frameshift

不发生frameshift

p-value

TM1_noAS

5583

40571

2.2e-16

TM1_AS

7885

16522

A2_noAS

5994

35406

2.2e-16

A2_AS

4981

8566

D5_AS

3981

29934

2.2e-16

D5_noAS

3911

9522

终止密码子的改变

类别

终止密码子发生改变

终止密码子没发生改变

p-value

TM1_noAS

8444

37710

2.2e-16

TM1_AS

9910

14497

A2_noAS

8901

32499

2.2e-16

A2_AS

6270

7277

D5_noAS

6722

27193

2.2e-16

D5_AS

5282

8151

发生frameshift的比例

AS couple with frame shift and early stop

ES事件导致的frameshift比例是最低的可能和exon是3的倍数相比于intron更高有关;这里可以统计一下

基因组

IR

ES

A3

A5

TM1

1822/6048

401/1492

1734/6157

1327/4387

A2

1428/4234

298/850

1159/3148

937/2457

D5

1187/3952

223/978

938/3699

615/2249

average

0.312

0.279

0.300

0.318

发生early stop的比例

基因组

IR

ES

A3

A5

TM1

2577/6048

350/1492

1588/6157

1267/4387

A2

2293/4234

338/850

1184/3148

975/2457

D5

1899/3952

232/978

933/3699

552/2249

average

0.483

0.29

0.295

0.31

小结

在证明了编码框的改变会影响基因表达后;我们对可变剪切对ORF的影响进行了探究;首先将PacBio与参考转录本进行比较鉴定出isoforms associate with Alternative splice;和none Alternative splice;其中IAAS转录本又分为两组:

  • 与参考转录本相比,包含剪切片段的

  • 与参考转录本相比,不包含剪切片段的

通过统计这两种AS 转录本在各种剪切事件的比例;发现在IR事件中包含剪切事件片段的转录本占据主要;而其他事件中两种转录本的比例约为1:1;

进一步比较noneAS转录本与AS associate 转录本在frameshift、earlyStop上是否存在差异;进行卡方测验发现AS associate 与非AS associate isofrom转录本在编码框的改变、提取终止的密码子上没有显著性差异

论证AS与编码框、提前终止的密码子存在联系后;提取AS转录本的子集,只看那些与参考基因组转录本存在一个剪切事件差异的剪切事件,分析这些剪切事件导致frameshift、earlyStop的比例;分析发现exon skip事件中导致framshift、earlystop的比例是最小的,而IR事件有着高比例的frameshift和earlyStop;这可能和exon原本就起着重要的作用

AS与基因表达

前面已经讨论了AS会改变转录本的编码框,并且ES事件对编码框的影响是最小的;而IR事件对编码框的影响是最大的;既然AS影响了转录本的编码框;在后续的翻译阶段就可能会存在着两种命运;

  • 例如AS导致的编码框的移码、终止密码子的提取,最终受到NMD调控机制调节从而导致转录本被降解,这种机制在一定程度上相当于转录本的一个分流器,调控基因的表达

  • AS保留或者截取的片段,并没有导致mRNA被降解的命运;而是在经过翻译后形成了新的蛋白质亚基,行使新的功能。

为此我们将经过AS和ORF注释后的转录本进行了分类:

  • none AS isoform

  • AS association isoform with (frameshift|earlyStop)

  • AS association isoform with(inframeChange)

## none AS isoform
grep NoAS 11 >NoAS_ORF.txt
## 发生frameshift或者earlyStop的转录本
grep NoAS 11 -v |awk '$9=="frameshift"||$10=="earlyStop"{print $0}' >frameshift_earlyStop_ORF.txt
## 发生inframeChange的转录本
grep NoAS 11 -v |awk '$9=="inframeChange"{print $0}' >inframeChange_ORF.txt
##提取对应的表达量
python ~/work/Alternative/result/Gh_result/CO31_32_result/ORF/AddAnnotionTag.py  ~/work/Alternative/result/homologo/FEST3/geneExpress/stringtie/D5/t_data.ctab  frameshift_earlyStop_ORF.txt frameshift_earlyStop_FPKM.txt

从整体表达水平看,None AS转录本的表达水平高于 inframeChange isoform转录本,而最小的则是frameshift转录本。从表达水平上的角度也验证了我们的想法。根据这个想法我们把从中筛选了基因的子集:

  • 只转录出与参考转录本ORF一致转录本

  • 转录出与参考转录本ORF一致的同时,还转录出一些由于AS导致frameshift|earlyStop的转录本

  • 转录出与参考转录本ORF一致的同时,还转录出一些由于AS导致inframeChange的转录本;编码框没有变,ORF改变了

这里画一个韦恩图,多少基因转录出与参考转录本ORF一致的 转录本,多少基因转录出可能有AS导致的frameshift&earlyStop ,多少基因转录出in-frame Change;经过分析将近有18%的基因在转录出参考转录本的同时,还受到AS的调控;11.6%的基因在没有转录出于参考转录本一致的ORF情况下受到AS的影响。

##只提取转录出与参考转录本ORF一致的基因
awk '$9=="noframeshift"&&$5==$8&&$4==$7{print $0}' NoAS_ORF.txt |cut -f1|sort |uniq  >No_AS_genelist

for i in 1
do 
##转录出NoAS的同时受到AS调控
cat No_AS_genelist frameshift_genelist |sort |uniq -d >1
cat No_AS_genelist inframeChange_genelist |sort|uniq -d >>1
sort 1 |uniq >gene_refORF_AS
##只转录出NoAS的基因
cat No_AS_genelist gene_refORF_AS |sort |uniq -u >only_NoAS
##只受到AS调控
cat No_AS_genelist frameshift_genelist |sort |uniq -d|cat - frameshift_genelist |sort |uniq -u >only_AS
cat No_AS_genelist inframeChange_genelist |sort |uniq -d|cat - inframeChange_genelist |sort |uniq -u >>only_AS 
sort only_AS |uniq >1
mv 1  only_AS
rm 1 -rf
done

对基因分好类后比较它们的表达水平和进行GO富集分析

##提取它们的表达水平差异
 python ~/work/Alternative/result/Gh_result/CO31_32_result/ORF/AddAnnotionTag.py  ~/work/Alternative/result/homologo/FEST3/geneExpress/stringtie/A2/gene_FPKM.txt only_NoAS only_NoAS_FPKM
##进行GO富集分析
python ~/work/Alternative/result/Gh_result/CO31_32_result/ORF/AddAnnotionTag.py ~/genome_data/Ghirsutum_genome_HAU_v1.1/Gh_Noscagenes_GO_V3.annot only_AS only_AS.GO
Previous可变剪切统计Next保守AS模式的鉴定

Last updated 4 years ago

Was this helpful?