可变剪切因子 motif 分析

可变剪切调控因子与转录因子类似,具有特定的 RNA 结合 motif,是一种 RNA-binding protein。

  • 相同点:

    • 都是蛋白质的序列结合区域

    • 有特定的序列 motif

  • 不同点:

    • TF 的 motif 主要结合在 promoter 和 enhancer,负责基因转录

    • ASF 的 motif 主要结合在 gene 的 intro 区域,负责可变剪切

(一)获取可变剪切因子 motif

  1. 直接从 MEME 数据库中获取 motif 文件

MEME 工具含有多个 motif 数据库,具体可用数据库可参看:https://meme-suite.org/meme/db/motifs

image-20241023134025115

所有 motif 数据库可直接下载使用:https://meme-suite.org/meme/doc/download.html

image-20241023134312186

在 motif 数据库详情页面可查看下载压缩包中具体文件所在路径:

image-20241023134521265

此处使用的 PTBP1 示例文件可以直接在 MEME 下载 CISBP-RNA 数据库(http://cisbp-rna.ccbr.utoronto.ca/)信息,并从中提取对应剪切因子的 motif,其中 MEME 中提供了 CISBP-RNA 数据库的 RNA motif 和 DNA motif 。

MEME version 5.5.5 (Thu Sep 14 08:48:04 2023 +1000)

ALPHABET= ACGU

Background letter frequencies (from uniform background):
A 0.25000 C 0.25000 G 0.25000 U 0.25000

MOTIF M227_0.6 PTBP1

letter-probability matrix: alength= 4 w= 7 nsites= 1 E= 0
  0.242168	  0.538758	  0.062005	  0.157070	
  0.038639	  0.218876	  0.038639	  0.703846	
  0.015301	  0.015301	  0.015301	  0.954098	
  0.015301	  0.015301	  0.015301	  0.954098	
  0.015301	  0.109172	  0.015301	  0.860226	
  0.015301	  0.675671	  0.015301	  0.293727	
  0.062081	  0.158058	  0.062081	  0.717779	

注意:motif 需要与序列匹配,DNA 为 ACGT,RNA 为 ACGU,否则无法匹配;如果是 RNA motif,则需要做一个反向互补的 DNA motif。

由于 strands: + - 会自动生成反向互补序列进行比对,因此此处直接从 dna_encoded.meme 文件中提取的对应的 DNA motif 只有 ALPHABET 变成了对应的 ACGT,而 letter-probability matrix 并没有发生变化。

MEME version 5.5.5 (Thu Sep 14 08:48:04 2023 +1000)

ALPHABET= ACGT

strands: + -

Background letter frequencies (from uniform background):
A 0.25000 C 0.25000 G 0.25000 T 0.25000 

MOTIF M227_0.6 PTBP1

letter-probability matrix: alength= 4 w= 7 nsites= 1 E= 0
  0.242168	  0.538758	  0.062005	  0.157070	
  0.038639	  0.218876	  0.038639	  0.703846	
  0.015301	  0.015301	  0.015301	  0.954098	
  0.015301	  0.015301	  0.015301	  0.954098	
  0.015301	  0.109172	  0.015301	  0.860226	
  0.015301	  0.675671	  0.015301	  0.293727	
  0.062081	  0.158058	  0.062081	  0.717779
  1. 输入序列信息使用 meme 工具查找 motif
# 提取基因序列
# conda install -c bioconda bedtools
type="gene"
sed 's/"/\t/g' gencode.vM25.annotation.gtf | awk -v type="${type}" 'BEGIN{OFS=FS="\t"}{if($3==type) {print $1,$4-1,$5,$14,".",$7}}' > mm10.gene.bed
head mm10.gene.bed
bedtools getfasta -name -s -fi mm10.fa -bed mm10.gene.bed > mm10.gene.fa

# 获取剪接因子的 fasta
awk '/Ptbp1/{print;getline;while($0 !~ /^>/ && $0 != ""){print;getline}}' mm10.gene.fa > /home/yanj/result/bone-stem-cell/fimo/PTBP1_genes.fa

image-20241023152637244

image-20241023144034346

(二)从基因组 fasta 中提取基因 fasta(exon + intron)

# 提取基因序列
# conda install -c bioconda bedtools
type="gene"
sed 's/"/\t/g' gencode.vM25.annotation.gtf | awk -v type="${type}" 'BEGIN{OFS=FS="\t"}{if($3==type) {print $1,$4-1,$5,$14,".",$7}}' > mm10.gene.bed
head mm10.gene.bed
bedtools getfasta -name -s -fi mm10.fa -bed mm10.gene.bed > mm10.gene.fa

此处也可以根据差异可变剪切事件来获取对应发生差异剪切的 intron 序列,其中 rMAPS2 工具就是提取 250 bp 上游或下游内含子序列以及外显子序列 5’ 或 3’ 末端的前 50 bp,其他剪切事件类型靶向序列的筛选也可参考 rMAPS2 工具:http://rmaps.cecsresearch.org/Help/UserGuide。

image-20241023164606184

(三)fimo 扫描 motif

直接在 fimo 界面(https://meme-suite.org/meme/tools/fimo)上传对应文件即可完成对应靶序列上的 motif 扫描。

image-20241023170829115

参考

  1. 可以从fasta中提取基因序列的4款软件 - 简书 (jianshu.com):https://www.jianshu.com/p/11b8804e570d
  2. 可变剪切调控因子motif基因富集分析 | motif enrichment | FIMO | MEME - Life·Intelligence - 博客园 (cnblogs.com):https://www.cnblogs.com/leezx/p/15116660.html
  3. rMAPS 使用指南:http://rmaps.cecsresearch.org/Help/UserGuide

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部