可变剪切因子 motif 分析
可变剪切调控因子与转录因子类似,具有特定的 RNA 结合 motif,是一种 RNA-binding protein。
-
相同点:
-
都是蛋白质的序列结合区域
-
有特定的序列 motif
-
-
不同点:
-
TF 的 motif 主要结合在 promoter 和 enhancer,负责基因转录
-
ASF 的 motif 主要结合在 gene 的 intro 区域,负责可变剪切
-
(一)获取可变剪切因子 motif
- 直接从 MEME 数据库中获取 motif 文件
MEME 工具含有多个 motif 数据库,具体可用数据库可参看:https://meme-suite.org/meme/db/motifs
所有 motif 数据库可直接下载使用:https://meme-suite.org/meme/doc/download.html
在 motif 数据库详情页面可查看下载压缩包中具体文件所在路径:
此处使用的 PTBP1
示例文件可以直接在 MEME 下载 CISBP-RNA
数据库(http://cisbp-rna.ccbr.utoronto.ca/)信息,并从中提取对应剪切因子的 motif,其中 MEME 中提供了 CISBP-RNA
数据库的 RNA motif 和 DNA motif 。
MEME version 5.5.5 (Thu Sep 14 08:48:04 2023 +1000)
ALPHABET= ACGU
Background letter frequencies (from uniform background):
A 0.25000 C 0.25000 G 0.25000 U 0.25000
MOTIF M227_0.6 PTBP1
letter-probability matrix: alength= 4 w= 7 nsites= 1 E= 0
0.242168 0.538758 0.062005 0.157070
0.038639 0.218876 0.038639 0.703846
0.015301 0.015301 0.015301 0.954098
0.015301 0.015301 0.015301 0.954098
0.015301 0.109172 0.015301 0.860226
0.015301 0.675671 0.015301 0.293727
0.062081 0.158058 0.062081 0.717779
注意:motif 需要与序列匹配,DNA 为 ACGT,RNA 为 ACGU,否则无法匹配;如果是 RNA motif,则需要做一个反向互补的 DNA motif。
由于 strands: + -
会自动生成反向互补序列进行比对,因此此处直接从 dna_encoded.meme
文件中提取的对应的 DNA motif 只有 ALPHABET
变成了对应的 ACGT
,而 letter-probability matrix
并没有发生变化。
MEME version 5.5.5 (Thu Sep 14 08:48:04 2023 +1000)
ALPHABET= ACGT
strands: + -
Background letter frequencies (from uniform background):
A 0.25000 C 0.25000 G 0.25000 T 0.25000
MOTIF M227_0.6 PTBP1
letter-probability matrix: alength= 4 w= 7 nsites= 1 E= 0
0.242168 0.538758 0.062005 0.157070
0.038639 0.218876 0.038639 0.703846
0.015301 0.015301 0.015301 0.954098
0.015301 0.015301 0.015301 0.954098
0.015301 0.109172 0.015301 0.860226
0.015301 0.675671 0.015301 0.293727
0.062081 0.158058 0.062081 0.717779
- 输入序列信息使用 meme 工具查找 motif
# 提取基因序列
# conda install -c bioconda bedtools
type="gene"
sed 's/"/\t/g' gencode.vM25.annotation.gtf | awk -v type="${type}" 'BEGIN{OFS=FS="\t"}{if($3==type) {print $1,$4-1,$5,$14,".",$7}}' > mm10.gene.bed
head mm10.gene.bed
bedtools getfasta -name -s -fi mm10.fa -bed mm10.gene.bed > mm10.gene.fa
# 获取剪接因子的 fasta
awk '/Ptbp1/{print;getline;while($0 !~ /^>/ && $0 != ""){print;getline}}' mm10.gene.fa > /home/yanj/result/bone-stem-cell/fimo/PTBP1_genes.fa
(二)从基因组 fasta 中提取基因 fasta(exon + intron)
# 提取基因序列
# conda install -c bioconda bedtools
type="gene"
sed 's/"/\t/g' gencode.vM25.annotation.gtf | awk -v type="${type}" 'BEGIN{OFS=FS="\t"}{if($3==type) {print $1,$4-1,$5,$14,".",$7}}' > mm10.gene.bed
head mm10.gene.bed
bedtools getfasta -name -s -fi mm10.fa -bed mm10.gene.bed > mm10.gene.fa
此处也可以根据差异可变剪切事件来获取对应发生差异剪切的 intron 序列,其中 rMAPS2
工具就是提取 250 bp 上游或下游内含子序列以及外显子序列 5’ 或 3’ 末端的前 50 bp,其他剪切事件类型靶向序列的筛选也可参考 rMAPS2
工具:http://rmaps.cecsresearch.org/Help/UserGuide。
(三)fimo 扫描 motif
直接在 fimo
界面(https://meme-suite.org/meme/tools/fimo)上传对应文件即可完成对应靶序列上的 motif 扫描。
参考
- 可以从fasta中提取基因序列的4款软件 - 简书 (jianshu.com):https://www.jianshu.com/p/11b8804e570d
- 可变剪切调控因子motif基因富集分析 | motif enrichment | FIMO | MEME - Life·Intelligence - 博客园 (cnblogs.com):https://www.cnblogs.com/leezx/p/15116660.html
- rMAPS 使用指南:http://rmaps.cecsresearch.org/Help/UserGuide
本站资源均来自互联网,仅供研究学习,禁止违法使用和商用,产生法律纠纷本站概不负责!如果侵犯了您的权益请与我们联系!
转载请注明出处: 免费源码网-免费的源码资源网站 » 可变剪切因子 motif 分析
发表评论 取消回复