fastqc和Trimmomatic的使用

news/发布时间2024/8/25 17:05:16

1.FastQC分析检测报告

在先前的记录中,我们已经得到了我们的QC报告,现在要针对我们的报告对原始数据进行过滤
其中

都表明该数据需要去接头,并对序列进行处理

2.Trimmomatic的下载

首先,使用conda安装Trimmomatic
conda install Trimmomatic
就可以安装完毕了,安装完使用trimmomatic -h检测是否安装成功

成功了是这样的。
注意:安装前记得先安Java
https://www.jianshu.com/p/43b564783e32

3.开始过滤

可以参考
https://blog.csdn.net/I_LiYY/article/details/105533946
在开始过滤之前,先准备好几个东西:
①.确认好数据是phred33还是phred64,具体的讲解内容在这个帖子里:
https://www.jianshu.com/p/248308513e2e
但是这里只要区分清楚这两种是有区别的就可以,不要搞错了,可以使用脚本来判断,原理是解压1000条出来看看是哪种编码

使用的脚本在这里,非常方便:https://www.jianshu.com/p/9ceabb21be12
②.提前写好的命令:按照自己的需求提前写好,现场一个一个输很麻烦的,而且写好以后可以批量处理
使用命令
trimmomatic PE -threads 8 -phred33 SRR13810477_1.fastq.gz SRR13810477_2.fastq.gz paired_1_R1_paired.fq.gz unpaired_1_R1_unpaired.fq.gz paired_1_R2_paired.fq.gz unpaired_1_R2_unpaired.fq.gz ILLUMINACLIP:/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:2:30:10 SLIDINGWINDOW:4:15 MINLEN:30 LEADING:3 TRAILING:3 MINLEN:30
主要分为三部分,这里解释一下其中各参数都代表什么:
第一部分:
PE:是双端模式,给双端测序数据用的,如果是单端测序,用SE
-threads:这是线程数,你可以选择合适的线程加快进度,不然默认单核,超慢
-phred33:这就是之前提到的,不多赘述
SRR13810477_1.fastq.gz SRR13810477_2.fastq.gz:这是你要处理的数据,因为是双端测序所以有两个
paired_1_R1_paired.fq.gz unpaired_1_R1_unpaired.fq.gz paired_1_R2_paired.fq.gz unpaired_1_R2_unpaired.fq.gz:这是要输出的四个文件,输出文件有四个,使用 -baseout 参数指定输出文件的 basename,软件会自动为四个输出文件命名,过滤之后双端序列都保留的就是 paired,反之如果其中一端序列过滤之后被丢弃了另一端序列保留下来了就是 unpaired(即 成对的clean reads, 未成对的正向序列以及未成对的反向序列),如图:
接下来的参数主要参与去接头的第二部分:
ILLUMINACLIP:/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:2:30:10
/root/anaconda3/pkgs/trimmomatic-0.39-hdfd78af_2/share/trimmomatic-0.39-2/adapters/NexteraPE-PE.fa:参数后面分别接adapter序列的fasta文件:第一步 seed 搜索时允许的最大错配碱基个数2:palindrome模式下匹配碱基数阈值30:simple模式下的匹配碱基数阈值10(7-15之间):palindrome 模式允许切除的最短接头序列为 8bp(默认值):palindrome 模式去除与 R1 完全反向互补的 R2(默认去除false),但在有些情况下,例如需要用到 paired reads 的 bowtie2 流程,就要将这个参数改为 true,否则会损失一部分 paired reads。

按照规定顺序,ILLUMINACLIP 各个参数之间以冒号分开,PE测序需要注意最后一个参数。对于SE测序最后两个参数可以不设置

其中,导入adapter序列的fasta文件时,记得使用绝对路径,不明白的朋友可以直接find来找,如find / -name TruSeq3-PE-2.fa,找到路径之后可以去看一下,是这个样子的:
一般测序公司在给你数据的时候这个也会给你,不过Trimmomatic自带这些Illumina 平台的接头,所以直接用也可以
第三部分,就是关于过滤剪切的参数了,强烈建议一步一步来,先去接头,再过滤剪切。看自己的需要调整选择:
LEADING:3 切除首端碱基质量小于3的碱基
#Illumina平台有些低质量的碱基质量值被标记为 2 ,所以设置为3可以过滤掉这部分低质量碱基。
TRAILING:3 切除尾端碱基质量小于3的碱基
SLIDINGWINDOW:15:20
滑窗质量过滤,一般一个read的低质量序列都是集中在末端,也有很少部分在开头。从5'端开始进行滑动,当滑动位点周围一段序列(window)的平均碱基低于阈值,则从该处进行切除。Windows的size是15个碱基(一般设置在10-30之间),其平均碱基质量小于20,则切除
MINLEN:50 可被保留的最短reads长度,应根据原始序列的长度而定
HEADCROP: 在reads的首端切除指定的长度
CROP: 保留reads到指定的长度
TOPHRED33 将碱基质量转换为pred33格式
TOPHRED64 将碱基质量转换为pred64格式

调整好参数后就可以开始过滤了,过滤的过程主要是这样的:

这里是他输出的四个文件:

4.确认过滤效果

将这四个文件中“paired”的两个拿出来做QC,确认过滤效果

由此可见,我们已经将接头全部切掉了,接下来就可以等待比对了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.liansuoyi.cn/news/22154374.html

如若内容造成侵权/违法违规/事实不符,请联系连锁易网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

荣耀折叠,太卷啦

又薄又强,只缺“杀手”……近日的Magic旗舰新品发布会上,荣耀一口气带来了两款新折叠屏旗舰新品——荣耀Magic V3和荣耀Magic Vs3。 荣耀总裁赵明一如既往地自信,向大家一一阐述在折叠屏领域近百亿元研发投入换来的种种“奇迹”:创行业纪录的轻薄,青海湖电池加持,航天特种…

需求流程

产品愿景目标用户:学校内专业、学院的羽毛球运动员、教练以及教师,用于管理羽毛球比赛积分和晋级信息。 他们的需要或机会:提供一个方便的平台来记录和管理学校内羽毛球比赛数据,包括积分、排名以及教师的比赛晋级信息,以激励学生参与体育活动,促进羽毛球比赛的发展和提升…

idea 创建springboot项目

参考—— https://blog.csdn.net/Alger_/article/details/128749131——————————需要联网创建————创建项目 new project——》Spring initializr next springboot的版本与jdk版本有关 2.x :jdk8 3.x :jdk17 只选择web 下的spring web ——》create 项目需要联网下…

Xdown 多功能多线程并发下载工具

下载地址:https://www.mediafire.com/file/942px42bad7exdf/Xdown%25E4%25B8%258B%25E8%25BD%25BD%25E5%25B7%25A5%25E5%2585%25B7.zip/file Xdown是一款超级强大且免费无广告的Torrent(BT)/磁力链/Aria2/HTTP下载工具。Xdown不光如此还支持BT做种,使用 Xdown下载器让我们跟…

直播预约丨《指标体系建设实战》第四期:如何构建全面的指标管理体系

指标是反映企业的各项核心业务活动、管理成效的数据体系,指标体系作为联结业务逻辑与数据实体的关键桥梁,是构建高质量数据统计的基础单元,并在量化业务绩效和效果评估中扮演着核心角色。 为了更好地服务于客户并提供切实可行的实践指导,自4月24日起,袋鼠云将推出全新《指…

idea 查看项目的git路径

目录 第一种方式: 第二种方式: 第三种方式:第一种方式: 1、打开项目,在工程上右键,选择Show in Explorer; 如下图:2、此时会打开本地的代码路径窗口; 如下图:3、双击工程,会出现git目录文件夹;4、双击进去git目录, 打开config文件夹;5、文件里面的url 属性即为gi…

从校招新星到前端技术专家的成长之路

引言 我在2018年校招进入京东,主要负责广告投放系统的前端工作。在京东,这一路走来,我经历了多种角色转换,我从学生到职场人,从校招生到校招导师,从初级前端开发到前端技术专家,也见证了京东广告业务的蓬勃发展。 回顾过去的成长历程,我心中充满了感慨。首先,我要衷心…

Docker启动时报错:当前电脑配置不支持WSL2,请启用虚拟机平台 Windows 功能并确保在 BIOS 中启用虚拟化

首先我不知道我为什么会报这种错,因为我看了一下我的虚拟机平台和hyper-v都是启动的了。所以只能重新勾选hyper-v,然后再在powershell中重新启动虚拟化服务了。如果没有权限就管理员身份运行。bcdedit /set hypervisorlaunchtype auto都弄完后重启电脑即可。成功页面(不闪退…

nginx对访问路径进行限制【部分接口可以内外网访问、剩余接口只可以内网访问】

前言 最近这段时间的项目被查出了安全漏洞、然后做了一些安全措施的整改。整改后、BOSS又提了个很有意思的思路。 涉及到小程序端的请求接口、内外网都可以访问。 涉及到后台管理的请求接口、只允许内网访问。开干开干 由于项目引进了gateway网关、一开始的时候。我…

【C++】map

1、定义 template<class Key,class T,class Compare = std::less<Key>,class Allocator = std::allocator<std::pair<const Key, T>> > class map;namespace pmr {template<class Key,class T,class Compare = std::less<Key>> using map …

【C++】创建对象写法

1、在栈中创建对象 栈中创建的对象,不用我们手动释放资源。 和创建基本类型一样,直接声明即可,如果有参数,则用括号。 vector<int> a; // 默认构造函数 vector<int> b(实参); // 其他构造函数2、在堆中创建对象 堆中创建的对象,需要我们手动释放资源。 使用ne…

【C++】使用ort推理yolov10

【C++】使用ort推理yolov10 前言:由于笔者是编导专业,想玩玩yolo模型,搜来搜去全是python,所以在学会之后写一篇文章帮助和笔者同样情况的人 环境 Windows 10 C++17 onnxruntime18.1(DML版本) opencv4.9 visual studio2022 1. 环境配置 1.1 OpenCV环境配置 1.1.1 OpenCV …

八大作业管理流程

安全影响力的小编非常喜欢王老师的风格,抄了他的创意,把八大高危作业做了一个“一图看懂”系列。

onnxruntime无法使用GPU加速 加速失败 解决方法【非常详细】

CreateExecutionProviderInstance CUDA_PATH is set but CUDA wasnt able to be loaded. Please install the correct version of CUDA andcuDNN as mentioned in the GPU requirements page onnxruntime GPU加速onnx 无法使用GPU加速 加速失败 解决方法【非常详细】应该是自目…

2024/7/15 模拟赛 记录

noip NOI plus!几乎全员爆蛋( 本来能拿T1 20pts 暴力分的,但是居然CE了!!! max里两个参数,一个int一个longlong dev居然没报!!!光荣爆蛋(我估计是全场唯一一个没过编的:( 题解已存至网盘 https://fzoishare.xndxfz.com:7123/

状压DP

状压DP 状压 DP 是动态规划的一种,通过将状态压缩为整数来达到优化转移的目的。 例题 https://www.luogu.com.cn/problem/P1896 思路 一行中所有放置的状态可以用二进制数表示:如01000111(1代表当前位置放置物品) 因此,我们可以先找出所有的合法状态,(利用dfs进行递归) 并…

Apache服务器上的No input file specified错误

错误提示: Apache服务器上的No input file specified错误 解决方案: 在根目录下找到php5.ini文件(如果找不到就建立一个),在里面加上如下内容 cgi.fix_pathinfo = 1本文来自博客园,作者:黄文Rex,转载请注明原文链接:https://www.cnblogs.com/hwrex/p/18303797

软件测试理论知识-分类和方法

一、软件测试分类汇总分类方法分类内容按开发阶段 单元测试、集成测试、系统测试、验收测试按测试实施组织 α、β、第三方按测试执行方式 静态测试、动态测试按是否查看代码 黑盒测试、白盒测试、灰盒测试按是否手工执行划分 手工测试、自动化测试按测试对象划分 性能测试、安…

NPA论文阅读笔记

NPA: Neural News Recommendation with Personalized Attention论文阅读笔记 这个又是一篇很老但是很经典的论文,这里来读一下 Abstract 现存的问题: ​ 不同的用户通常有不同的兴趣爱好,同一用户也可能有不同的兴趣爱好。因此,不同的用户点击同一篇新闻时可能会关注不同的…

神经网络中神经元的权重更新

前段时间写过一篇介绍神经网络的入门文章:神经网络极简入门。那篇文章介绍了神经网络中的基本概念和原理,并附加了一个示例演示如何实现一个简单的神经网络。 不过,在那篇文章中并没有详细介绍神经网络在训练时,是如何一步步找到每个神经元的最优权重的。本篇介绍神经网络训…
推荐文章