首页> 关于我们 >新闻中心>技术分享>新闻详情

宏组学数据NCBI_SRA上传攻略,超简单

2022-09-02

随着高通量测序技术的发展,不仅让我们对微生物的群落结构和功能有了更全面的了解,同时也产生了大量的原始测序数据。原始数据上传公共平台并发布,即是对自身数据的真实性、可重复性的一种验证依据,同时也是对所研究领域内信息发展,数据再利用做了贡献。

但现实是我们在上传过程中往往会遇到各种各样的问题,在某一个步骤中重复出现“error”,各种报错但又找不出具体原因,距离成功往往就只剩一步~

今天小编就将目前最新的完整宏组学数据上传步骤与各位分享,您值得拥有!



1、进入NCBI_submit向导

NCBI数据上传网址:https://submit.ncbi.nlm.nih.gov/ 

a9465f73c32d9f71782cd25100b2a323.png

进入网址,点击图片右上角Log in,进入登陆界面;

741f5513e20b71b609a775174b559787.png

需要注意的是目前NCBI登陆需要第三方账号,原来注册的NCBI账号可能已经停用,这里推荐用截图中红框内的ORCiD或者Microsoft账号登陆,当然如果老师有其他账户也可以选择登陆~

账号登陆后下拉网页找到Sequence Read Archive (SRA),点击Submit即可。

f8e639ac658fefab6bc3f2cbd6ca525b.png

2、SRA提交

2.1创建new submission

进入SRA提交页面,点击New submission。 

4e43b2ccc8e04de9c2db9dca46c0ea97.png

2.2 Submitter信息填写

65a0a8615c8d8c5b96fef9f0a019b88e.png

确认无误后,点击continue(“*”标注为必须填写,其余内容选填);

2.3 General Information信息填写

412566d32dc501cf7f77346a3f0be27a.png

  • 第一个红框为bioproject号填写,由于没有申请,故选择NO;

  • 第二个红框为biosample申请,由于没有申请,故选择NO;

  • 第三个红框为数据公布时间选择,前者为上传后立即公布,后者为选择指定日期公布,可根据需求进行选择;

填写完后,点击continue,进行下一项。

2.4 Project Info信息录入

ab61fc1866d7f159d461dbe6dd35ac1a.png

此步骤为bioproject申请,需要填写红框标注的“*”部分:

  • 第一个红框中需要填写项目标题,有固定格式“*+metagenome”,如土壤类型项目“soil metagenome”,肠道类型项目“gut metagenome”等等;

  • 第二个红框中需要填写样品信息描述,比如采样地点、深度、类型等等;

填写完后,点击continue,进行下一项。

2.5 Sample Type选择

b76027ff7400229b8fac69b4db6ebf39.png

选择Metagenome or environmental sample,固定选项,然后点击continue,进行下一项。

2.6 Biosample Attributes信息录入

266d492d02ac470b31fbd288db009bed.png

  • 选择第一个红框为线上填写样品信息;

  • 选择第二个红框可以下载表格填写样品信息,以下载表格为例进行说明;

1ff867f101e1145065fdc45e39e3f17e.png

表格打开如上图所示,填写完相应信息后将表格保存为txt格式上传到网页中;

*注意:多样品上传表格填写的信息如果所有样品均一致,NCBI会默认为是同一个样本,出现报错提示,所以建议样本信息不要完全一样,可以在样本采集时间一栏中小幅度更改采样日期时间;将鼠标移至表头红色三角处,可显示对应表格填写示例规范,collection_data中可填写的示例有1990-10-30T14:41:36Z,那么我们在填写这部分信息时可将采样的具体时间,即T后面的信息做小幅度修改,或按照您真实的采样时间填写,这样可以保证每个样品的信息不一致;

PS:经过测试,提交表格后会出现黄色框warning信息,不要紧张,可以忽略,continue进行下一项~

2.7 SRA metadata信息录入

d2826fa82147554233866c04cb21ee6d.png

  • 选择第一个红框为线上填写样品信息;

  • 选择第二个红框可以下载表格填写样品信息,以下载表格为例进行说明;

7ac90839b3418ccf52a0a1e20abe7b1b.png

表格中每一列均需要填写相应信息:

  • sample_name:上传样本名称;

  • library_ID:与上传样本名称一致即可;

  • title:如果是做的是16s项目,可以填写“sequences of bacteria”,如果是做的真菌项目,可以填写“sequences of fungi”,如果是某功能基因的项目,可以填写“sequences of * gene”;

  • library_strategy:如果老师的项目是菌群多样性检测,或者扩增子项目,选择AMPLICON;如果是宏基因组项目选择WGS;如果是宏转录组项目选择RNA-Seq;

  • library_source:菌群多样性检测,或者扩增子项目以及宏基因组项目选择METAGENOMIC;宏转录组项目选择METATRANSCRIPTOMIC;

  • library_selection:菌群多样性检测,或者扩增子项目选择PCR;宏基因组项目选择RANDOM;宏转录组选择RT-PCR;

  • library_layout:单端测序选择single,双端测序选择paired;

  • platform:根据测序所用平台进行选择;

  • instrument_model:根据上一列选定结果,继续选择仪器型号;

  • design_description:简单描述下实验设计思路,如测序区域信息等等;

  • filetype:上传数据的文件类型,比如Illumina平台测序原始数据类型为fastq格式;

  • filename/ filename2:填写上传文件的名称,需要注意的是上传文件的名称必须与文件一致,包括后缀名也要加上,如Illumina NovaSeq平台为双端测序平台,每个样本原始数据均有R1和R2两个文件,1_R1.fastq\1_R2.fastq,那么分别在filename/ filename2填写这两个文件名称即可;如果是压缩文件,也可直接上传,加入压缩文件的后缀名即可,如1_R1.fastq.gz/2_R2.fastq.gz;

上述表格信息填写完毕并保存后,点击浏览,上传该文件即可;

54d84901e0cb567b2aaccc3d189c1eea.png

出现如上warning信息不要紧,可以继续点击continue,进行下一项;

2.8 Files数据上传

方法一:在线上传

a8a69ebd4fac954f1115e65d22e75f65.png

选择在线上传数据,并在浏览中选择要上传的原始数据文件,待所有文件上传成功后,点击continue;

*在线上传适合样品不多,数据量不大的项目

方法二:Aspera插件上传(推荐)

c361ebe8e48e07f02645c7de00d7aa36.png

插件如何下载?返回SRA首页~~

c7711427649090ad2dd76cfcd0911713.png

点击Aspera Browser plugin,会自动跳转至下载页面;

b3160ee6937f0423f972c09ef8da926b.png

下载完成后,按提示安装软件即可;

返回我们上传的页面位置,并打开Aspera插件,该插件上传数据需运行dos命令行窗口,键盘“win+R”搜索cmd即可,如下图;

dff5c67e312aa043e43dccdf0931d522.png

2e85d748611a95619cebb3775af97796.png

d48674b47439546d1dba90c66f184c79.png

首先在dos运行命令窗口中需要先找到软件安装的位置,一般默认安装在C盘中;运行NCBI中给出的命令行(将上图中第二红框中的信息复制粘贴到cmd窗口中即可):

ascp -i<path/to/key_file>(之前下载key file文件,并带上文件路径信息) -QT -l100m -k1 -d<path/to/folder/containing files>(数据存放的路径,需注意目录以“\”结尾)subasp@upload.ncbi.nlm.nih.gov:uploads/*******@163.com_CEFVcPsr

成图如下:

7f99e8a06dd435bcb21ed6b3b9397957.png

点击回车键即可自动上传,而且速度很快,适合多样品及数据量较大的项目;

b637ece40b76a72128158f92c14c66c5.png

数据上传完后等待10分钟左右时间,点击Select preload folder,在新窗口中点击Refresh folders即可查到之前上传的文件信息,如果还没有出现,再继续耐心等待~

选择好上传的文件后,点击网页下方continue,进入上传数据的最后一项内容;

2.9 Overview信息回顾

d5e3cc2d228997fec7945aca042d9809.png

查看上传样本信息是否有误,如无问题,点击Submit;

3、 序列登录号获取

所有步骤完成后,网页会自动跳转至SRA界面,申请的相应提交进程处于processing;根据不同的样本量需要等待时间不等,一般情况下是24h内即可完成,待相应进行变为Processed后,可以查询序列登录号;

登入网址https://www.ncbi.nlm.nih.gov/Traces/sra_sub/会出现如下界面 :

a87bb37626e0c7d976695b8a341039ba.png

点击红框链接NCBI PDA,网页自动跳转如下页面:

b1815bc719777701793353974faeb107.png

其中SRP编号即为我们需要的序列登录号。