Como usar o ncbi-genome-download para baixar genomas bacterianos do NCBI
Se você estiver interessado em baixar genomas bacterianos dos servidores FTP do National Center for Biotechnology Information (NCBI), poderá achar a ferramenta de download do genoma ncbi muito útil. Essa ferramenta é um script Python que permite baixar genomas do NCBI por vários critérios, como nome taxonômico, acesso de montagem, nível de montagem, categoria refseq e muito mais. Você também pode escolher os formatos e arquivos para baixar, como GenBank, FASTA, proteína, relatório de montagem, etc. Neste artigo, mostraremos como instalar e usar o ncbi-genome-download para baixar genomas bacterianos do NCBI.
O que é ncbi-genoma-download e por que usá-lo?
Uma breve introdução ao ncbi-genoma-download
ncbi-genome-download é um script Python criado por Kai Blin, um bioinformático e desenvolvedor de software do Novo Nordisk Foundation Center for Biosustainability. A ideia foi inspirada nos scripts de downloader Kraken de Mick Watson, que são escritos em Perl e específicos para a construção de um banco de dados Kraken. No entanto, o download do genoma ncbi se concentra no download real do genoma e oferece suporte a diferentes formatos e critérios. A ferramenta é de código aberto e está disponível no GitHub.
ncbi-genome-download bacteria
Os benefícios de usar o ncbi-genoma-download
Existem vários benefícios de usar o download do genoma ncbi em relação a outros métodos de download de genomas do NCBI. Alguns deles são:
É fácil de instalar e usar. Você pode instalá-lo usando pip ou conda e executá-lo na linha de comando com opções simples.
É flexível e personalizável. Você pode baixar genomas por diferentes critérios, como nome taxonômico, acesso de montagem, nível de montagem, categoria refseq, gêneros, espécies, etc. Você também pode escolher os formatos e arquivos para baixar, como GenBank, FASTA, proteína, relatório de montagem, etc.
É rápido e eficiente. Você pode executar vários downloads em paralelo usando a opção --parallel.Você também pode retomar downloads interrompidos usando a opção --resume.
Ele é atualizado e mantido. A ferramenta é atualizada regularmente para refletir as mudanças nos servidores FTP do NCBI e os dados do genoma disponíveis. Você também pode relatar problemas ou sugerir recursos no GitHub.
Como instalar o download do genoma do ncbi
Usando pip
Se você tiver o Python instalado em seu sistema, poderá usar o pip para instalar o ncbi-genome-download. Pip é um gerenciador de pacotes para Python que permite instalar pacotes do PyPI , o Python Package Index. Para instalar o ncbi-genome-download usando pip, execute o seguinte comando:
pip install ncbi-genoma-download
Se isso falhar em versões mais antigas do Python, tente atualizar sua ferramenta pip primeiro:
pip install --upgrade pip
e, em seguida, execute novamente a instalação do ncbi-genome-download.
Usando conda
Se você preferir usar o conda, um gerenciador de pacotes para Python e outras linguagens que permite instalar pacotes de vários canais, você também pode instalar o ncbi-genome-download usando o conda. O Conda faz parte do Anaconda [^12^ ), uma distribuição do Python e outras ferramentas para ciência de dados e aprendizado de máquina. Para instalar o ncbi-genome-download usando o conda, execute o seguinte comando:
conda install -c bioconda ncbi-genoma-download
Isso instalará o ncbi-genome-download do canal bioconda , que é um canal direcionado à comunidade que fornece pacotes de bioinformática para o conda.
Como baixar genomas bacterianos por diferentes critérios
Usando nome taxonômico ou ID
Uma das formas mais comuns de baixar genomas bacterianos do NCBI é usando o nome taxonômico ou ID do grupo de interesse. Por exemplo, se você deseja baixar todos os genomas do filo Firmicutes, pode usar o seguinte comando:
ncbi-genoma-download --section refseq --grupo de bactérias --taxon firmicutes
Isso fará o download de todos os genomas do filo Firmicutes da seção refseq dos servidores FTP do NCBI.A seção refseq contém genomas selecionados e anotados que são considerados sequências de referência. Você também pode usar a opção --section genbank para baixar genomas da seção genbank, que contém todos os genomas enviados ao NCBI . No entanto, observe que alguns genomas podem estar duplicados ou incompletos na seção genbank.
Você também pode usar o ID taxonômico em vez do nome, se souber. Por exemplo, o ID taxonômico de Firmicutes é 1239, então você pode usar o seguinte comando:
ncbi-genoma-download --section refseq --grupo bacteria --taxid 1239
Isso fará o download dos mesmos genomas de antes. Você pode encontrar o ID taxonômico de qualquer grupo usando o NCBI Taxonomy Browser.
Usando acesso de montagem ou acesso de BioProject
Se você deseja baixar um genoma específico ou um conjunto de genomas por meio de acesso de montagem ou acesso de BioProject, pode usar as opções --assembly-accessions ou --bioprojects. Por exemplo, se você deseja baixar o genoma de Escherichia coli K-12 MG1655, que possui o acesso assembly GCF_000005845.2 e o acesso BioProject PRJNA57779, você pode usar um destes comandos:
ncbi-genoma-download --section refseq --grupo bacteria --assembly-accessions GCF_000005845.2
ncbi-genoma-download --section refseq --grupo de bactérias --bioprojects PRJNA57779
Isso fará o download apenas do genoma de E. coli K-12 MG1655 da seção refseq. Você pode encontrar o acesso de montagem e acesso de BioProject de qualquer genoma usando o NCBI Assembly Database ou o NCBI BioProject Database.
Usando nível de montagem ou categoria refseq
Se você deseja filtrar os genomas por nível de montagem ou categoria refseq, pode usar as opções --assembly-level ou --refseq-category.O nível de montagem indica quão completo e contíguo é um conjunto de genoma e pode ser um destes valores: completo, cromossomo, andaime ou contig . A categoria refseq indica o quão representativa e confiável é uma sequência do genoma e pode ser um destes valores: referência, representativa ou na . Por exemplo, se você deseja baixar apenas os genomas completos de bactérias que são sequências de referência da seção refseq, pode usar este comando:
ncbi-genome-download --section refseq --group bacteria --assembly-level complete --refseq-category reference
Isso fará o download apenas dos genomas que atendem a ambos os critérios. Você também pode usar vários valores para cada opção, separando-os com vírgulas. Por exemplo, se você deseja baixar todos os genomas de bactérias que são conjuntos completos ou em nível de cromossomo das seções refseq ou genbank, você pode usar este comando:
ncbi-genoma-download --seção refseq,genbank --grupo de bactérias --conjunto de nível completo, cromossomo
Isso fará o download de todos os genomas que atendem a qualquer um dos critérios.
Usando gêneros ou nomes de espécies
Se você deseja baixar genomas por gênero ou nome de espécie, pode usar as opções --genera ou --species. Por exemplo, se você deseja baixar todos os genomas de bactérias pertencentes ao gênero Bacillus da seção refseq, pode usar este comando:
ncbi-genoma-download --section refseq --grupo de bactérias --genera Bacillus
Isso fará o download de todos os genomas das espécies de Bacillus da seção refseq. Você também pode usar o nome da espécie em vez do nome do gênero, se souber. Por exemplo, se você deseja baixar apenas o genoma do Bacillus subtilis 168, que é um organismo modelo para genética e fisiologia bacteriana, pode usar este comando:
ncbi-genoma-download --seção refseq --grupo de bactérias --espécie "Bacillus subtilis 168"
Isso fará o download apenas do genoma de B. subtilis 168 da seção refseq.Observe que você precisa usar aspas ao redor do nome da espécie se contiver espaços. Você pode encontrar os nomes de gêneros e espécies de qualquer genoma usando o NCBI Genome Database.
Como escolher os formatos e arquivos para download
Usando a opção --formats
Por padrão, o ncbi-genome-download baixará os arquivos no formato GenBank para cada genoma, que contém as sequências de nucleotídeos e anotações dos recursos genômicos. No entanto, você também pode escolher outros formatos para baixar, como FASTA, proteína, relatório de montagem, etc. Para fazer isso, você pode usar a opção --formats e especificar um ou mais formatos separados por vírgulas. Por exemplo, se você deseja baixar os arquivos de formato GenBank e FASTA para cada genoma, pode usar este comando:
ncbi-genoma-download --seção refseq --grupo de bactérias --formatos genbank,fasta
Isso fará o download dos arquivos .gbff e .fna para cada genoma da seção refseq. Os arquivos .gbff contêm os dados no formato GenBank e os arquivos .fna contêm os dados no formato FASTA. Os arquivos de formato FASTA contêm apenas as sequências de nucleotídeos sem anotações. Você pode encontrar uma lista de todos os formatos suportados e suas extensões no GitHub.
Usando a opção --include
Às vezes, você pode querer baixar arquivos adicionais que não fazem parte dos formatos padrão, como tabelas de recursos, tabelas de proteínas, tabelas de RNA, etc. Para fazer isso, você pode usar a opção --include e especificar uma ou mais extensões de arquivo separadas por vírgulas. Por exemplo, se você deseja baixar os arquivos de formato GenBank e os arquivos da tabela de características para cada genoma, você pode usar este comando:
ncbi-genoma-download --seção refseq --grupo de bactérias --formatos genbank --include feature_table
Isso fará o download dos arquivos .gbff e .ftt para cada genoma da seção refseq. Os arquivos .ftt contêm os dados da tabela de características, que são arquivos delimitados por tabulações que resumem as características genômicas e suas localizações.Você pode encontrar uma lista de todas as extensões de arquivo disponíveis no GitHub.
Como executar vários downloads em paralelo
Usando a opção --parallel
Se você deseja acelerar seus downloads executando vários downloads em paralelo, pode usar a opção --parallel e especificar o número de processos paralelos a serem usados. Por exemplo, se você deseja baixar todos os genomas de bactérias da seção refseq usando 8 processos paralelos, pode usar este comando:
ncbi-genoma-download --section refseq --grupo bacteria --parallel 8
Isso fará o download de todos os genomas de bactérias da seção refseq usando 8 processos paralelos. Observe que isso pode aumentar o uso da largura de banda da rede e a carga da CPU, portanto, use-o com cuidado e de acordo com os recursos do sistema.
Conclusão e perguntas frequentes
Neste artigo, mostramos como usar o download do ncbi-genoma para baixar genomas bacterianos do NCBI por vários critérios, como nome taxonômico, acesso de montagem, nível de montagem, categoria refseq, gêneros, espécies etc. Também mostramos como escolher os formatos e arquivos para download, como GenBank, FASTA, proteína, relatório de montagem etc.
Esperamos que este artigo tenha sido útil e informativo para você. Se você tiver alguma dúvida ou comentário sobre o download do genoma ncbi ou o download de genomas bacterianos do NCBI em geral, sinta-se à vontade para deixá-los abaixo. Faremos o possível para respondê-los o mais breve possível.
Aqui estão algumas perguntas frequentes (FAQs) sobre o download do genoma ncbi e o download de genomas bacterianos do NCBI:
P: Como posso atualizar o ncbi-genome-download?
R: Se você instalou ncbi-genome-download usando pip ou conda , pode atualizá-lo usando a mesma ferramenta com a opção --upgrade. Por exemplo:
pip install --upgrade ncbi-genome-download
conda update -c bioconda ncbi-genoma-download
Isso atualizará o ncbi-genoma-download para a versão mais recente disponível no PyPI ou no bioconda.
P: Como posso retomar downloads interrompidos?
R: Se o seu download for interrompido por algum motivo, como falha de rede ou travamento do sistema, você pode retomá-lo usando a opção --resume. Por exemplo, se você estava baixando todos os genomas de bactérias da seção refseq usando 8 processos paralelos e seu download foi interrompido, você pode retomá-lo usando este comando:
ncbi-genoma-download --section refseq --grupo bacteria --parallel 8 --resume
Isso retomará o download de onde parou, sem baixar novamente os arquivos que já foram baixados.
P: Como posso baixar genomas de outros grupos, como archaea, fungos, vírus, etc.?
R: Você pode baixar genomas de outros grupos usando a opção --group e especificando o nome do grupo. Por exemplo, se você deseja baixar todos os genomas de archaea da seção refseq, pode usar este comando:
ncbi-genoma-download --section refseq --group archaea
Isso fará o download de todos os genomas de archaea da seção refseq. Você pode encontrar uma lista de todos os grupos suportados no GitHub.
P: Como posso baixar genomas de outros domínios, como eucariotos ou procariontes?
R: Você pode baixar genomas de outros domínios usando a opção --domain e especificando o nome do domínio. Por exemplo, se você deseja baixar todos os genomas de eucariotos da seção refseq, pode usar este comando:
ncbi-genoma-download --section refseq --domain eukaryota
Isso fará o download de todos os genomas de eucariotos da seção refseq. Você pode encontrar uma lista de todos os domínios suportados no GitHub.
P: Como posso baixar genomas de outras seções, como representante ou referência?
R: Você pode baixar genomas de outras seções usando a opção --section e especificando o nome da seção.Por exemplo, se você deseja baixar todos os genomas de bactérias que são sequências representativas da seção representativa, pode usar este comando:
ncbi-genoma-download --representante da seção --grupo de bactérias
Isso fará o download de todos os genomas de bactérias que são sequências representativas da seção representativa. A seção representativa contém genomas selecionados pelo NCBI como representativos de seus grupos taxonômicos. Você também pode usar a opção --section reference para baixar genomas que são seqüências de referência, que são selecionadas pelo NCBI como padrões de referência para suas espécies. Você pode encontrar uma lista de todas as seções com suporte no GitHub. 0517a86e26
Comments