あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Microb Genom.2020 Jun;doi: 10.1099/mgen.0.000398.Epub 2020-06-24.

Platon: タンパク質配列ベースのレプリコン分布スコアを利用した短読ドラフトアセンブリにおける細菌プラスミドコンティグの同定と特性評価

Platon: identification and characterization of bacterial plasmid contigs in short-read draft assemblies exploiting protein sequence-based replicon distribution scores.

  • Oliver Schwengers
  • Patrick Barth
  • Linda Falgenhauer
  • Torsten Hain
  • Trinad Chakraborty
  • Alexander Goesmann
PMID: 32579097 DOI: 10.1099/mgen.0.000398.

抄録

プラスミドは染色体から独立して複製する染色体外遺伝要素であり、細菌の環境適応において重要な役割を果たしている。プラスミドは、潜在的な動員または共役能力により、抗菌薬耐性遺伝子や病原性因子の重要な遺伝的乗り物であり、臨床的な意味合いが非常に大きく、増加しています。そのため、これらは世界中の科学者の間で大規模なゲノム研究の対象となっています。急速に進歩した次世代シークエンシング法の結果、配列決定された細菌ゲノムの量は絶えず増加しており、その結果、(i)ドラフトアセンブリからプラスミド配列を抽出し、(ii)それらの起源と分布を導き出し、(iii)それらの遺伝的レパートリーをさらに調査するための専門的なツールの必要性が高まっています。近年、この問題に取り組むためのバイオインフォマティクス手法やツールがいくつか登場しているが、プラスミド配列の同定において、高感度と特異性を兼ね備えたものが、分類群に依存しない方法で実現されることはほとんどない。また、多くのソフトウェアツールは、大規模なハイスループット解析には適していなかったり、技術的な設計やソフトウェアの実装上の理由で既存のソフトウェアパイプラインに組み込むことができないものが多いのが現状です。本研究では、プラスミド産生コンティグと染色体産生コンティグを区別する新しいアプローチとして、タンパク質をコードする遺伝子のレプリコン分布の違いを大規模に調査した。新たな指標であるレプリコン分布スコア(RDS)を定義し、統計的識別閾値を計算したところ、96.6"Zs_200A"%の精度を達成した。このRDS指標と、プラスミド固有の高レベルコンティグの特徴を利用したヒューリスティックを組み合わせることで、最終的な性能はさらに向上しました。このワークフローを、短読ドラフトアセンブリからのプラスミド媒介コンティグのリクルートと特性評価のための新しいハイスループットな分類群非依存型バイオインフォマティクスソフトウェアツールであるPlatonに実装しました。PlasFlow と比較して、Platon は、より高い精度(97.5"Zs_200A"%)とよりバランスのとれた予測(F1=82.6"Zs_200A"%)を達成し、幅広い細菌の分類群でテストを行い、標的とするツールである PlasmidFinder と PlaScope に対して、シーケンス分離された単離株に対して、同等以上の性能を達成しました。Platon は http://platon.computational.bio/ から入手可能です。

Plasmids are extrachromosomal genetic elements that replicate independently of the chromosome and play a vital role in the environmental adaptation of bacteria. Due to potential mobilization or conjugation capabilities, plasmids are important genetic vehicles for antimicrobial resistance genes and virulence factors with huge and increasing clinical implications. They are therefore subject to large genomic studies within the scientific community worldwide. As a result of rapidly improving next-generation sequencing methods, the quantity of sequenced bacterial genomes is constantly increasing, in turn raising the need for specialized tools to (i) extract plasmid sequences from draft assemblies, (ii) derive their origin and distribution, and (iii) further investigate their genetic repertoire. Recently, several bioinformatic methods and tools have emerged to tackle this issue; however, a combination of high sensitivity and specificity in plasmid sequence identification is rarely achieved in a taxon-independent manner. In addition, many software tools are not appropriate for large high-throughput analyses or cannot be included in existing software pipelines due to their technical design or software implementation. In this study, we investigated differences in the replicon distributions of protein-coding genes on a large scale as a new approach to distinguish plasmid-borne from chromosome-borne contigs. We defined and computed statistical discrimination thresholds for a new metric: the replicon distribution score (RDS), which achieved an accuracy of 96.6 %. The final performance was further improved by the combination of the RDS metric with heuristics exploiting several plasmid-specific higher-level contig characterizations. We implemented this workflow in a new high-throughput taxon-independent bioinformatics software tool called Platon for the recruitment and characterization of plasmid-borne contigs from short-read draft assemblies. Compared to PlasFlow, Platon achieved a higher accuracy (97.5 %) and more balanced predictions (F1=82.6 %) tested on a broad range of bacterial taxa and better or equal performance against the targeted tools PlasmidFinder and PlaScope on sequenced isolates. Platon is available at: http://platon.computational.bio/.