あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
BMC Bioinformatics.2020 Jun;21(1):263. 10.1186/s12859-020-03607-1. doi: 10.1186/s12859-020-03607-1.Epub 2020-06-24.

FSBC: HT-SELEXデータのための高速文字列ベースクラスタリング

FSBC: fast string-based clustering for HT-SELEX data.

  • Shintaro Kato
  • Takayoshi Ono
  • Hirotaka Minagawa
  • Katsunori Horii
  • Ikuo Shiratori
  • Iwao Waga
  • Koichi Ito
  • Takafumi Aoki
PMID: 32580745 PMCID: PMC7313139. DOI: 10.1186/s12859-020-03607-1.

抄録

背景:

リガンドの系統的進化と深層シークエンスを組み合わせることで、膨大な量のオリゴヌクレオチド配列からアプタマー候補を検索することが可能になります。クラスタリング法は、実験解析で評価するためのアプタマー候補を含む配列群を特定するための重要な手法である。一般に、アプタマーには、標的分子と結合するために必要な特定の標的結合領域が含まれている。標的結合領域の長さは、標的分子や結合様式によって異なる。現在利用可能なHT-SELEXのクラスタリング方法は、標的結合領域としての完全長配列または限られた長さのモチーフの類似性に基づいてクラスタを推定するのみである。したがって、異なる長さの標的結合領域を考慮したクラスタリング手法が必要である。さらに、このような膨大なデータを扱い、配列決定コストを節約するためには、HT-SELEXのデータを複数ラウンドではなく、1ラウンドから高速に計算できるクラスタリング手法も好ましい。

BACKGROUND: The combination of systematic evolution of ligands by exponential enrichment (SELEX) and deep sequencing is termed high-throughput (HT)-SELEX, which enables searching aptamer candidates from a massive amount of oligonucleotide sequences. A clustering method is an important procedure to identify sequence groups including aptamer candidates for evaluation with experimental analysis. In general, aptamer includes a specific target binding region, which is necessary for binding to the target molecules. The length of the target binding region varies depending on the target molecules and/or binding styles. Currently available clustering methods for HT-SELEX only estimate clusters based on the similarity of full-length sequences or limited length of motifs as target binding regions. Hence, a clustering method considering the target binding region with different lengths is required. Moreover, to handle such huge data and to save sequencing cost, a clustering method with fast calculation from a single round of HT-SELEX data, not multiple rounds, is also preferred.

結果:

HT-SELEXデータのための高速文字列ベースクラスタリング(FSBC)を開発した。FSBCは、過剰発現している文字列の様々な長さを標的結合領域として探索することで、クラスタを推定するように設計されている。また、FSBCは、アプタマー選択過程における核酸塩基の不均衡を考慮して、HT-SELEXデータの1ラウンド、典型的には最終ラウンドから検索スペースを削減して高速計算できるように設計されている。HT-SELEXデータ(1,500万塩基以上のオリゴヌクレオチド配列)を用いて、FSBCの計算時間とクラスタリング精度を従来の4つのクラスタリング手法(FASTAptamer, AptaCluster, APTANI, AptaTRACE)と比較した。その結果、FSBC, AptaCluster, AptaTRACEは全ての配列データに対してクラスタリングを完了することができ、FSBCとAptaTRACEはより高いクラスタリング精度を示した。FSBCは、比較されたすべての手法の中で、最も高いクラスタリング精度を示し、2番目に速い計算速度を持っていました。

RESULTS: We developed fast string-based clustering (FSBC) for HT-SELEX data. FSBC was designed to estimate clusters by searching various lengths of over-represented strings as target binding regions. FSBC was also designed for fast calculation with search space reduction from a single round, typically the final round, of HT-SELEX data considering imbalanced nucleobases of the aptamer selection process. The calculation time and clustering accuracy of FSBC were compared with those of four conventional clustering methods, FASTAptamer, AptaCluster, APTANI, and AptaTRACE, using HT-SELEX data (>15 million oligonucleotide sequences). FSBC, AptaCluster, and AptaTRACE could complete the clustering for all sequence data, and FSBC and AptaTRACE performed higher clustering accuracy. FSBC showed the highest clustering accuracy and had the second fastest calculation speed among all methods compared.

結論:

FSBCは大規模なHT-SELEXデータセットに適用可能であり、アプタマー候補を含むグループの正確な同定を容易にすることができる。

CONCLUSION: FSBC is applicable to a large HT-SELEX dataset, which can facilitate the accurate identification of groups including aptamer candidates.

データと資料の入手可能性:

FSBC は http://www.aoki.ecei.tohoku.ac.jp/fsbc/ から入手可能です。

AVAILABILITY OF DATA AND MATERIALS: FSBC is available at http://www.aoki.ecei.tohoku.ac.jp/fsbc/.