あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Mol Ther Nucleic Acids.2020 Jun;21:332-342. S2162-2531(20)30165-7. doi: 10.1016/j.omtn.2020.06.004.Epub 2020-06-10.

複数の配列特徴を組み合わせたRNA配列中のm5C修飾の予測

Prediction of m5C Modifications in RNA Sequences by Combining Multiple Sequence Features.

  • Lijun Dou
  • Xiaoling Li
  • Hui Ding
  • Lei Xu
  • Huaikun Xiang
PMID: 32645685 PMCID: PMC7340967. DOI: 10.1016/j.omtn.2020.06.004.

抄録

5-メチルシトシン(m5C)は、RNA代謝、tRNA認識、ストレス応答などの生物学的プロセスにおいて重要な役割を果たす転写後修飾として知られています。m5C部位の同定に関する従来のハイスループット技術は、通常、時間とコストがかかります。また、ポストゲノム時代にはRNAの配列数が爆発的に増加しています。そのため、RNAのm5C修飾を高精度で迅速に予測するためには、機械学習に基づいた手法が急務となっている。本研究では、シロイヌナズナのm5C部位を同定するために、複数の配列特徴を組み合わせることで、新しいサポートベクターマシン(SVM)ベースのツール「iRNA-m5C_SVM」を提案する。まず、8種類の一般的な特徴抽出手法を系統的に検討した。次に、位置特異的傾向(PSNP, PSDP, PSTP:それぞれヌクレオチド、ジヌクレオチド、トリヌクレオチドの頻度に対応)、ヌクレオチド組成(核酸組成、ジヌクレオチド組成、トリヌクレオチド組成)を含む4つの特徴量を組み込み、包括的なモデルを構築した。NAC、DNC、およびTNC、それぞれ)、トリヌクレオチドの電子-イオン相互作用疑似ポテンシャル(PseEIIPs)、および一般的な平行相関疑似ジヌクレオチド組成(PC-PseDNC-general)。10倍クロスバリデーション及び独立試験で評価された精度は、それぞれ73.06%及び80.15%であり、既存のモデルの中で最も優れた予測性能を示した。本研究で提案したモデルは、植物のm5C修飾部位の研究をさらに進めるための有力な選択肢になると考えられる。

5-Methylcytosine (m5C) is a well-known post-transcriptional modification that plays significant roles in biological processes, such as RNA metabolism, tRNA recognition, and stress responses. Traditional high-throughput techniques on identification of m5C sites are usually time consuming and expensive. In addition, the number of RNA sequences shows explosive growth in the post-genomic era. Thus, machine-learning-based methods are urgently requested to quickly predict RNA m5C modifications with high accuracy. Here, we propose a noval support-vector-machine (SVM)-based tool, called iRNA-m5C_SVM, by combining multiple sequence features to identify m5C sites in Arabidopsis thaliana. Eight kinds of popular feature-extraction methods were first investigated systematically. Then, four well-performing features were incorporated to construct a comprehensive model, including position-specific propensity (PSP) (PSNP, PSDP, and PSTP, associated with frequencies of nucleotides, dinucleotides, and trinucleotides, respectively), nucleotide composition (nucleic acid, di-nucleotide, and tri-nucleotide compositions; NAC, DNC, and TNC, respectively), electron-ion interaction pseudopotentials of trinucleotide (PseEIIPs), and general parallel correlation pseudo-dinucleotide composition (PC-PseDNC-general). Evaluated accuracies over 10-fold cross-validation and independent tests achieved 73.06% and 80.15%, respectively, which showed the best predictive performances in A. thaliana among existing models. It is believed that the proposed model in this work can be a promising alternative for further research on m5C modification sites in plant.

Copyright © 2020 The Author(s). Published by Elsevier Inc. All rights reserved.