あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Gene.2019 Jul;705:113-126. S0378-1119(19)30400-7. doi: 10.1016/j.gene.2019.04.047.Epub 2019-04-19.

スプライスサイト認識のための配列符号化方式と機械学習法の性能評価

Evaluating the performance of sequence encoding schemes and machine learning methods for splice sites recognition.

  • Prabina Kumar Meher
  • Tanmaya Kumar Sahu
  • Shachi Gahoi
  • Subhrajit Satpathy
  • Atmakuri Ramakrishna Rao
PMID: 31009682 DOI: 10.1016/j.gene.2019.04.047.

抄録

遺伝子の構造を予測するためには、スプライスサイトの同定が不可欠である。スプライスサイトの同定には、ルールベースの手法よりも機械学習ベースのアプローチ(MLA)の方が成功していることが報告されている。しかし、MLAの入力として使用する前に、アルファベットの文字列を配列符号化して数値特徴量に変換する必要がある。本研究では、8種類のシーケンス符号化方式(ベイズカーネル、密度、スパース)の性能を評価した。ベイズカーネル、密度とスパース(DS)、3ヌクレオチドと1次マルコフモデルの分布(DM)、周波数差距離測定(FDDM)、真偽サイトと偽サイトの間のペアヌクレオチド周波数差(FDTF)の8つの異なるシーケンス符号化方式の性能を評価した。5つの教師付き学習法(ANN, バギング, ブースティング, RF, SVM)を用いてドナーとアクセプタのスプライス部位を予測する際に、1次マルコフモデル(MM1)、1次と2次のマルコフモデル(MM1+MM2)、2次マルコフモデル(MM2)の組み合わせを用いた。符号化方式と機械学習法は、最初にA. thaliana, C. elegans, D. melanogaster, H. sapiensの4種で評価され、その後、Ciona intestinalis, Dictyostelium discoideum, Phaeodactylum tricornutum, Trypanosoma bruceiの4種で性能が検証されました。ROC(受信機動作特性)曲線とPR(精度-リコール)曲線の観点からは、FDTF符号化手法がMM2とFDDMに次いで高い精度を達成した。また、符号化方式や種の違いに関わらず、SVMが高い精度(ROCとPR曲線)を示し、次いでRFが高い精度を達成していることがわかった。種の予測精度については、SVMとFDTFの組み合わせが他の分類器と符号化方式の組み合わせよりも最適であることがわかった。また、イントロン密度が低い種ほどスプライスサイト予測精度が高いことがわかった。我々の限られた知識の中で、スプライスサイト予測のための配列符号化方式を総合的に評価したのは、これが初めての試みである。また、スプライスサイトモチーフを異なるエンコーディング方式でエンコーディングするためのR-package EncDNA(https://cran.r-project.org/web/packages/EncDNA/index.html)を開発しており、既存のヌクレオチド配列エンコーディングアプローチを補完するものと期待されています。この研究は、計算生物学者がゲノムDNA上の様々な機能要素を予測するのに役立つと考えられます。

Identification of splice sites is imperative for prediction of gene structure. Machine learning-based approaches (MLAs) have been reported to be more successful than the rule-based methods for identification of splice sites. However, the strings of alphabets should be transformed into numeric features through sequence encoding before using them as input in MLAs. In this study, we evaluated the performances of 8 different sequence encoding schemes i.e., Bayes kernel, density and sparse (DS), distribution of tri-nucleotide and 1st order Markov model (DM), frequency difference distance measure (FDDM), paired-nucleotide frequency difference between true and false sites (FDTF), 1st order Markov model (MM1), combination of both 1st and 2nd order Markov model (MM1 + MM2) and 2nd order Markov model (MM2) in respect of predicting donor and acceptor splice sites using 5 supervised learning methods (ANN, Bagging, Boosting, RF and SVM). The encoding schemes and machine learning methods were first evaluated in 4 species i.e., A. thaliana, C. elegans, D. melanogaster and H. sapiens, and then performances were validated with another four species i.e., Ciona intestinalis, Dictyostelium discoideum, Phaeodactylum tricornutum and Trypanosoma brucei. In terms of ROC (receiver-operating-characteristics) and PR (precision-recall) curves, FDTF encoding approach achieved higher accuracy followed by either MM2 or FDDM. Further, SVM was found to achieve higher accuracy (in terms of ROC and PR curves) followed by RF across encoding schemes and species. In terms of prediction accuracy across species, the SVM-FDTF combination was optimum than other combinations of classifiers and encoding schemes. Further, splice site prediction accuracies were observed higher for the species with low intron density. To our limited knowledge, this is the first attempt as far as comprehensive evaluation of sequence encoding schemes for prediction of splice sites is concerned. We have also developed an R-package EncDNA (https://cran.r-project.org/web/packages/EncDNA/index.html) for encoding of splice site motifs with different encoding schemes, which is expected to supplement the existing nucleotide sequence encoding approaches. This study is believed to be useful for the computational biologists for predicting different functional elements on the genomic DNA.

Copyright © 2019 Elsevier B.V. All rights reserved.