あなたは歯科・医療関係者ですか?

WHITE CROSSは、歯科・医療現場で働く方を対象に、良質な歯科医療情報の提供を目的とした会員制サイトです。

日本語AIでPubMedを検索

日本語AIでPubMedを検索

PubMedの提供する医学論文データベースを日本語で検索できます。AI(Deep Learning)を活用した機械翻訳エンジンにより、精度高く日本語へ翻訳された論文をご参照いただけます。
Comput. Biol. Med..2016 11;78:42-48. S0010-4825(16)30226-8. doi: 10.1016/j.compbiomed.2016.09.008.Epub 2016-09-13.

DRPPP.機械学習に基づく植物の病害抵抗性タンパク質の予測ツール

DRPPP: A machine learning based tool for prediction of disease resistance proteins in plants.

  • Tarun Pal
  • Varun Jaiswal
  • Rajinder S Chauhan
PMID: 27658260 DOI: 10.1016/j.compbiomed.2016.09.008.

抄録

植物病害の発生は世界中で急速に増加しており、世界的な作物損失の主な原因となっている。植物は、様々な病原微生物を識別し、回避するための多様な防御機構を開発してきました。植物病害抵抗性遺伝子(R遺伝子)の早期同定は、作物改良プログラムのために利用することができる。現在の予測手法は、配列類似性・ドメインベースの手法や電子的にアノテーションされた配列に基づくものであり、既存の未認識タンパク質や類似性の低いタンパク質を見逃してしまう可能性があります。そのため、この問題を解決するための新しい機械学習技術の開発が急務となっています。本研究では、植物の耐病性タンパク質を予測するためのSVMベースのツールを開発した。本研究では、植物の病害抵抗性タンパク質を予測するために、既知の病害抵抗性タンパク質(R)112個を正のデータセットとし、手動でキュレーションした119個の非Rタンパク質を負のデータセットとした。特徴抽出では、16種類の手法を用いて10,270個の特徴量を抽出した。放射状基底関数を用いてSVMパラメータを最適化するために、10倍クロスバリデーションを行った。モデルはlibSVMを用いて導出され、テストデータセットにおいて91.11%の総合的な精度を達成した。このツールはロバストであり、高スループットのデータセットにも使用できることがわかった。今回の研究では、類似性やドメイン予測法に加えて、機械学習アプローチを用いたRタンパク質の即時同定が可能となった。

Plant disease outbreak is increasing rapidly around the globe and is a major cause for crop loss worldwide. Plants, in turn, have developed diverse defense mechanisms to identify and evade different pathogenic microorganisms. Early identification of plant disease resistance genes (R genes) can be exploited for crop improvement programs. The present prediction methods are either based on sequence similarity/domain-based methods or electronically annotated sequences, which might miss existing unrecognized proteins or low similarity proteins. Therefore, there is an urgent need to devise a novel machine learning technique to address this problem. In the current study, a SVM-based tool was developed for prediction of disease resistance proteins in plants. All known disease resistance (R) proteins (112) were taken as a positive set, whereas manually curated negative dataset consisted of 119 non-R proteins. Feature extraction generated 10,270 features using 16 different methods. The ten-fold cross validation was performed to optimize SVM parameters using radial basis function. The model was derived using libSVM and achieved an overall accuracy of 91.11% on the test dataset. The tool was found to be robust and can be used for high-throughput datasets. The current study provides instant identification of R proteins using machine learning approach, in addition to the similarity or domain prediction methods.

Copyright © 2016 Elsevier Ltd. All rights reserved.