日本語AIでPubMedを検索
クラウドベースのフリーエネルギー計算、合成を意識した列挙、目標指向の生成的機械学習を組み合わせて、大規模化学物質の迅速な探索と最適化を実現します
Combining Cloud-Based Free-Energy Calculations, Synthetically Aware Enumerations, and Goal-Directed Generative Machine Learning for Rapid Large-Scale Chemical Exploration and Optimization.
PMID: 32484669 DOI: 10.1021/acs.jcim.0c00120.
抄録
通常、ヒット同定プロセスでは、従来の実験的ハイスループットスクリーン(HTS)や計算的仮想ハイスループットスクリーン(vHTS)を用いて、数百万から数十億の化合物のプロファイリングが行われています。我々はこれまでに、反応ベースの列挙、能動学習、自由エネルギー計算を組み合わせることで、同様に大規模な化学空間の探索をヒット・トゥ・リードプロセスにまで拡張できることを実証してきた。本研究では、大規模な列挙とクラウドベースの自由エネルギー摂動(FEP)プロファイリングを目標指向型の生成的機械学習と組み合わせることで、このアプローチを強化している。これは、PathFinderのルールベースの列挙から生成的機械学習のための分子分布を構築し、重み付け和QSARベースのマルチパラメータ最適化関数で最適化することで実現できる。サイクリン依存性キナーゼ2(CDK2)の強力な阻害剤を設計することで、この複合アプローチの有用性を検証し、(1)10nM未満の化合物の同定において、ランダム選択と比較して6.4倍の濃縮度向上を実現し、1.5倍の濃縮度向上を実現することができる連成ワークフローを実証しました。10nM未満の化合物を同定する際の濃縮度は1.5倍、(2)市販の試薬の範囲外の化学空間を迅速に探索し、(3)大規模なインシリコ列挙からSARを「学習」するために生成的MLアプローチを使用して、柔軟な受容体部位のための新規なアイデア分子を生成します。10 nMの69のアイデアと100 nM未満の358のアイデアを同定しました。報告されたデータは、反応ベースの機械学習と生成的機械学習の両方を組み合わせてアイデア分子を生成することで、これまでに説明されてきたアプローチよりも高い活性化合物の濃縮度が得られることを示唆しており、事前に定義された活性と特性の空間内で新規な化学物質の発見を迅速に加速する可能性を秘めています。
The hit identification process usually involves the profiling of millions to more recently billions of compounds either via traditional experimental high-throughput screens (HTS) or computational virtual high-throughput screens (vHTS). We have previously demonstrated that, by coupling reaction-based enumeration, active learning, and free energy calculations, a similarly large-scale exploration of chemical space can be extended to the hit-to-lead process. In this work, we augment that approach by coupling large scale enumeration and cloud-based free energy perturbation (FEP) profiling with goal-directed generative machine learning, which results in a higher enrichment of potent ideas compared to large scale enumeration alone, while simultaneously staying within the bounds of predefined drug-like property space. We can achieve this by building the molecular distribution for generative machine learning from the PathFinder rules-based enumeration and optimizing for a weighted sum QSAR-based multiparameter optimization function. We examine the utility of this combined approach by designing potent inhibitors of cyclin-dependent kinase 2 (CDK2) and demonstrate a coupled workflow that can (1) provide a 6.4-fold enrichment improvement in identifying <10 nM compounds over random selection and a 1.5-fold enrichment in identifying <10 nM compounds over our previous method, (2) rapidly explore relevant chemical space outside the bounds of commercial reagents, (3) use generative ML approaches to "learn" the SAR from large scale in silico enumerations and generate novel idea molecules for a flexible receptor site that are both potent and within relevant physicochemical space, and (4) produce over 3 000 000 idea molecules and run 1935 FEP simulations, identifying 69 ideas with a predicted IC < 10 nM and 358 ideas with a predicted IC < 100 nM. The reported data suggest combining both reaction-based and generative machine learning for ideation results in a higher enrichment of potent compounds over previously described approaches and has the potential to rapidly accelerate the discovery of novel chemical matter within a predefined potency and property space.