日本語AIでPubMedを検索
人が用意した小さなデータセット上での科学文献の分類とその話題性の追跡
The Classification of Scientific Literature for Its Topical Tracking on a Small Human-Prepared Dataset.
PMID: 32604633 DOI: 10.3233/SHTI200526.
抄録
科学論文の数は増加の一途をたどっており、その処理には非常に時間がかかる。我々は、ユーザー定義の文献追跡が論文要約の機械学習によって増強される可能性があると仮説を立てた。671の論文要旨からなる特定のデータセットを取得し、様々なテキスト表現に対して機械学習(ML)技術を用いた19のバイナリ分類オプションをパイロット研究で提案しました。各分類オプションについて、リサンプルを用いた300回のテストを実施した。最良の分類オプションは、AUC = 0.78を示し、一般的な概念を証明し、解決策の改善の可能性を示した。
The number of scientific publications is constantly growing to make their processing extremely time-consuming. We hypothesized that a user-defined literature tracking may be augmented by machine learning on article summaries. A specific dataset of 671 article abstracts was obtained and nineteen binary classification options using machine learning (ML) techniques on various text representations were proposed in a pilot study. 300 tests with resamples were performed for each classification option. The best classification option demonstrated AUC = 0.78 proving the concept in general and indicating a potential for solution improvement.