日本語AIでPubMedを検索
エビデンスに基づく歯科医療をサポートするための生成的人工知能大規模言語モデルChatGPT、Google Bard、Microsoft Bing Chatの評価:比較混合方法研究
Evaluation of Generative Artificial Intelligence Large Language Models ChatGPT, Google Bard, and Microsoft Bing Chat in Supporting Evidence-based Dentistry: A Comparative Mixed-Methods Study.
PMID: 38009003
抄録
背景:
歯科を含む様々な分野で生成人工知能大規模言語モデル(LLM)の適用が増加しており、その精度について疑問が投げかけられている。
BACKGROUND: The increasing application of Generative Artificial Intelligence Large Language Models (LLMs) in various fields including Dentistry raises questions about their accuracy.
目的:
この研究は、歯科分野の臨床に関連する質問に対して、GoogleのBard、OpenAIのChatGPT-3.5とChatGPT-4、MicrosoftのBingの4つのLLMが提供する回答を比較評価することを目的とした。
OBJECTIVE: This study aimed to comparatively evaluate the answers provided by four LLMs - Google's Bard, OpenAI's ChatGPT-3.5 and ChatGPT-4, and Microsoft's Bing to clinically relevant questions from the field of dentistry.
方法:
ヨーロッパ大学キプロス校歯学部の各教員が作成した、歯科臨床に関連する20のオープンタイプの質問をLLMに行った。LLMの回答は、ガイドラインやコンセンサス・ステートメントなど、従来から収集されている強力な科学的エビデンスに照らし合わせ、経験豊富な教員2名により、学生への試験問題のようにルーブリックを用いて0点(最低点)から10点(最高点)の範囲で採点された。得点は、フリードマンの検定とウィルコクソンの検定を用いて、統計的に比較され、最も優れたモデルが特定された。さらに、評価者には、包括性、科学的正確性、明確性、関連性についての定性的評価を求めた。
METHODS: The LLMs were queried with 20 open type, clinical dentistry-related questions in different disciplines, developed by the respective faculty of the School of Dentistry, European University Cyprus. The LLMs' answers were graded in a range from 0 (minimum) to 10 (maximum) points, against strong, traditionally collected scientific evidence such as guidelines and consensus statements, using a rubric, as if they were exam questions posed to students, by two experienced faculty members. The scores were compared statistically to identify the best-performing model using Friedman's and Wilcoxon's tests. Moreover, evaluators were asked to provide qualitative evaluation for comprehensiveness, scientific accuracy, clarity and relevance.
結果:
全体として、2人の評価者によるスコアの間に統計的に有意な差は検出されなかったため、すべてのLLMの平均スコアが計算された。ChatGPT-4は統計的にChatGPT-3.5(P値=.008)、Microsoft Bing Chat(P値=.049)、Google Bard(P値=.045)を上回ったが、すべてのモデルで時折、不正確さ、一般性、古いコンテンツ、ソース参照の欠如が見られた。評価者は、LLMが無関係な情報、あいまいな回答、または完全には正確でない情報を提供した例を指摘した。
RESULTS: Overall, no statistically significant difference between the scores given by the two evaluators were detected, thus an average score for every LLM was computed. While ChatGPT-4 statistically outperformed ChatGPT-3.5 (P-value=.008), Microsoft Bing Chat (P-value=.049) and Google Bard (P-value=.045), all models exhibited occasional inaccuracies, generality, outdated content, and a lack of source references. The evaluators noted instances where LLMs delivered irrelevant information, vague answers, or information that was not fully accurate.
結論:
本研究は、LLMがエビデンスに基づく歯科医療を実施するための一助として有望な可能性を秘めている一方で、その現在の限界は、適切に使用されない場合、有害な医療判断につながる可能性があることを示している。したがって、これらのツールは、歯科医師の批判的思考と主題の深い理解に取って代わるべきものではない。これらのツールが歯科診療に完全に統合されるためには、さらなる研究、臨床的検証、モデルの改良が必要である。歯科医師はLLMの限界を認識しなければならない。不用意な使用は患者の治療に影響を与える可能性があるからである。このような進化する技術の使用を監督する規制手段を確立すべきである。
CONCLUSIONS: The study demonstrates that while LLMs hold promising potential as an aid in the implementation of evidence-based dentistry, their current limitations can lead to potentially harmful healthcare decisions if not used judiciously. Therefore, these tools should not replace the dentist's critical thinking and in-depth understanding of the subject matter. Further research, clinical validation, and model improvements are necessary for these tools to be fully integrated into dental practice. Dental practitioners must be aware of the LLMs' limitations, as imprudent use could potentially impact patient care. Regulatory measures should be established to oversee the use of these evolving technologies.