2023/07/11

米国eHealthジャーナル第91号

ChatGPT、専門医認定試験に不合格

OpenAI, 研究・調査, ジャーナル第91号, 消化器系疾患, AI技術

米国消化器病学会のセルフ評価テスト

OpenAIが開発した大規模言語処理モデルであるChatGPT-3とChatGPT-4が、2021年と2022年の米国消化器病学会(ACG)セルフ評価テスト(Self-Assessment Tests)において「落第」したこと示す研究結果「ChatGPT Fails the Multiple-Choice American College of Gastroenterology Self-Assessment Test」が、5月22日付でAmerican Journal of Gastroenterologyに発表された。このセルフ評価テストは、実際の専門医認定試験で受験者がどの程度の点数を取れるかを判断するために使用されている。

2022年11月にリリースされたばかりのChatGPTは、ジェネレーティブAI(生成系AI)とよばれる次世代のAIで、ユーザーの質問や発言に対して人間のようなテキストを生成することができる。ジェネレーティブAIとは、コンテンツやモノについてデータから学習し、それを使用して創造的かつ実用的な、そして、まったく新規のオリジナルのアウトプットを生成する新規の機械学習手法。ChatGPTは、質問に対して驚くほど正確な解答を提供するだけでなく、詩を書いたり、与えられたあらゆるトピックに対応することが可能で、そのデビューは技術産業界に大きな衝撃を与え、瞬く間に世界的な現象となった。

Feinstein Institutes for Medical Research(以下、Feinstein Institutes)の研究者らは今回、ChatGPTの能力と精度を評価するため、ChatGPT-3とChatGPT-4にACGセルフ評価テストの質問を投げかけた。

各テストには多肢選択式の300問が含まれている。研究者たちは、画像が必要なものを除く各質問とその回答群をコピー&ペーストした。結果、ChatGPT-3とChatGPT-4は455問に回答し、ChatGPT-3はこのうち296問に正解し、ChatGPT-4は同284問に正解した。テストに合格するには、受験者は70%以上のスコアを獲得する必要がある。ChatGPT-3の精度は65.1%、ChatGPT-4の精度は62.4%だった。

「最近、ChatGPTが注目され、また、様々な業界でAIが活用されている。医学教育に関しては、この画期的ツールとなりうるものに関する研究が不足している。今回の研究結果によれば、ChatGPTは現時点では消化器内科の医学教育に使われるべきではなく、医療現場に導入するには依然として時期尚早である。」とFeinstein Institutesの准教授で同研究論文の上席著者であるArvind Trindade博士は声明で述べた。なお、研究ではChatGPTの不合格について、有料の医学雑誌にアクセスできないことや、システム内の情報が古いことが原因である可能性があり、信頼に足る利用には、さらなる研究が必要であると指摘した。

それでも、2月23日付でPLOS Digital Healthに掲載された別の研究によると、ChatGPT は3段階で構成される米国医師免許試験(USMLE)において、3試験すべてで合格、または合格に近い閾値を示した。また、2月3日付で米国医師会雑誌(JAMA)オンライン版に掲載された研究では、心血管疾患の予防に関する質問に対してChatGPTが「概ねにおいて適切な」回答をしたことが示された。

(了)


本記事掲載の情報は、公開情報を基に各著者が編纂したものです。弊社は、当該情報に基づいて起こされた行動によって生じた損害・不利益等に対してはいかなる責任も負いません。また掲載記事・写真・図表などの無断転載を禁止します。
Copyright © 2023 株式会社シーエムプラス LSMIP編集部

連載記事

執筆者について

関連記事