2023/07/11

米国eHealthジャーナル第91号

ChatGPT、専門医認定試験に不合格

MSA パートナーズ

米国消化器病学会のセルフ評価テスト

OpenAIが開発した大規模言語処理モデルであるChatGPT-3とChatGPT-4が、2021年と2022年の米国消化器病学会（ACG）セルフ評価テスト（Self-Assessment Tests）において「落第」したこと示す研究結果「ChatGPT Fails the Multiple-Choice American College of Gastroenterology Self-Assessment Test」が、5月22日付でAmerican Journal of Gastroenterologyに発表された。このセルフ評価テストは、実際の専門医認定試験で受験者がどの程度の点数を取れるかを判断するために使用されている。

2022年11月にリリースされたばかりのChatGPTは、ジェネレーティブAI（生成系AI）とよばれる次世代のAIで、ユーザーの質問や発言に対して人間のようなテキストを生成することができる。ジェネレーティブAIとは、コンテンツやモノについてデータから学習し、それを使用して創造的かつ実用的な、そして、まったく新規のオリジナルのアウトプットを生成する新規の機械学習手法。ChatGPTは、質問に対して驚くほど正確な解答を提供するだけでなく、詩を書いたり、与えられたあらゆるトピックに対応することが可能で、そのデビューは技術産業界に大きな衝撃を与え、瞬く間に世界的な現象となった。

Feinstein Institutes for Medical Research（以下、Feinstein Institutes）の研究者らは今回、ChatGPTの能力と精度を評価するため、ChatGPT-3とChatGPT-4にACGセルフ評価テストの質問を投げかけた。

各テストには多肢選択式の300問が含まれている。研究者たちは、画像が必要なものを除く各質問とその回答群をコピー＆ペーストした。結果、ChatGPT-3とChatGPT-4は455問に回答し、ChatGPT-3はこのうち296問に正解し、ChatGPT-4は同284問に正解した。テストに合格するには、受験者は70％以上のスコアを獲得する必要がある。ChatGPT-3の精度は65.1%、ChatGPT-4の精度は62.4%だった。

「最近、ChatGPTが注目され、また、様々な業界でAIが活用されている。医学教育に関しては、この画期的ツールとなりうるものに関する研究が不足している。今回の研究結果によれば、ChatGPTは現時点では消化器内科の医学教育に使われるべきではなく、医療現場に導入するには依然として時期尚早である。」とFeinstein Institutesの准教授で同研究論文の上席著者であるArvind Trindade博士は声明で述べた。なお、研究ではChatGPTの不合格について、有料の医学雑誌にアクセスできないことや、システム内の情報が古いことが原因である可能性があり、信頼に足る利用には、さらなる研究が必要であると指摘した。

それでも、2月23日付でPLOS Digital Healthに掲載された別の研究によると、ChatGPT は3段階で構成される米国医師免許試験（USMLE）において、3試験すべてで合格、または合格に近い閾値を示した。また、2月3日付で米国医師会雑誌（JAMA）オンライン版に掲載された研究では、心血管疾患の予防に関する質問に対してChatGPTが「概ねにおいて適切な」回答をしたことが示された。

（了）

連載記事

執筆者について

MSA パートナーズ

MSAパートナーズは、日米間のコミュニケーションを目指す日本の製薬業界を、市場調査・リサーチ・コンサルティングなど、あらゆる面からサポートします。LSMIPでは、「米国eHealthジャーナル」を共同執筆する他、「米国製薬業界週報」などの記事をご紹介しております。
ウェブサイト：https://www.msapr.com/main2/

執筆記事一覧、他

デジタルヘルス
米国eHealthジャーナル

第92号 (2023年07月25日発行)

ジャーナル92号のトピックは、Sky Labs (韓国発スマートリング)、DUOS (高齢者のSDoHアンメットニーズ)、Uber Health (OTC医薬品の配送)、Hyro (ChatGPT基盤のコールセンターサービス) など

プレスルーム

『プレスルーム』移動のお知らせ

LSMIP 編集部

『海外』Weekly ニュース (2023/07/24 ～ )

LSMIP 編集部

『日本』Weekly ニュース (2023/07/24 ～ )

LSMIP 編集部

『海外』Weekly ニュース (2023/07/17 ～ )

LSMIP 編集部

『日本』Weekly ニュース (2023/07/17 ～ )

LSMIP 編集部

ChatGPT、専門医認定試験に不合格

連載記事

執筆者について

MSA パートナーズ

MSA パートナーズ

関連記事

AIチャットボットのChatGPT、心血管疾患予防の基本コンセプトを理解

Nuance Communications、新規臨床ドキュメンテ―ションツールを発表

Generate:BiomedicinesとMD Andersonが提携

デジタルヘルス
米国eHealthジャーナル

人気記事ランキング

スマートリング「CART-I」の韓国Sky Labs社、大熊製薬と提携し全国展開へ

「米国eHealthジャーナル」休刊のお知らせ

『日本』Weekly ニュース (2023/09/25 ～ )

Internet Explorer サポート終了について

Pfizer、AI主導の癌治療薬発見でTempusと提携

プレスルーム

『プレスルーム』移動のお知らせ

『海外』Weekly ニュース (2023/07/24 ～ )

『日本』Weekly ニュース (2023/07/24 ～ )

『海外』Weekly ニュース (2023/07/17 ～ )

『日本』Weekly ニュース (2023/07/17 ～ )

ChatGPT、専門医認定試験に不合格

連載記事

執筆者について

MSA パートナーズ

MSA パートナーズ

関連記事

AIチャットボットのChatGPT、心血管疾患予防の基本コンセプトを理解

Nuance Communications、新規臨床ドキュメンテ―ションツールを発表

Generate:BiomedicinesとMD Andersonが提携

デジタルヘルス米国eHealthジャーナル

人気記事ランキング

スマートリング「CART-I」の韓国Sky Labs社、大熊製薬と提携し全国展開へ

「米国eHealthジャーナル」休刊のお知らせ

『日本』Weekly ニュース (2023/09/25 ～ )

Internet Explorer サポート終了について

Pfizer、AI主導の癌治療薬発見でTempusと提携

プレスルーム

『プレスルーム』移動のお知らせ

『海外』Weekly ニュース (2023/07/24 ～ )

『日本』Weekly ニュース (2023/07/24 ～ )

『海外』Weekly ニュース (2023/07/17 ～ )

『日本』Weekly ニュース (2023/07/17 ～ )

デジタルヘルス
米国eHealthジャーナル