ШІ-система від Microsoft показала ефективність у медичній діагностиці

Дослідники Microsoft представили ШІ-систему, здатну ефективно вирішувати клінічні кейси, складні навіть для досвідчених лікарів. У новій роботі команда порівняла продуктивність ШІ та медиків на завданнях із журналу NEJM.

Щоб перевірити ШІ у ближчих до реальності умовах, вчені створили платформу SDBench. Вона перетворює кейси з New England Journal of Medicine (304 штук за 2017–2025 роки) у покрокові клінічні сценарії. Модель Information Gatekeeper видає дані частинами — лише у відповідь на запити. 

Агент (лікар чи ШІ) вирішує, які ставити запитання, які тести призначати і коли ставити діагноз. Серед кейсів — як поширені хвороби (пневмонія), так і рідкісні (неонатальна гіпоглікемія). Додатково система враховує вартість проведення кожного тесту.

Лікарі з США та Британії (у середньому 12 років досвіду) досягли точності 20% при середній вартості діагностики $2963. Вони витрачали майже 12 хвилин на кейс і призначали 6–7 тестів.

GPT-4o перевершив медиків за всіма показниками, включно з точністю, і витратами. Результати інших мовних моделей варіювалися.

Ключова новинка — платформа MAI Diagnostic Orchestrator (MAI-DxO), розроблена спільно з лікарями. Вона імітує командну роботу: одні «агенти» генерують гіпотези, інші — добирають тести або перевіряють помилки. Ця структура дозволила перевершити не лише людей, а й комерційні моделі.

MAI-DxO досягла 79,9% точності за $2397, або 85,5% — за $7184. Для порівняння, модель O3 показала 78,6% при витратах $7850.

У перспективі такі моделі можуть посилити роботу медиків — особливо там, де бракує фахівців або занадто дорого звертатись до профільних експертів.

Втім автори наголошують, що кейси з NEJM — одні з найскладніших, тож не варто переносити висновки на всю медицину. Дослідження не включало здорових пацієнтів і не оцінювало частоту хибних діагнозів. Дані про вартість — американські, тож глобальна релевантність обмежена.

Нагадаємо, у червні DeepMind представила AlphaGenome — ШІ-інструмент, здатний передбачати, як мінімальні зміни в послідовності ДНК впливають на експресію генів, зокрема на синтез РНК та білків.

Читайте ForkLog UA в соціальних мережах

Знайшли помилку в тексті? Виділіть її та натисніть CTRL+ENTER

Матеріали за темою

Ми використовуємо файли cookie для покращення якості роботи.

Користуючись сайтом, ви погоджуєтесь з Політикою приватності.

OK