Методика: средняя систематическая погрешность (bias) ИАГ и среднеквадратичное отклонение по данным диаграмм Блэнда-Альтмана были отобраны для мета-анализа, который затем использовался для расчета относительной погрешности совпадения предельных значений при определении ИАГ методом ПАТ с эталонными значениями (за эталон брались данные, полученные методом ПСГ). Индивидуальные данные участников (где таковые имелись) использовались для расчета каппы Коэна и оценки согласованности между методами ПСГ и ПАТ относительно тяжести апноэ во сне, а также для расчета чувствительности и специфичности ПАТ при различных пороговых значениях ИАГ, при этом за эталон брались значения ИАГ, полученные методом ПСГ.
Результаты: По результатам 17 клинических исследований с участием 1 318 испытуемых (все они прошли одновременное обследование двумя методами, ПСГ и ПАТ на устройстве WatchPAT) были выявлены суммарная разность средних значений ИАГ = 0,30 (стандартная ошибка среднего, SE=0,74) и относительная погрешность полученного на WatchPAT ИАГ=230%. Мета-анализ каппы Коэна для согласованности методов ПСГ и WatchPAT показал следующие результаты для групп пациентов без апноэ, с апноэ легкой, средней и тяжелой степени соответственно: 0,45 (SE = 0,06), 0,29 (SE = 0,05), 0,25 (SE = 0,07) и 0,64 (SE = 0,05). При пороговых значения ИАГ в 5, 15 и 30 событий в час общая чувствительность и специфичность WatchPAT исследований составили: 94,11% и 43,47%, 92,21% и 72,39%, 74,11% и 87,10% соответственно. Отношения правдоподобия не были значимыми при любом пороге ИАГ.
Заключение: Результаты данного мета-анализа дают основание предполагать клинически значимое несоответствие между определением ИАГ методами WatchPAT и ПСГ, значительные ошибки в классификации тяжести апноэ во сне в PAT-обследованиях и низкую диагностическую эффективность теста.
Ключевые слова: полисомнография, периферическая артериальная тонометрия, диагностическая эффективность теста, мета-анализ.
Первоисточник: Iftikhar IH, Finch CE, Shah AS, Augunstein CA, Ioachimescu OC. A meta-analysis of diagnostic test performance of peripheral arterial tonometry studies.
Journal of Clinical Sleep Medicine. 2022;18(4):1093–1102
Imran H. Iftikhar, MD1,2; Christina E. Finch, MD1; Amit S. Shah, MD1; Cheryl A. Augunstein, MD1; Octavian C. Ioachimescu, MD1,2
1– Department of Medicine, Division of Pulmonary, Allergy, Critical Care and Sleep Medicine, Emory University School of Medicine, Atlanta, Georgia; 2– Department of Medicine, Sleep Medicine Center, Atlanta Veterans Affairs Medical Center, Decatur, Georgia
ЭКСПРЕСС-ОБЗОР
Имеющиеся данные. Периферическая артериальная тонометрия является апробированным инструментом диагностики апноэ во сне. Однако его точность в определении тяжести апноэ во сне систематически не изучалась.
Новые данные, полученные в результате данной работы. Существуют значительные расхождения в результатах, полученных методами периферической артериальной тонометрии и полисомнографии при определении индекса апноэ-гипопноэ и классификации степени тяжести данного заболевания. Также данный мета-анализ показал слабую специфичность метода периферической артериальной тонометрии при определении индекса апноэ-гипопноэ от 5 до 15 событий в час, поэтому мы рекомендуем перепроверять такие случаи методом полисомнографии.
Введение
Диагностика апноэ сна на дому методом периферической артериальной тонометрии (ПАТ) – относительно недавний способ исследования апноэ сна. На данный момент существуют два ПАТ-устройства, получивших разрешение FDA (Управления по контролю за лекарственными препаратами и пищевыми продуктами США) на использование в диагностических целях: WatchPAT (Itamar Medical Inc., Израиль) и NightOwl (Ectosense, Бельгия). Устройство WatchPAT измеряет некоторые физиологические параметры, такие как: пульсовая волна, частота сердечных сокращений, вариабельность сердечного ритма, оксиметрия, актиграфия, положение тела и храп. Путем комбинации данных периферической артериальной тонометрии, оксиметрии и актиграфии патентованный алгоритм оценки респираторных событий рассчитывает индекс апноэ-гипопноэ (ИАГ).
Некоторые предыдущие исследования1–8 и мета-анализы9, в которых изучалось применение устройств WatchPAT, показали сильную корреляцию между значениями ИАГ, определенными методом ПСГ («золотой стандарт» диагностики) и значениями ИАГ, полученными с помощью WatchPAT, что позволило высказать предположение, что применение WatchPAT представляет собой надежный способ диагностики апноэ во сне. Авторы некоторых из этих работ3–5, 7, 8, представив диаграммы Блэнда-Альтмана (Б–А) также попытались показать хорошую «согласованность» между ПСГ и WatchPAT. Диаграммы Б–А – способ количественной оценки согласованности между двумя количественными методами измерения путем изучения средней разности и построения границ согласованности.10 Некоторые авторы анализировали чувствительность и специфичность ПАТ-исследований при обнаружении апноэ сна, хотя и с неизвестными уровнями распространенности апноэ в соответствующих исследуемых популяциях.1, 3, 11 Как бы то ни было, ни представленный в работах высокий уровень корреляции, ни среднее отклонение на диаграммах Б–А (без установленных «клинически» приемлемых пределов согласованности) не снимают обеспокоенности специалистов-сомнологов, которая касается не только неверной классификации12, 13 апноэ сна, но и значительных различий13 в измерениях тяжести апноэ, полученных от ночи к ночи на устройствах ПАТ.
Следовательно, есть проблемы как с точностью, так и с воспроизводимостью (прецизионностью) метода. В то время как точность характеризует систематическую погрешность метода измерения и показывает, насколько близко измеренная величина находится к реальной величине, воспроизводимость характеризует близость друг к другу результатов измерений, принимая во внимание вариабельность повторяемых значений вследствие случайной погрешности. Инструмент может демонстрировать воспроизводимость измерений, но при этом не являться точным, то есть результаты будут сопоставимы, но одинаково далеки от истинного значения. Несмотря на то, что корреляционные исследования могут вводить в заблуждение, поскольку оценивают только линейную связь двух совокупностей наблюдений, показывая согласованность, в то же время диаграммы Б–А могут не показывать точность, что является системным ограничением метода10.
Хотя границы согласованности на диаграммах Б–А соотносятся с воспроизводимостью (чем уже границы, тем выше воспроизводимость, и наоборот), эти границы могут быть интерпретированы должным образом только если известны доверительные интервалы этих границ, что, к сожалению, систематически плохо представлено в исследованиях. Возможное решение этой проблемы – указание относительной погрешности (ОП) границ согласованности. Этот параметр можно использовать как пороговое значение при решении, приемлема ли новая методика или нет.14, 15 ОП высчитывается путем деления границ согласованности на среднее значение измерений, проведенных с использованием эталонного метода в популяции. Поскольку при разбросе результатов по двум измерениям ожидается некоторая случайная погрешность измерения, при адекватном пороговом значении ОП можно предположить, что если любая вычисленная для нового метода измерения ОП оказывается ниже этого порога, можно считать, что этот новый метод имеет погрешность аналогично эталонному стандарту, и, следовательно, будет считаться приемлемым или хорошей альтернативой эталонному стандарту.14
Это предположение легко в основу данного мета-анализа, в котором мы стремились анализировать данные ОП из подобных публикаций. Второстепенными задачами нашей работы стали анализ данных о неверной классификации степени тяжести апноэ во сне и проведение мета-анализа диагностической эффективности тестов при различных пороговых значениях ИАГ.
Методика
Данный систематический обзор и мета-анализ были проведены в соответствии с общепринятыми рекомендациями PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses — Предпочтительные моменты для представления результатов систематических обзоров и мета-анализов)15.
Стратегия поиска и критерии отбора исследований
Для поиска работ (исследования, опубликованные на английском языке до 22 сентября 2021 года, в которых принимали участия взрослые испытуемые) использовались ресурсы PubMed и Web of Science. Работа считалась подходящей к включению в случае, если: в исследовании принимали участие взрослые испытуемые, которые подверглись одновременно (т.е. в одну и ту же ночь) ПСГ- (без использования аппаратов положительного давления) и ПАТ-диагностике для определения ИАГ; в исследовании имелись данные, которые можно было извлечь из диаграмм Б–А, в частности, разница средних значений, полученных методами ПСГ и ПАТ, а также их стандартные отклонения/границы согласованности. Материалы конференций, аннотации или наглядные материалы исключались. После первичного отбора заголовков статей из указанных Б–Аз данных полные тексты статей были независимо оценены каждым из авторов на предмет включения в данных мета-анализ. Качество каждого исследования оценивалось по критериям Кокрейна. Любые несогласия по включению исследований или их качеству решались путем консенсуса.
Извлечение данных и обобщение
Извлеченные данные включали: фамилию первого автора; год публикации; характеристики выборки; среднее значение ИАГ, полученное методами ПСГ и ПАТ; критерии, использованные для подсчета гипопноэ в ПСГ-исследовании.
Одним из авторов данной работы для независимого извлечения цифровых значений из разности средних значений и границ согласованности, отображенных на диаграммах Б–А, было использовано ПО GraphGrabber (v2.0.2; Quintessa, Великобритания). Эти данные были проверены путем их соотнесения с данными, представленными в текстах исходных рукописей (где таковые были предоставлены). Рассчитанные показатели стандартного отклонения (SD) и разности средних значений из отдельных исследований использовались для подсчета суммарной систематической ошибки случайных эффектов, суммарной стандартной ошибки среднего (SE) и суммарных 95%-х доверительных интервалов при помощи ПО Comprehensive Meta-Analysis software (CMA версии 2.2.064; Biostat, Энглвуд, Нью-Джерси). Из суммарных SE мы рассчитали суммарное SD по формуле SD = SE × √N.
Относительная погрешность ОП была рассчитана по формуле:
Суммарный средний ИАГ был получен методом отдельного мета-анализа (см. Рис. 1, Рис. 2, Рис. 3).
Гетерогенность оценивалась при помощи индекса I2. Высокая гетерогенность оценивалась путем анализа подгрупп, основанном на разных определениях гипопноэ, использовавшихся в предыдущих исследованиях, и на различных технологиях ПАТ.
Ошибка предвзятости публикаций оценивалась при помощи воронкообразных графиков и теста ранговой корреляции Бегга-Мазумдара.
Для проведения мета-анализа согласованности методик ПСГ и ПАТ в классификации пациентов по степени тяжести апноэ во сне (4 категории: норма – менее 5 событий/ час, легкая степень – 5–14,9 событий/час, средняя – 15–29,9 событий/час, тяжелая – более 30 событий/час) мы отобрали короткий список работ, содержащих необходимые для подсчета каппы Коэна данные и их дисперсию, а затем объединили их в мета-анализ.
Работа считалась подходящей для включения в мета-анализ, если в ней содержалось достаточно данных для подсчета каппы Коэна и ее дисперсии. Для интерпретации каппы Коэна используют критерии, предложенные Landis и Koch: 0,8–1,0 – почти абсолютная согласованность, 0,6–0,8 – высокая степень согласованности, 0,4–0,6 – средняя степень, 0,2–0,4 – удовлетворительная, 0–0,2 – незначительная, 0 и ниже – неудовлетворительная. Мета-анализ диагностической эффективности теста (чувствительность, специфичность, диагностическое отношение шансов – diagnostic odds ratio [DOR]), а также отношения правдоподобия положительных и отрицательных результатов теста [LR+, LR–] для работ по ПАТ-методике проводился при помощи функции «metandi» программы Stata, версия 13 (StataCorp, Колледж-Стейшен, США). Более подробно использование данных методов описано в соответствующем разделе приложения.
Результаты
Мета-анализ разности средних значений ИАГ и относительной погрешности.
На Рисунке 1 показан процесс отбора публикаций, а в Таблице S3 в дополнительных материалах подробно описаны причины невключения отдельных работ (включая работу по устройству NightOwl). После выборочного исключения этих публикаций был проведен мета-анализ средней разности ИАГ в оставшихся 17 работ, в которых в сумме приняли участие 1 318 пациентов, прошедших обследование методами ПСГ и ПАТ одновременно. В Таблице 1 описаны исследуемые выборки. Суммарная средняя систематическая погрешность составила 0,30 (стандартная ошибка среднего, SE=0,74, гетерогенность I2=78%, Рисунок 2). Относительная погрешность для этих результатов рассчитывалась по формуле:
Изучение гетерогенности
Гетерогенность изучалась путем анализа подгрупп. Данные были разбиты на 4 подгруппы: А – работы 7, 12, 19, 25, в которых использовались следующие критерии определения апноэ и гипопноэ: 3%-я десатурации (для гипопноэ) и снижение воздушного потока на 30% (от Б–Азового уровня),
B – работы 3, 20, 24, 26, 27, – 4%-я десатурация и снижением воздушного потока на 30%,
C – 4, 11, 18, 21–23, – 4%-я десатурация (для гипопноэ) и снижение воздушного потока на 50% (от Б–Азового уровня),
D – работы Penzel с соавт. и Zhou с соавт. Хотя в обоих этих исследованиях использовалось такое же правило оценки гипопноэ, как и в других исследованиях в подгруппе C, в исследовании Penzel не уточнялось, использовалось ли правило 3%-й или 4%-й десатурации для гипопноэ, а в исследовании Zhou использовалось правило 4%-й десатурации для оценки гипопноэ.
Результаты представлены на форест-диаграмме (Рисунок 3), в том числе указаны значения относительной погрешности: 498%, 105%, 86% и 293% для подгрупп A, B, C и D, соответственно.
Дальнейший анализ подгрупп проводился на основе используемой версии технологии WatchPAT (WatchPAT 100 или WatchPAT 200). Результаты представлены на Рисунке 4.
Относительная погрешность для WatchPAT 100 и WatchPAT 200 составили 150% и 250% соответственно.
Мета-анализ каппы Коэна для классификации апноэ по степени тяжести
По данным 6 исследований (4, 11, 12, 18, 23, 26) с участием 665 респондентов суммарная оценка каппы Коэна для согласованности по классификации пациентов составила:
- отсутствие апноэ – 0,45 (SE=0,06, I2=0%);
- апноэ легкой степени – 0,29 (SE=0,05, I2=0%);
- апноэ средней степени – 0,25 (SE=0,07, I2=17,97%);
- апноэ тяжелой степени – 0,64 (SE=0,05, I2=21,16%).
Мета-анализ диагностической эффективности теста
По данным 6 исследований (4, 11, 12, 18, 23, 26) с участием 665 респондентов подсчитанные суммарные чувствительность, специфичность и диагностическое отношение шансов (DOR) для пороговых значений ИАГ в 5, 15 и 30 событий в час представлены в Таблице 2. HSROC-кривые отображены на Рисунке 6.
Оценка предвзятости публикаций
Мета-анализ данных оценки средней ошибки предвзятости
Для построения воронкообразного графика с целью оценки систематической ошибки предвзятости публикации использовался мета-анализ данных средней систематической ошибки. Этот график (Рисунок 4 в Приложении) не выглядит асимметричным, а тест ранговой корреляции Бегга-Мазумдара показал, что тау-b Кендалла (с поправкой на связанные ранги) равен 0,13 при значении P для односторонней критической области (рекомендовано) = 0,22 или при значении P для двухсторонней критической области = 0,44 (основано на нормальной аппроксимации с поправкой на непрерывность).
Таблица 1
Характеристики исследуемых выборок
Работа |
Страна |
Выборка |
Возраст, лет |
n |
Пол (% м) |
ИМТ |
Ayas et al 2003 |
США |
Взрослые либо с подозрением на апноэ, либо без |
47 |
30 |
66,6 |
31 |
Pittman et al 2004 |
США |
Взрослые с подозрением на апноэ, направленные на сомнологическое обследование |
43,2 (10,8) |
29 |
72 |
33,9 (7,1) |
Penzel et al 2004 |
Германия |
Взрослые либо с подозрением на апноэ, либо уже с диагнозом |
нет данных |
17 |
н/д |
н/д |
Zou et al 2006 |
Швеция |
Пациенты с гипертонией, либо с нормальным давлением |
60 (7) |
98 |
56 |
28 (4) |
Holmedahl et al 2019 |
Норвегия |
Пациенты с ХОБЛ |
61,4 (9,1) |
16 |
43,7 |
26,4 (5,3) |
O’Brien et al 2012 |
США |
Беременные в третьем семестре |
30,2 (7,1) |
31 |
0 |
31,9 (8,1) |
Onder et al 2012 |
Турция |
Взрослые с подозрением на апноэ, направленные на сомнологическое обследование |
30,72 (2,89) |
29 |
65,5 |
30,27 (5,58) |
55 (4,77) |
27 |
63 |
30,81 (3,22) |
|||
Weimin et al 2013 |
Китай |
Взрослые с подозрением на апноэ, направленные в ЛОР-клинику |
47,45 (13,46) |
28
|
71 |
29,99 (5,74) |
Garg et al 2014 |
США |
Взрослые афро-американцы, отобранные по результатам Берлинского опросника |
44,7 (10,6) |
75 |
24 |
н/д |
Körkuyu et al 2015 |
Турция |
Взрослые с подозрением на апноэ, направленные на сомнологическое обследование |
49,2 (9,6) |
30 |
83 |
29,6 (4,4) |
Gan 2017 |
Сингапур |
Взрослые с подозрением на апноэ |
39 (16) |
20 |
90 |
27,2 (5,5) |
Ioachimescu et al 2020 |
США |
Взрослые с подозрением на апноэ, направленные на сомнологическое обследование |
52,5 (41,8–62,5) |
500 |
80 |
31,6 (28–35,9) |
Jen et al 2020 |
США |
Взрослые с ХОБЛ |
63 (7) |
33 |
61 |
28,1 (6,7) |
Kasai et al 2020 |
Япония |
Взрослые с подозрением на апноэ, направленные на сомнологическое обследование |
58,0 ± 11,9 |
120 |
85 |
26,4 ± 5,4 |
Pillar et al 2020 |
Канада, Израиль, США, Германия |
Был проведен отбор пациентов с сердечной недостаточностью |
57 (16) |
84 |
67,5 |
29,8 (5,7) |
Tauman et al 2020 |
США, Канада, Германия, Израиль |
Пациенты с фибрилляцией предсердий и подозрением на апноэ |
68 ± 12 |
101 |
69 |
31 ± 5,2 |
Tondo et al 2021 |
Италия |
В том числе испытуемые с прогнозируемым низким риском апноэ |
51,7 ± 14,28 |
47 |
62 |
26 ± 5,67 |
Обсуждение результатов
Для определения истинного ИАГ необходима точность метода WatchPAT и его согласованность с методом ПСГ. Основываясь на показателях относительной погрешности, полученной из суммарной средней систематической погрешности в данном мета-анализе, мы выявили, что эти два метода показывают значительные расхождения друг с другом.
Что касается степени согласованности относительно классификации пациентов по 4 различным категориям тяжести апноэ во сне, если не говорить об определении тяжелого апноэ и отсутствия апноэ, по-видимому, была отмечена лишь удовлетворительная (0,2–0,4) согласованность методов ПСГ и WatchPAT при классификации легкой и умеренной степени тяжести апноэ во сне. Аналогичным образом, при более низких пороговых значениях ИАГ WatchPAT показал меньшую специфичность и более высокую вероятность ложноположительных результатов при диагностике апноэ во сне.
Результаты данного мета-анализа некоторым образом противоречат предыдущим исследованиям, которые приводили доводы в пользу WatchPAT.
Как упоминалось ранее, эти доводы опирались либо на значительную корреляцию (между ИАГ по ПСГ и WatchPAT), либо на данные диаграмм Б–А, показывающих значения, попадающие в пределы согласованности, даже несмотря на то, что в литературе не существует общепринятых пределов согласованности для диаграмм Б–А по сомнологическим исследованиям.
Что касается корреляции, необходимо учитывать, что корреляция выражает связь двух переменных (если они связаны и насколько сильно связаны), а не различия между ними. Высокая корреляция не всегда означает, что между двумя методами существует хорошая согласованность. Таким образом, коэффициент корреляции в модели линейной регрессии иногда может вводить в заблуждение при оценке согласованности, поскольку он оценивает только линейную ассоциацию двух наборов наблюдений (или степень соответствия линейной модели).
С другой стороны, диаграмма Б–А – это метод количественной оценки согласованности (графически) между двумя количественными измерениями путем построения границ согласованности, рассчитанных с использованием среднего значения и стандартного отклонения различий между двумя измерениями. Она представляет собой диаграмму рассеяния на плоскости XY, где на оси Y отображена разница между двумя парными измерениями (A–B), а на оси X – среднее значение этих измерений ([A+B]/2).
Рекомендуется размещать 95% точек данных в пределах ± 2 SD от средней разницы. На диаграмме Б–А при сравнении новой методики клинических измерений с уже существующей предполагается, что данные ни той, ни другой методики не расположены близко к истинному значению, которое часто остается неизвестным, и, следовательно, по мнению Бланда и Альтмана, график различия в измерениях лучше всего сравнивать со средним значением двух измерений (по двум методам тестирования), что часто является лучшей оценкой, когда истинное значение неизвестно.
Диаграмма Б–А сама по себе не показывает, является согласованность достаточной или удовлетворительной для использования только одной методики, поскольку он лишь количественно определяет сдвиг и диапазон согласованности, в который включено 95% различий. Принято считать, что наилучший способ использовать диаграммы Б–А – это заранее определить границы максимально допустимых различий (ожидаемые границы согласованности) на основе клинически значимых критериев.
Поскольку диаграммы Б–А статистически не определяют превосходство одного метода тестирования над другим, и поскольку прецизионность обоих методов количественно зависит от величины среднего значения (в данном случае среднего ИАГ), иногда для определения точности и прецизионности используют значение относительной погрешности. Но опять же, необходимо прийти к общепринятому пониманию того, что считать приемлемой относительной погрешностью в области медицины сна. Примеры такого подхода можно найти в работах по кардиологии, где в двух мета-анализах относительно двух методик измерения сердечного выброса было предложено считать приемлемыми значениями относительной погрешности 30% и 45%. Как бы то ни было, относительная погрешность при определении ИАГ, как показывают данные этого мета-анализа, судя по всему, являются клинически значимыми для сомнологических исследований, даже по самым либеральным критериям. Даже при анализе данных на основе различных критериев для оценки гипопноэ высокие значения относительной погрешности были отмечены во всех подгруппах.
Несмотря на то, что диаграммы Б–А и корреляционный анализ являются полезными инструментами, если их применять и интерпретировать в правильных условиях, реальность такова, что показатели корреляции и согласованности могут интерпретироваться клиницистами по-разному и потенциально могут ввести многих в заблуждение, которые ошибочно будут приравнивать их к точности. Подсчет относительной погрешности с использованием данных диаграмм Б–А (как в этом метаанализе) может служить надежным дополнительным показателем точности. Как бы то ни было, точность исследований методом WatchPAT остается под вопросом и вокруг этой темы не прекращаются дискуссии, кроме того, стоит отметить, что могут быть значительные различия в определении ИАГ от ночи к ночи по результатам исследований WatchPAT. В недавнем исследовании, в котором оценивалась вариабельность результатов исследований WatchPAT от ночи к ночи,
значение ИАГ отличалось в среднем на 56,7% от предыдущего показателя, а частота ошибочной классификации тяжести апноэ во сне в 3 разные ночи составляла от 22% до 25%. Однако, справедливо будет отметить, что некоторая вариабельность ИАГ от ночи к ночи отмечалась и при исследовании методом ПСГ, а в одном исследовании у 25% участников было обнаружено увеличение ИАГ по меньшей мере на 20 событий/час, когда они снова проходили ПСГ-исследование во вторую ночь.
Неверная классификация апноэ изучалась в данном мета-анализе также при помощи коэффициента каппа Коэна. Хотя в некоторых работах каппа Коэна для согласованности классификации легкой (0,29) и средней (0,25) степени апноэ рассматривается как удовлетворительная, авторы других утверждают, что не следует доверять результатам с каппой Коэна <0,60. Однако определение неверной классификации таким методом имеет определенные ограничения. Например, при оценке согласованности между исследованиями ПАТ и ПСГ относительно легкой степени апноэ (5–14,9 событий в час), ПСГ-исследование определило ИАГ как 5,9, в то время как ПАТ-исследование выявило у того же пациента в ту же ночь 31 событие в час, тогда в 2x2 таблице сопряженности результат для «определение апноэ легкой степени» записывается как «ПСГ-положительный» и «ПАТ-отрицательный». В то же время при другом сценарии, когда ПСГ так же определило ИАГ = 5,9, а ПАТ – ИАГ = 4. Тем не менее в таблицу сопряженности вносится такой же результат, как и выше: «ПСГ-положительный» и «ПАТ-отрицательный». Хотя в обоих случаях мы можем подсчитать каппу Коэна, в последнем варианте это менее значимая ошибочная классификация, а в первом – намного более значимая.
Учитывая ограничения данного статистического метода, в этом мета-анализе мы использовали другой метод, в котором данные подходящих работ анализировались на суммарную чувствительность, специфичность, диагностическое отношение шансов (DOR, определяется как отношение вероятности того, что у теста будет положительный результат, когда у пациента есть заболевание, к вероятности положительного результата теста, когда у пациента нет заболевания), а также LR+ и LR- (отношение правдоподобия положительного и отрицательного результатов соответственно) при различных пороговых значениях ИАГ: 5, 15 и 30 событий в час. Выбор показателей DOR и LR обусловлен тем, что они являются показателями эффективности теста и, в отличие от точности, не зависят от распространенности заболевания. Таблица 2 и кривые иерархических сводных характеристик приемника HSROC (см. Рисунок 6) демонстрируют, что по мере повышения порогового значения ИАГ чувствительность снижается, а специфичность возрастает. При пороговом значении ИАГ = 5 событий в час повышенная чувствительность достигается за счет снижения специфичности, что означает большее количество ложноположительных результатов. С другой стороны, при пороге ИАГ ≥ 30 событий в час, хотя специфичность значительно возрастает, чувствительность снижается, но незначительно, и, следовательно, следует ожидать ложноотрицательных результатов, но не столь много, как в первом случае (т. е. при пороге ИАГ 5 событий в час).
Таблица 2 – Мета-анализ диагностической точности теста при разных пороговых значениях ИАГ.
|
Чувствительность |
Специфичность |
DOR |
LR+ |
LR- |
ИАГ ≥ 5 |
94,11%; SE 2,6% |
43,47%; SE 12,9% |
12,30; SE 3,62 |
1,66; SE 0,34 |
0,13; SE 0,03 |
ИАГ ≥ 15 |
92,21%; SE 2,4% |
75,39%; SE 7,8% |
31,08; SE 17,97 |
3,34; SE 0,97 |
0,10; SE 0,03 |
ИАГ ≥ 30 |
74,11%; SE 5,6% |
87,10%; SE 3,4% |
19,33; SE 6,46 |
5,47; SE 1,41 |
0,29; SE 0,06 |
ИАГ – индекс апноэ/гипопноэ (кол-во событий в час), DOR – диагностическое отношение шансов, LR+ и LR- – отношение правдоподобия положительных и отрицательных результатов соответственно, SE – стандартная ошибка среднего.
Хотя может показаться, что наиболее оптимальные комбинации чувствительности и специфичности достигаются при пороге ИАГ 15 событий в час, который также имеет самый высокий DOR, необходимо также интерпретировать эту вероятность с помощью вычисленных LR+ и LR–. В целом, чем дальше параметры LR отходят от значения 1,0, тем сильнее их связь с отсутствием заболевания. Принято считать, что тесты с очень высоким LR+ и очень низким LR– обладают большей дискриминационной способностью, и только тесты с LR > 10 или < 0,1 пригодны для постановки или исключения диагноза.
Из Таблицы 2 ясно, что Значения LR+ и LR– не соответствуют этим критериям ни для одной категории тяжести апноэ во сне. Кроме того, при пороговых значениях ИАГ от 5 до 15 событий в час возникает вопрос, насколько исследования WatchPAT более полезны, чем опросники для скрининга апноэ во сне (например, STOP-BANG) с аналогичной чувствительностью и специфичностью при более низких порогах ИАГ, и, учитывая высокую вероятность ложноположительных результатов в этом диапазоне ИАГ, возможно следует проводить ПСГ для подтверждения результатов.
Одним из ограничений этого анализа (как подробно описано в разделе «Дополнительная информация о методах» в приложении) является то, что при пороговых значениях ИАГ 5 и 30 событий в час, поскольку в 2x2 таблице сопряженности было несколько ячеек с нулевыми значениями, анализ иерархических точек кривых HSROC был невозможен без использования поправочного коэффициента 0,5 в этих ячейках – этот прием был применим и изучен ранее.
Еще одним ограничением этого анализа и мета-анализа каппы Коэна является то, что некоторые исследования, в которых были вычислены параметры чувствительности и специфичности, не могли быть включены в работу из-за отсутствия поддающихся анализу индивидуальных данных пациентов, представленных в этих исследованиях. Хотя общее количество участников исключенных исследований было намного меньше, чем общее количество участников, проанализированных в этом мета-анализе.
Есть и другие ограничения этого метаанализа.
Хотя воронкообразный график не выявил статистических доказательств предвзятости публикаций, было несколько исследований (в том числе исследование NightOwl), которые не могли быть включены в мета-анализ, поскольку невозможно были извлечь данные из приведенных в них диаграмм Б–А. Основной анализ также показал высокую гетерогенность. Однако эта гетерогенность была изучена с помощью анализа нескольких подгрупп, и даже в подгруппах с приемлемой гетерогенностью величина относительной погрешности оставалась клинически значимой. Наконец, хотя это и не совсем ограничение как таковое (поскольку не было априори определено как цель данного мета-анализа), в этом мета-анализе не анализировались другие данные ПАТ- и ПСГ-исследований, такие как общее время сна, процент REM- и NREM-сна, а также индекс десатурации кислорода.
Эти данные следует считать немаловажными, поскольку в недавнем исследовании неправильная оценка общего времени сна (26 ± 63 минуты) с помощью запатентованного алгоритма WatchPAT считалась причиной ошибок при классификации тяжести апноэ во сне.
В заключение отметим, что этот мета-анализ показывает клинически значимое несоответствие между измерениями ИАГ с помощью ПАТ (в частности, WatchPAT) и ПСГ, выраженную ошибочную классификацию апноэ при использовании WatchPAT, особенно для апноэ во сне легкой и средней степени тяжести, а также низкую диагностическую эффективность этого инструмента.
В области медицины сна необходимо не только определить, что следует считать клинически приемлемыми границами согласованности на диаграмме Бланда–Альтмана для ИАГ (да и в целом, для других показателей тяжести апноэ во сне) для будущих исследований любых новых портативных скрининговых устройств сна или уже существующих домашних скрининговых устройств апноэ во сне, но также специалистам в области медицины сна необходимы более адекватные и крупномасштабные клинические исследования, в которых в идеале использовались бы одни и те же критерии оценки параметров дыхания как для ПАТ- (NightOwl или WatchPAT), так и для ПСГ-исследований, чтобы лучше понимать различия и расхождения между оценкой ИАГ по ПАТ и ПСГ.