
О.Б. ТАЛИБОВ, к.м.н., научный директор ООО «Лиганд ресерч», Москва
Оценка размера выборки для проведения исследований биоэквивалентности опирается на показатели внутрииндивидуальной вариабельности основных фармакокинетических параметров. Отсутствие или недоступность надежных данных проведенных ранее исследований может быть причиной неверной оценки количества наблюдений, необходимого для доказательства гипотезы биоэквивалентности. Одним из путей решения этой проблемы является использование последовательного адаптивного дизайна с переоценкой размера выборки после проведения промежуточного анализа. В статье приведено описание разновидностей адаптивного дизайна исследований биоэквивалентности. Приведены ситуации, в которых адаптивный дизайн может быть использован. Описаны используемые статистические модели, правила формулирования статистических гипотез, принципы промежуточного анализа и правила остановки исследования. Приведена критическая оценка предлагаемых моделей. Даны рекомендации по разработке адаптивного дизайна и его практической реализации.
Общие проблемы расчета размера выборки
Расчет размера выборки, требуемой для проведения исследования биоэквивалентности, основывается на данных о коэффициенте вариабельности для основных фармакокинетических параметров, которые лежат в основе тестирования -- AUC (Area Under Curve -- площадь под кривой) и Cmax (максимальная концентрация исследуемых препаратов).
При проведении исследований с параллельным дозированием за основу для расчета размера выборки принимается так называемый межсубъектный коэффициент вариабельности (CVinter). Однако, с учетом того, что межсубъектный коффициент вариабельности превышает этот же показатель у одного и того же субъекта, чаще используется перекрестный дизайн исследования, при котором расчет размера выборки основывается на вариабельности фармакокинетических параметров при приеме препаратов одним и тем же субъектом -- коэфициент внутрисубъектной вариабельности (CVintra).
Причинами неудачи при доказательстве гипотезы биоэквивалентности могут быть:
- истинное отсутствие биоэквивалентности;
- проблемы при проведении исследования;
- разброс данных вследствие неаккуратного проведения фармакокинетических процедур, например отклонений по времени;
- разброс данных вследствие нарушений добровольцами условий протокола (нарушение водного и пищевого режима и т. д.);
- реализация β-ошибки -- необходимо учитывать, что закладываемая в стандартный дизайн мощность исследования составляет, как правило, 80%, что оставляет вероятностное пространство для случайного неподтверждения биоэквивалентности в тех случаях, в которых она есть;
- чрезмерно оптимистичный подход к разработке дизайна, в частности расчету размера выборки;
- неверная оценка соотношения показателей T/R (тестового препарата к референтному);
- заниженные представления о вариабельности показателей.
Для ряда лекарственных препаратов данные о коэффициенте вариации могут оказаться недоступными. Причинами этого могут быть:
- недостаточное количество опубликованных данных (в особенности данных о ранее проведенных фармакокинетических исследованиях;
- отсутствие данных об изменчивости фармакокинетических параметров внутри одного субъекта;
- недостаточность проведенных ранее исследований.
Кроме того, необходимо учитывать, что исследования ряда препаратов, подвергающихся метаболизму с участием системы цитохрома, могут давать разброс показателей, связанный с включением в исследование экстенсивных или медленных метаболизаторов, а также влиянием на активность цитохромальной системы алиментарных факторов, которые трудно унифицировать в группе здоровых добровольцев в междозовый период.
Последовательный дизайн и проблема множественного тестирования
Проведение двух исследований, одно из которых может расцениваться в качестве пилотного, не является оптимальным выбором для исследований дженериковых препаратов. Подобный подход приводит как к удлинению пути препарата на рынок, так и к удорожанию процесса его исследования. Кроме того, следует учитывать, что в качестве субъектов в большинстве исследований биоэквивалентности рассматриваются здоровые добровольцы, что ставит вопросы этического толка при избыточном количестве исследовательских проектов.
Одним из путей решения сложностей, связанных с недостатком данных для корректной оценки размера выборки в исследованиях биоэквивалентности, является использование последовательного дизайна, то есть схема, при которой стандартная модель перекрестного исследования 2x2 расширяется за счет двухэтапного проведения.
В наиболее простой схеме в первую фазу (первый этап) исследования включается когорта субъектов для получения пилотных данных с целью корректного уточненного расчета. После этого производится промежуточный анализ, который дает информацию для расчета необходимого количества наблюдений, которые нужно провести дополнительно. После второго этапа исследования данные субъектов обоих этапов объединяются (пулируются) и анализируются вместе.
Несмотря на понятную логику этого подхода, его использование содержит в себе существенный риск повышения вероятности α-ошибки (так называемой ошибки первого рода или «риска потребителя»). Проблема в том, что гипотеза биоэквивалентности фактически тестируется дважды: в ходе промежуточного анализа и в ходе финального анализа данных. Таким образом создаются условия для повышения риска случайного опровержения нулевой гипотезы (т. е. гипотезы об отсутствии биоэквивалентности). Для более простого понимания некорректности такого подхода можно представить себе исследование, которое проводится с анализом после каждого включенного субъекта и останавливается в тот момент, когда требуемая гипотеза оказывается доказанной (возможно, случайно).
Несмотря на то что последовательный дизайн исследований биоэквивалентности был одобрен ВОЗ, регуляторные органы большинства стран не принимают подобный подход без внесения соответствующих статистических поправок (так называемые поправки на множественное тестирование).
Адаптивный дизайн
Пути преодоления проблемы множественного тестирования разрабатываются уже достаточно давно.
Адаптивный дизайн в клинических исследованиях был впервые предложен еще в 60--70-х гг. ХХ в. для исследований клинической эффективности, в ходе которых был предусмотрен промежуточный анализ эффективности исследуемых препаратов.
Принципы адаптивного дизайна включают в себя:
- включение первой группы пациентов/добровольцев в исследование (размер группы планируется заранее);
- оценку результата исследования на первой группе в ходе промежуточного анализа, выполняемого в четко запланированный момент исследования;
- решение о необходимости включения дополнительной группы, принимаемое на основе данных промежуточного анализа;
- определенные заранее правила остановки исследования в случае «раннего» доказательства тестируемой гипотезы или понимания того, что доказательство гипотезы является маловероятным;
- в случае слепого дизайна исследования решение вопроса о необходимости проведения промежуточного анализа независимыми аналитиками (зачастую для этого создается специальный комитет по мониторированию данных).
В случае фармакокинетических исследований, которые проводятся с открытым дизайном («ослепленной» бывает только биоаналитическая лаборатория), создания специальной группы для проведения промежуточного анализа не требуется. Однако остальные общие правила являются применимыми. Промежуточный анализ должен быть выполнен только после полного проведения исследования в первой группе. Кроме того, требуется разработка правила остановки исследования (или продолжения исследования) после проведения промежуточного анализа.
При тестировании биоэквивалентности в модель ANOVA, кроме таких факторов, как «группа», «субъект внутри группы», «период» и «лекарственный препарат», должен быть дополнительно включен фактор «фаза исследования».
В самом общем виде двухфазное исследование биоэквивалентности может быть представлено следующим образом:
1) Завершение первой фазы
a. Промежуточный анализ
b. Тестирование биоэквивалентности
c. Остановка исследования или расчет необходимого количества субъектов для второй фазы
2) Завершение второй фазы
a. Финальный анализ
b. Итоговое тестирование биоэквивалентности
Для преодоления последствий множественного тестирования гипотезы рамки отрицания «нулевой гипотезы» должны быть сужены. В самой консервативной модели используется подход S. Pocoсk, в котором предусматривается уменьшение α-ошибки с общепринятой цифры 0,05 до 0,0294. Соответственно используемые для оценки доверительные интервалы (ДИ) выбираются не 90% (как при однократном тестировании), а 94,12%.
Подобный подход, несмотря на простоту, является избыточно консервативным, так как значительно уменьшает вероятность доказательства гипотезы биоэквивалентности после первой фазы исследования.
Более сложными являются алгоритмы, предложенные D. Potvine и соавт. в 2008 г. Они основаны не только на уменьшении α-ошибки, но и на оценке мощности исследования (величина, обратная β-ошибке).
На рисунках 1--3 приведено графическое описание этих алгоритмов.
При выборе алгоритма А промежуточное тестирование может дать основания для завершения исследования в случае, если значения 90% доверительных интервалов соотношений AUC и Cmax T/R оказываются внутри выбранных рамок (как правило, 0,8--1,25) при условии, что статистическая мощность составила не менее 80%. В противном случае размер выборки пересчитывается, и повторное тестирование проводится после включения второй группы субъектов (данные первой и второй фаз пулируются). Вывод о наличии или отсутствии биоэквивалентности подтверждается вне зависимости от показателя мощности.
Видно, что настоящий алгоритм не предусматривает модификации критического уровня α-ошибки, поэтому его применение встречает закономерные возражения.
Алгоритм В предусматривает использование заниженной α-ошибки (0,0294). Тестирование гипотезы биоэквивалентности после первого этапа проводится при 94,12% доверительных интервалах. Попадание в этот интервал является подтверждением биоэквивалентности и приводит к остановке исследования. В случае, если соотношения T/R выходят за пределы, установленные для подтверждения гипотезы биоэквивалентности, а мощность исследования равна или превышает 80%, исследование останавливается, так как биоэквивалентность является не подтвержденной. При мощности менее 80% должен быть произведен перерасчет размера выборки, включение дополнительных пациентов. Финальное тестирование в этом случае проводится также для 94,12% доверительных интервалов. Вывод о наличии или отсутствии биоэквивалентности после финального анализа делается вне зависимости от полученного показателя мощности.
Представленный алгоритм является достаточно консервативным, так как предусматривает как зауженные интервалы, так и вероятность отказа от второй фазы исследования при непопадании T/R в нужный разброс при промежуточном анализе, но высокой мощности. Использование алгоритма В может приводить к парадоксальной ситуации, когда соотношения T/R укладываются в 90% доверительных интервалов при мощности > 80%, но так как они не попадают в более узкие доверительные интервалы, гипотеза биоэквивалентности отвергается там, где при стандартном подходе она была бы подтверждена.
Алгоритм С, вероятно, является оптимальным как с точки зрения наименьшего консерватизма, так и с точки зрения введения в него поправки на множественность тестирования. Его использование предусматривает тестирование биоэквивалентности при использовании стандартных 90% доверительных интервалов после первой фазы тестирования в том случае, если мощность составила 80% и более. В случае, если мощность составляет менее 80%, проводится тестирование биоэквивалентности при 94.12% доверительных интервалах. В случае «успеха» исследование останавливается. Если данные выходят за установленные пределы, производится перерасчет размера выборки и повторное тестирование пулированных данных при 94,12% ДИ.
Несмотря на меньшую консервативность, алгоритм С содержит в себе определенный риск «потери» исследования при достижении в ходе первой фазы 80% мощности и выходе исследуемых соотношений за установленные пределы. Таким образом, для препаратов, характеризующихся высокой вариабельностью, следует предусмотреть значительно большую выборку для включения в первую фазу тестирования.
Кроме того, Potvin и соавт. предлагают использование так называемого алгоритма D. Его принципиальным отличием от алгоритма C является допущение большего уровня α-ошибки (0,28 вместо 0,294), что, соответственно, допускает тестирование гипотезы при 94,4% доверительных интервалах вместо 94,12%.
Еще одним условием перехода ко второй фазе исследования является полученное в ходе промежуточного соотношение AUC и Cmax T/R в пределах 0,95—1,05. В противном случае использование приведенных алгоритмов может быть признано некорректным.
Заключение
В настоящей статье приведены только общие принципы разработки адаптивного дизайна при проведении исследований биоэквивалентности. Рассмотрены наиболее частые случаи, возникающие при проведении исследований 2x2. Принципиально приведенные подходы допустимы при проведении исследований с полным или неполным репликативным дизайном.
Приведенные алгоритмы являются примерами. На настоящий момент не существует четко регламентированных регуляторных требований по выбору того или иного подхода к решению проблемы множественного тестирования.
Случаи использования нескольких фаз (два и более промежуточных анализов), а также нескольких сравниваемых групп требуют других подходов к моделированию и должны рассматриваться отдельно.
ИСТОЧНИКИ
1. Pocock S. Group sequential methods in the design and analysis of clinical trials. Biometrika, 1977, 64(8): 191–199.
2. Potvin, et. equential design approach for bioequivalence studies with crossover designs. Pharmaceutical statistics, 2008, 7(17): 245-262.
3. Chow, SC, & Liu, JP. Design and analysis of bioavailability and bioequivalence studies. 3rd edn. Chapman & Hall/crc: Boca raton; 2009.
4. European Medicines Agency Guideline on the Investigation of Bioequivalence 2010 http://www.ema.europa.eu/docs/en_GB/document_library/Scientific_guideline/2010/01/WC500070039.pdf (accessed 21/03/2015).