Белорусский физик проанализировал официальные данные о выборах президента. Вот что он обнаружил

Хотя с момента выборов президента Беларуси прошло уже полгода, эта тема продолжает волновать людей. Кандидат физико-математических наук Сергей Черкас опубликовал препринт своей работы «Статистический анализ выборов президента Беларуси в 2020 году», где попытался в простой и понятной форме проанализировать официальные данные. Приводим его работу в сокращенном виде.

Фото: Катерина Гордеева, TUT.BY

Сергей Черкас — автор более 30 статей в области теоретической физики. Этот статистический анализ он делал в свободное от работы время — им двигало желание получить как можно более простую картину происшедшего на выборах, поскольку этот вопрос и сейчас является принципиальным для понимания ситуации в Беларуси.

«В процессе любых выборов, как правило, возникают те или иные претензии к выборной процедуре со стороны проигравшей стороны. Выборы президента в Беларуси в этом смысле не являются исключением и привели к серьезному расколу общества из-за различных мнений по этому поводу, — говорится в его статье. — Статистический анализ является дополнительным инструментом анализа достоверности выборов, хотя и не может дать полностью определенного ответа на вопрос о справедливости результата выборов, поскольку статистические методы оперируют только с вероятностями различных утверждений».

Как говорит Сергей Леонидович, в Беларуси сложилась уникальная ситуация — в большинстве стран мира после выборов можно получить полную информацию о голосах избирателей. Избирательным кодексом Беларуси предусмотрено, что копия протокола участковой комиссии после его подписания должна вывешиваться для всеобщего ознакомления в месте, установленном комиссией. Однако многие избиратели протоколов так и не дождались. «Не все участковые протоколы стали доступны после выборов в Беларуси, и возникла необходимость анализа неполной информации», — отмечает Сергей Черкас.

Отметим: в отчете платформы «Голос» сказано, что по факту на множестве избирательных участков протоколы в принципе не вывешивались. Кроме того, были участки, где протоколы вывешивались без подписи или где комиссии препятствовали фотосъемке протоколов.

Конечно, существуют и неофициальные данные, например, бюллетени обычных избирателей, собранные платформой «Голос». Тем не менее в своей работе Сергей Леонидович использовал только официальную информацию: вывешенные на стене участковые протоколы и объявленный результат выборов по каждой области Беларуси и Минску.

Сергей Леонидович намерен отправить свою работу в журнал Slavic review — международный междисциплинарный журнал, посвященный «изучению прошлого и настоящего в Восточной Европе, России, на Кавказе и в Центральной Азии» (статьи в этом журнале рецензируются, а редакционная политика определяется международной редакционной коллегией). Он издается Ассоциацией славянских, восточноевропейских и евразийских исследований (США) в партнерстве с издательством Кембриджского университета (Великобритания).

О чем говорится в самой статье: очень кратко

Скажем сразу, чтобы до конца понять расчеты, нужно хотя бы минимально знать термины теории вероятностей. Поэтому, прежде чем начать, поясним, что такое случайная величина и среднее значение.

Нажмите, чтобы увидеть простое пояснение понятий «случайная величина» и «среднее значение»

Случайная величина — в теории вероятностей это величина, принимающая в зависимости от случая те или иные значения с определенными вероятностями. Допустим, мы несколько раз бросаем кубик — каждое из выпавших чисел будет случайной величиной.

Если нам известны все случайные числа некоторого события, мы можем вычислить их среднее значение — это одно из важнейших понятий в теории вероятностей. Объясним на примере все того же кубика. Если он не шулерский, то для каждой цифры от 1 до 6 вероятность, что выпадет именно она, будет равной — 1/6.

Существует также понятие среднего значения или математического ожидания. Зная вероятность выпадения каждой из граней кубика, мы можем с большой вероятностью предсказать, какое среднее значение она принимает. Для этого каждое из чисел на гранях кубика (от 1 до 6) нужно умножить на вероятность ее выпадения (1/6) и сложить получившиеся значения. Выглядит это так:

Итак, согласно теории вероятности, сколько бы раз мы ни бросали кубик, среднее значение (математическое ожидание) для него будет составлять 3,5. Если оно будет другим, значит, кубик, скорее всего, не совсем «честный» — например, утяжелена одна из граней.

Если очень кратко, то автор взял 1527 из 5767 протоколов участковых выборных комиссий, выложенных в открытый доступ, и рассчитал среднее значение. Затем он случайным образом взял четверть из этих протоколов и снова вычислил среднее — значения практически совпали. А вот с официальным результатом, который вычислила комиссия, это значение различается очень сильно — достаточно сказать, что шанс случайно получить такое различие примерно равен одной миллионной.

А если рассказать об этом подробнее?

Хорошо, ниже мы приведем более подробные расчеты.

Чтобы расчеты были относительно простыми и понятными (по крайней мере, для людей с университетским образованием), Сергей Черкас использовал два метода сопоставления имеющейся информации с официальными результатами.

Один заключается в сравнении среднего значения по имеющейся выборке с официальным средним значением. Здесь автор применил моделирование методом Монте-Карло (многократный анализ случайных выборок из общего числа имеющихся протоколов).

Другой метод представляет собой анализ характера особенностей функций распределения вероятностей и заключается в сравнении формы функций распределения вероятностей для процента и количества избирателей, голосовавших за Александра Лукашенко на каждом участке.

«Последний метод скорее эстетический, чем количественный, — отмечает сам автор. — Однако он может быть применен к произвольным избирательным системам, например, Великобритании или Соединенных Штатов, позволяя иметь графическую картину результатов выборов».

Известно, что, по официальным сведениям, Александр Лукашенко победил с результатом 80,1%. Однако если произвести расчеты с помощью официальных данных, то процент голосовавших за Александра Григорьевича окажется на уровне 63%.

Как было получено это значение? Для пояснения нам понадобятся формулы. Количество голосовавших на каждом i-том участке будет обозначаться как Ni, а количество голосовавших за Лукашенко на этом же участке — как Mi.

Как Mi, так Ni можно рассматривать как случайные величины и вычислить следующие средние значения.

Здесь первая величина представляет собой среднее число голосовавших на некотором участке, а вторая величина представляет собой среднее число голосовавших за Лукашенко.

Процент голосовавших за Лукашенко определяется как:

Итог оказывается на уровне 63%. То есть случайная выборка примерно четверти всех протоколов дает результат, отличающийся от 80,1% более чем на 15%.

Автор оценил вероятность такого события методом Монте-Карло. Для этого он выбрал случайным образом ¼ протоколов из имеющихся 1527 и вычислил среднее по этой выборке (в данном случае под «средним» подразумевается термин в теории вероятностей). Полученное среднее отличалось от среднего по всем имеющимся 1527 протоколам, однако отличие было невелико. Чтобы хоть раз получить отличие в плюс-минус 0,15 нужно повторить эту процедуру более миллиона раз.

Тем самым моделируется ситуация, которая произошла на выборах, когда среднее по доступным 1527 протоколам оказалось отличающимся от официального среднего (то есть среднего по 5767 участкам) более чем на 15%. Это говорит о том, что вероятность такого события меньше одной миллионной.

Автор также выполнил более детальный анализ множеств данных, отражающих количество проголосовавших на определенном участке и количество проголосовавших за Лукашенко на том же участке. Он ввел случайную величину, представляющую собой процент проголосовавших за Лукашенко на каждом участке, и рассмотрел распределение плотности вероятности данной величины.

Плотность вероятности — один из способов задания распределения случайной величины. Она характеризует вероятность получить в одном измерении — то есть в нашем случае на некотором одном случайном участке — значение величины в заданном диапазоне, условно, между a и b.

Сглаженное с помощью Гауссова ядра распределение показано на рисунке ниже.

Изображение: Сергей Черкас

Как можно заметить, плотность вероятности далека от нормального (Гауссова) распределения, которое обычно наблюдается на выборах.

Нормальное распределение, также называемое распределением Гаусса, — распределение вероятностей, которое играет важнейшую роль во многих областях знаний, особенно в физике. Физическая величина подчиняется нормальному распределению, когда она подвержена влиянию огромного числа случайных помех. Такая ситуация очень распространена, поэтому можно сказать, что из всех распределений в природе чаще всего встречается именно нормальное распределение — отсюда и произошло одно из его названий.

«Разумеется, сам по себе этот факт ни о чем не говорит, поскольку встречаются выборы с сильными отклонениями от нормального распределения, — отмечает автор. — Интересным здесь является то, что кроме ожидаемого максимума на λ ≈ 0,6 имеется также максимум на λ ≈ 0,8 (под лямдбой имеется в виду процент проголосовавших за Лукашенко — 63% и 80,1%. — Прим. TUT.BY)».

Для анализа этого явления было построено распределение другой случайной величины — числа избирателей, голосовавших за Александра Лукашенко на каждом участке. Поскольку на разных участках число проголосовавших отличалось, то распределение плотности вероятности числа голосовавших за Лукашенко должно было быть более размытым, чем плотность вероятности, однако сохранять его ключевые моменты.

Однако, как видно на графике выше, пик, отвечающий результату примерно в 60%, остался, хотя и несколько сместился, в то время как пик, отвечающий результату в 80%, исчез. Автор трактует это так, что, возможно, имело место «искусственное подравнивание на некоторых участках именно процента проголосовавших за Лукашенко к 80%», поскольку обычно люди мыслят как раз в терминах процента. Грубо говоря, общий результат каким-то образом пытались «подтянуть» до 80%, но смогли только до 63% .

В итоге автор отмечает следующие особенности:

средний процент проголосовавших за Лукашенко в выборке доступных 1527 протоколов порядка 63%, что сильно отличается от официальных 80%. Вероятность события, что случайная выборка примерно четверти всех протоколов дает результат, отличающийся от официальных данных более чем на 15%, составляет меньше 10-6;
распределение процента проголосовавших за Лукашенко по участкам сильно отличается от нормального (Гауссова распределения), имеет максимум примерно на 60% и дополнительный пик примерно на 80%;
дополнительный пик полностью исчезает, если рассматривать распределение не процента, а числа проголосовавших за Лукашенко на каждом участке. Одной из гипотез, объясняющих данное явление, может быть искусственное подравнивание процента проголосовавших за Лукашенко к 80% на некоторых участках, которое, тем не менее, оказалось недостаточным, чтобы приблизить среднее значение (то есть около 60%) по исследуемой выборке к официально объявленному значению 80%.

Может ли быть такое, что официальный результат реалистичен?

Несмотря на малую вероятность, официальный результат вполне мог бы иметь место, отмечает Сергей Черкас. Например, население Беларуси составляет 9,4 миллиона. Если каждому белорусу раздать по лотерейному билету с вероятностью выигрыша 10-6, то среди жителей Беларуси оказалось бы около 9 счастливцев.

Но чтобы точно убедиться в реалистичности такого сценария, необходимо иметь недостающие протоколы участков.

Кроме того, автор проверил данные для каждой из шести областей Беларуси и отдельно Минска — мы не будем приводить здесь детали расчетов и графики, чтобы не усложнять текст, их можно найти в препринте. Отметим лишь, что из вычислений последовал более жесткий результат — для получения достоверности официальных результатов выборов вероятности по областям и Минску должны перемножаться, что приводит к вероятности такого события в 10-36. То есть из анализа данных по областям Беларуси следует практически нулевая вероятность достоверности официальных данных.

Однако, как подчеркивает Сергей Черкас, здесь нельзя говорить о фальсификации выборов, поскольку, согласно белорусским законам, фальсификация выборов является уголовным преступлением, а «на данный момент не было открыто каких-либо уголовных дел на эту тему».

— Тем не менее каждый вправе сформировать свое мнение о достоверности этих выборов. Приведенные оценки вероятностей, а также форма функций распределения вероятностей могут быть полезными с этой точки зрения, — подытоживает автор.

А что говорят о статье другие специалисты?

Рецензию на статью Сергея Черкаса по нашей просьбе оставил кандидат физико-математических наук Андрей Малашевич, который сейчас работает в ИТ-фирме в США.

— Предлагаемые методы анализа отличаются простотой, что делает их доступными, а результаты анализа на их основе воспроизводимыми, — отмечает он. — Эти методы позволяют выявлять наличие возможных аномалий в распределении голосов и дать количественную оценку вероятности достоверности результатов выборов. Следует обратить внимание на то, что, хотя методология статьи позволяет судить о достоверности заявленных результатов, она не претендует на выявление кандидата, реально победившего на выборах.

Действительно, если правдивость информации о результатах выборов ставится под сомнение, то определение победителя на основе этой лишь информации становится невыполнимой задачей, и требуется наличие более достоверной информации (что выходит за рамки данной работы).

В статье вышеуказанные методы применяются на примере анализа результатов выборов президента Беларуси в 2020 году, основываясь на тех протоколах избирательных комиссий, которые имелись в открытом доступе на момент написания статьи. В частности, статья показывает, что распределение процента голосов за Лукашенко не является типичным Гауссовым, со средним значением около 60%, и имеет два характерных пика.

Дальнейший анализ демонстрирует, что пик, соответствующий примерно 80%, имеет аномальный характер. Моделирование методом Монте-Карло показывает, что вероятность получить среднее значение 60% в имеющихся в публичном доступе протоколах при заявленных 80% голосов по всем протоколам исчезающе мала.

Стоит отметить, что анализ был произведен на основе приблизительно четверти полного числа протоколов. Как известно из статистики, предельная ошибка выборки падает обратно пропорционально корню размера выборки. Например, известно, что при произведении соцопросов, если выборка мала по сравнению с численностью населения, ошибка выборки практически не зависит от этой численности, а только от размера самой выборки.

В случае, когда размер выборки сопоставим с численностью населения, например, четверть, как в рассматриваемом анализе, ошибка выборки фактически исчезает, и опрос фактически превращается в перепись населения. Поэтому результат моделирования Монте-Карло, представленный в статье, не является удивительным.

В то же время математики, выполнявшие анализ результатов социологических опросов («Народный опрос»), рекомендовали автору проверить аномальность (или ее отсутствие) самих данных и добавить этот анализ в публикацию, так как без этого исследование не имеет смысла. В частности, без такого анализа нельзя утверждать или опровергать гипотезу о крайне вероятной победе какого-то кандидата на выборах. В то же время они согласны, что если принять предположение, что используемые автором данные не аномальны, то вероятность того исхода, когда изучаемый в статье кандидат набрал 80% и больше процентов, не превосходит одну миллионную.