Дива -- не прочесть тайну
Jan. 19th, 2012 06:08 pmПро бимодальную динамику явки в Москве. После Н.Новгорода и Самары мы уже как-то поверили, что бимодальное распределение явки - это трололо и вообще очень интересно.
А в Москве, как известно, явка как раз бимодальная. Ну я и посмотрел, что у нас будет в течение дня:

Зеленые точки - это как раз обещанная бимодальная официальная явка на 20:00. Бимодальность, конечно, не очень выражена, но любой спектроскопист вам скажет, что тут две линии. Но вот какая незадача: на 18:00 явка... опять бимодальная. И на 15:00. И на 12:00. И даже на 10:00 видно небольшое крылушко.
Но - еще раз - конраста, чтобы ясно разделить два распределения, не хватает, поэтому придется немного помоделировать. Первая идея - а давайте сфитим линии двумя гауссами - не проходит, поскольку параметры одного гаусса могут компенсироваться параметрами другого. Фит нестабилен; нужны дополнительные условия. Я взял такие:
а). Есть два суб-ансамбля участков, которые голосуют с разной скоростью
б). Между суб-ансамблями нет перемешивания, т.е. полное количество участков внутри одного суб-ансамбля не меняется со временем
в). Фитуются все кривые одновременно (глобальный фит)
Результаты показаны на рисунке сплошными линиями. Получилось неожиданно (для меня) неплохо, посколько обычно подобные фиты норовят-таки разъехаться (а я их очень много переделал).
Теперь мы можем взять положение каждого гаусса во времени (что дает наиболее вероятную явку) и отложить ее как функцию времени, вместе со стандартным отклонением (рисунок наверху в углу). И - страшное дело - два суб-ансамбля выборщиков прекрасно прослеживаются с самого утра. Обычные избиратели имеют явку где-то 5% в час (примерно как в Н.Новгороде), активные - около 6.5%. Зависимости -- если не считать наклона -- примерно одинаковые, с разницей между ними, которая растет примерно линейно со временем. И да, мы уже знаем, что активные избиратели в основном голосуют за любимую партию, но в Москве они это делают не в последние 2 часа, а в течение всего дня.
Я, кстати, проверил гипотезу "выбросов" -- т.е. когда, например, с 10 до 12 на участке идет большой скачок явки, а потом явка замедляется до обычных 5% в час. Если таких скачков много и они происходят в разные времена, то они размажутся, и получится плавная кривая с увеличенным наклоном. Так вот, ничего, голимый ноль: скачки есть, но они ни с чем не коррелированы.
UPD Добавил распределения по участкам с КОИБами (тоненькие линии). В общем, мало что прояснилось. Они, конечно, тяготеют к низкой явке, но не совсем. Если посмотреть на средние (тут я просто считал первый момент, без фита), то на 15:00 явка аккурат посередке (звездочки), и понятно, из-за чего -- из-за длинного хвоста. А вот на 20:00 явка нормализуется, и почти совпадает с "медленными" уиками.
Как внутри огромной Москвы могли оказаться два четко выраженных типа избирателя, я не понимаю. Было бы одномодальное распределение, пусть и широкое, и не гауссовое, -- было бы понятно, а так -- нет. Что же это за два типа избирателя? Прямо тайна какая-то. Есть идеи?
А в Москве, как известно, явка как раз бимодальная. Ну я и посмотрел, что у нас будет в течение дня:
Зеленые точки - это как раз обещанная бимодальная официальная явка на 20:00. Бимодальность, конечно, не очень выражена, но любой спектроскопист вам скажет, что тут две линии. Но вот какая незадача: на 18:00 явка... опять бимодальная. И на 15:00. И на 12:00. И даже на 10:00 видно небольшое крылушко.
Но - еще раз - конраста, чтобы ясно разделить два распределения, не хватает, поэтому придется немного помоделировать. Первая идея - а давайте сфитим линии двумя гауссами - не проходит, поскольку параметры одного гаусса могут компенсироваться параметрами другого. Фит нестабилен; нужны дополнительные условия. Я взял такие:
а). Есть два суб-ансамбля участков, которые голосуют с разной скоростью
б). Между суб-ансамблями нет перемешивания, т.е. полное количество участков внутри одного суб-ансамбля не меняется со временем
в). Фитуются все кривые одновременно (глобальный фит)
Результаты показаны на рисунке сплошными линиями. Получилось неожиданно (для меня) неплохо, посколько обычно подобные фиты норовят-таки разъехаться (а я их очень много переделал).
Теперь мы можем взять положение каждого гаусса во времени (что дает наиболее вероятную явку) и отложить ее как функцию времени, вместе со стандартным отклонением (рисунок наверху в углу). И - страшное дело - два суб-ансамбля выборщиков прекрасно прослеживаются с самого утра. Обычные избиратели имеют явку где-то 5% в час (примерно как в Н.Новгороде), активные - около 6.5%. Зависимости -- если не считать наклона -- примерно одинаковые, с разницей между ними, которая растет примерно линейно со временем. И да, мы уже знаем, что активные избиратели в основном голосуют за любимую партию, но в Москве они это делают не в последние 2 часа, а в течение всего дня.
Я, кстати, проверил гипотезу "выбросов" -- т.е. когда, например, с 10 до 12 на участке идет большой скачок явки, а потом явка замедляется до обычных 5% в час. Если таких скачков много и они происходят в разные времена, то они размажутся, и получится плавная кривая с увеличенным наклоном. Так вот, ничего, голимый ноль: скачки есть, но они ни с чем не коррелированы.
UPD Добавил распределения по участкам с КОИБами (тоненькие линии). В общем, мало что прояснилось. Они, конечно, тяготеют к низкой явке, но не совсем. Если посмотреть на средние (тут я просто считал первый момент, без фита), то на 15:00 явка аккурат посередке (звездочки), и понятно, из-за чего -- из-за длинного хвоста. А вот на 20:00 явка нормализуется, и почти совпадает с "медленными" уиками.
Как внутри огромной Москвы могли оказаться два четко выраженных типа избирателя, я не понимаю. Было бы одномодальное распределение, пусть и широкое, и не гауссовое, -- было бы понятно, а так -- нет. Что же это за два типа избирателя? Прямо тайна какая-то. Есть идеи?
no subject
Date: 2012-01-19 05:28 pm (UTC)И в какую - те участки, на которых младшие волшебники тренировались писать свои протоколы.
no subject
Date: 2012-01-19 05:34 pm (UTC)тогда сделать то, что ты просишь -- это была целая песня.
со свежим файлом будет, наверное, проще с коибами.
попозже сделаю, спасибо за предложение.
а младших волшебников искать, если честно, лень.
(no subject)
From:no subject
Date: 2012-01-19 06:02 pm (UTC)no subject
Date: 2012-01-19 07:55 pm (UTC)статистики не хватает.
no subject
Date: 2012-01-19 06:16 pm (UTC)1. Волшебство Чурова в принципе позволяет рисовать кривые любой формы. Если бы он был волшебником, то нарисовал бы гаусса. Но он только учится, и пока научился лишь размазывать вбросы по времени.
2. В некоторые УИКи были внедрены люди, но не вбрасывающие бюллетени после вскрытия урн, а выдающие бюллетени "активным избирателям". Т.е. вброс фактически происходил не одномоментно, а был размазан во времени. Что и видно в статистике.
no subject
Date: 2012-01-19 07:06 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 07:57 pm (UTC)я, кстати, проверил на "выбросы" -- т.е. когда, например, с 10 до 12 идет большой скачок, а потом снова медленно -- если таких скачков много и они происходят в разные времена, то они размажутся, и получится плавная кривая с увеличенным наклоном.
Так вот, ничего, голимый ноль.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:два четко выраженных типа избирателя
Date: 2012-01-19 06:29 pm (UTC)Re: два четко выраженных типа избирателя
Date: 2012-01-19 07:54 pm (UTC)ну да, будут смешанные состояния, и что?
Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:Re: два четко выраженных типа избирателя
From:no subject
Date: 2012-01-19 07:03 pm (UTC)no subject
Date: 2012-01-19 07:53 pm (UTC)с другой, приводя в пример мажоритарную Великобританию, он показывает, что слегка не в теме.
no subject
Date: 2012-01-19 08:44 pm (UTC)no subject
Date: 2012-01-19 08:51 pm (UTC)или мы говорим об уиках, которые голосуют сами по себе?
(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 08:50 pm (UTC)Еще вариант. Есть два типа председателей УИК. Первый ведет точный учет и дает точные данные по явке. Второй задолбался (что, кстати, немудрено) и дает примерную явку с некоторым округлением "вверх". Почему - понятия не имею, психология какая-то работает. Я бы тоже округлял вверх.
no subject
Date: 2012-01-19 08:53 pm (UTC)(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 08:53 pm (UTC)no subject
Date: 2012-01-19 08:56 pm (UTC)только непонятно, откуда подобное распределение берется именно на уровне участков.
по округам я смотрел, ничего не нашел.
может, и недосмотрел, конечно.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:унесенные и пропавшие бюллетени
From:Re: унесенные и пропавшие бюллетени
From:Re: унесенные и пропавшие бюллетени
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 09:16 pm (UTC)оркестраансамбля ведут себя по-разному, если смотреть на число недействительных и даже совсем на невинные вещи: на число проголосовавших по открепительным.no subject
Date: 2012-01-19 09:29 pm (UTC)я могу сказать больше: активный кластер преимущественно голосует за любимую партию.
собственно, это 5го декабря уже было установлено.
но голосуте-то в течение всего дня.
что, тут есть криминал?
(no subject)
From:(no subject)
From:(no subject)
From:Двугорбая Москва
Date: 2012-01-19 09:52 pm (UTC)Предположим, что исходное распределение явки соответствовало нормальному закону распределения. Среднее значение примем равным 47%. Этот процент получен Шпилькиным по одноимённому методу. СКО примем 3,5% (из консультаций с ним же, по итогам предыдущих выборов). Будем рассматривать не распределение участков по явке, а распределение голосов на этих участках (что правильнее).
Теперь предположим, что на некоторых участках производился вброс, скажем 5% бюллетеней. При этом имеющиеся голоса переместятся на 5% вправо по оси явки, и к их количеству прибавятся эти 5%. Гауссиана при этом растянется вправо по оси явки.
Зная исходное (предположительно) и конечное распределение голосов, можно подобрать параметры распределения этого вброса таким образом, чтобы эти распределения максимально соответствовали друг другу.
Выглядит это всё так, для Москвы:
Распределение вброса (процентное значение количества участков, на которых был применён вброс определённого % бюллетеней) показан светло-коричневой кривой с маркерами-крестиками. Сглаженная кривая получилась (подобрана) для уменьшения СКО отклонения от показанной явки.
Хотя распределение вброса идёт от 0%, удобно строить его от максимума гаусианы (что и сделано), тогда пики распределения соответствуют пикам показанной явки, поскольку максимальное воздействие оказывают на максимум гаусианы. Левая горизонтальная часть кривой соответствует 12,2% участков, на которых вбросы не привели к переходу в другой разряд гистограммы.
Видно, что результирующая двугорбая кривая не была результатом какого-то одного процента вброса, вполне себе распределённый вброс, что-то вроде спектрограммы с пиками через 4-5%. (100 вброшенных бюллетеней при размере участка 2100 человек увеличивают явку на 4,8%)
Это построено для окончательной явки, но, при наличии данных промежуточной явки с раскладкой по участкам, можно было бы провести аналогичный анализ и для этих случаев.
Идея вышеизложенного в том, что не обязательно искать несколько разных голосующих групп избирателей, всё неплохо объясняется разбросом вброса на разных участках.
Re: Двугорбая Москва
Date: 2012-01-20 07:04 am (UTC)2. откуда взялась коричневая кривая?
Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:Re: Двугорбая Москва
From:no subject
Date: 2012-01-19 10:09 pm (UTC)no subject
Date: 2012-01-19 10:25 pm (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 10:45 pm (UTC)Кстати, при таком подходе, наверное, могут появиться какие-то "запрещённые" значения опубликованной явки, которые нельзя получить умножением целочисленной явки на частное от деления "нарисованной" окончательной явки и фактической окончательной явки. Ну, например, если фактически на участок к 20:00 явились 10 человек, Чуров нарисовал 40, а все значения промежуточных явок домножил на 40/10, то явка 1, 2, 3, 5, 6, 7 на 10:00 у него в принципе не могла получиться, а вот 0, 4 или 8 - пожалуйста.
Нельзя ли из этого что-нибудь выжать, по аналогии с пятипроцентными пиками? Ну, например, можно было бы для каждого участка найти множество тех количеств приписанных бюллетеней, при которых одновременно возможны все опубликованные значения промежуточных явок. А потом посмотреть, укладываются ли в эти множества данные из протоколов наблюдателей.
Ну и нужно учесть разные варианты округления.
no subject
Date: 2012-01-20 05:15 am (UTC)(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-19 10:59 pm (UTC)no subject
Date: 2012-01-20 06:39 am (UTC)но тут, может, уже точности не хватает.
no subject
Date: 2012-01-20 03:10 am (UTC)no subject
Date: 2012-01-20 06:42 am (UTC)ну и на гистограмме процент за - явка тоже отлично видны 2 кластера.
(no subject)
From:no subject
Date: 2012-01-20 05:22 am (UTC)1) данные по промежуточной явке корректировались постфактум, чтобы давать естественное распределение голосов по часам. Я 4-го снял только данные по ТИКам, не по отдельным участкам. На уровне ТИКов особых расхождений не видно, но стоит посмотреть внимательнее
2) количество избирателей в итоговом протоколе подгонялось под вторую модальную явку (под сумму фактически проголосовавших и планируемых приписок, деленную на вторую модальную явку). Математически и организационно сложно, но стоит вспомнить, что многие наблюдатели отмечали, что в УИКах старательно избегали контроля за списками избирателей при подсчете количества избирателей и проголосовавших
3) масштабная карусель, охватившая примерно половину города. Мне верится с трудом
4) реальные различия в активности избирателей. Тоже верится с трудом. Непонятно, с чего эти различия могли бы привести к подобной бимодальности
no subject
Date: 2012-01-20 10:25 am (UTC)http://corbulon.livejournal.com/90781.html
no subject
Date: 2012-01-20 03:01 pm (UTC)no subject
Date: 2012-01-20 03:25 pm (UTC)У меня ответа нет. И у Максима, как я понимаю, тоже нет
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-20 07:22 pm (UTC)http://files.mail.ru/VEKNJS
сводная таблица выборов по Москве с адресами УИК и описаниями участков, в форматах ODS и CSV, сведена из данных ЦИК и мосгоризбиркома.
no subject
Date: 2012-01-20 07:55 pm (UTC)надо подмосковнику сообщить, он такие вещи коллекционирует.
no subject
Date: 2012-01-21 10:59 am (UTC)no subject
Date: 2012-01-21 12:04 pm (UTC)Кстати, на первом графике хорошо видна очередная бимодальность - изменения поддержки ЕР. А вот для явки четкая граница между двумя типами районов не видна
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-21 04:13 pm (UTC)Более того - если для каждого интервала исключить 0,5% выбросов с особо сильной явкой, то вообще нет корреляции между явкой в интервалах 8-10 и 10-12. Аналогично для 10-12 и 12-15. А для пары 12-15 и 15-18 корреляция вообще отрицательная (притом достаточно сильная - около -0,25). И между двумя последними интервалами тоже отрицательная корреляции, но уже слабая - меньше -0,1
Уточнение по методологии Вашего графика: размер суб-ансамблей постоянен, а состав?
no subject
Date: 2012-01-21 05:00 pm (UTC)В разнице бимодальности и не будет из-за коррелированности явки. То есть сначала посчитать разницу, а потом построит гистограмму - это не то, что посчитать разницу двух гистограмм. Поэтому что нет корреляции, меня сильно удивляет. Только смотреть надо корреляцию явки на 15 и 18 (например), а не разностей. Поскольку разности дадут вам изменение скорости явки.
Насчет состава я ничего сказать не могу, поскольку эта информация естественно теряется при расчете гистограммы. А гистограммы разницы меняют асимметрию со временем. И, по-моему, разница 20-18 выглядит так же, как и 12-10.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2012-01-26 06:43 am (UTC)(а) московские участки достаточно четко делятся на те, где в отдельные временные интервалы были резкие отклонения от среднего по явке (приросту явки) в большую сторону, и те, где таких отклонений не было
(б) по факту наличия или отсутствия таких отклонений можно с 80%-ной точностью "предсказать", получила ли ЕР на данном участке больше 30% голосов или меньше
(в) распределение участков с разным процентом голосов за ЕР на участки с отклонениями по явке и без отклонений показывает, что результаты ЕР до 30% - "чистые", между 30% и 39% - преимущественно "рисованные", но есть и честные, выше 39% - поголовно нарисованные
(г) средний результат ЕР по "чистым" участкам - 25-25,5%
no subject
Date: 2012-01-26 06:52 am (UTC)(а). я этого не заметил
(б). тут есть такая проблема: мы знаем, что бОльший процент явки даст больше голосов за ЕР. Для бОльшего процента явки надо иметь бОльшую скорость явки. Поэтому такая корреляция довольно тривиальна и не обладает предсказательной силой. Другое дело - смотреть на флуктуации, т.е. когда на всех интервалах времени, кроме одного, скорость маленькая, но высокий итоговый процент обеспечивается той самой флуктуацией. Однако тут я тоже ничего вдохновляющего не нарыл.
(в) интересно.
(г) --
(0) я довольно вяло комментирую ваши изыскания не потому, что они не интересны, а потому, что у меня сейчас очень мало времени.
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From: