Хелп, пардон, нидед
Dec. 20th, 2012 11:12 pmДля тех, кто интересуется статистикой.
На картинке внизу попытка восстановления голосов на целочисленных пиках явки (2008 здесь как наиболее показательный, для отработки методики). Алгоритм восстановления стандартный: берутся по два значения справа и слева от пика, усредняются и вычитаются из величины пика. В итоге получается средний график с выбросами на целочисленных значениях. Третий грфик - интеграл от пиков, т.е. аккумулированные в пиках голоса при данной явке -- очень удобный для сравнения.

(обратите внимание на разную шкалу по оси Y: 1.75 - это такое магическое число, при которомправые левые стороны распределений голосов vs явка становятся одинаковыми)
Голоса за лидера накопливаются скачками (коричневая кривая), но это мы и так знаем. Проблема же вот в чем: суммарные голоса за не-лидера тоже накапливаются скачками (фиолетовая кривая). Причем где-то до 75% явки эти голоса вполне скалируются с лидером, с магическим коэффициентом 1.75. Я проверил также вклады Зюга и Жирика, они вполне скалируются с фиолетовой кривой, и дают ее в сумме (про Богдана можно забыть).
Как такое может быть в парадигме, что пики явки соответствуют желанию выдать на-гора красивое число?
1. Члены избиркома, добросив (это предположение такое) столько-то бюллетеней до красивого процента, мусоля карандаш, перераспределяют доброшенные голоса пропорционально между кандидатами -- иначе пик голосов был бы только на одном кандидате. Как-то в этот карандаш тяжело поверить.
2. Добрасываемые голоса засчтываются за определенную партию согласно желания избиркома. То есть, иными словами, где-то добрасывают за ер, а где-то - за комми. В итоге получается среднее по палате. Ну а после 75% явки крышу конкретно срывает, и там добросы идут за одного кандидата.
3. Есть какая-то неучтенная систематическая фигня. Какая?
Вопрос: что вы думаете по этому поводу? и как вообще можно проверить разные сценарии? у меня есть пара идей, но я хотел бы прежде выслушать общественость.
Давайте, не стесняйтесь.
На картинке внизу попытка восстановления голосов на целочисленных пиках явки (2008 здесь как наиболее показательный, для отработки методики). Алгоритм восстановления стандартный: берутся по два значения справа и слева от пика, усредняются и вычитаются из величины пика. В итоге получается средний график с выбросами на целочисленных значениях. Третий грфик - интеграл от пиков, т.е. аккумулированные в пиках голоса при данной явке -- очень удобный для сравнения.

(обратите внимание на разную шкалу по оси Y: 1.75 - это такое магическое число, при котором
Голоса за лидера накопливаются скачками (коричневая кривая), но это мы и так знаем. Проблема же вот в чем: суммарные голоса за не-лидера тоже накапливаются скачками (фиолетовая кривая). Причем где-то до 75% явки эти голоса вполне скалируются с лидером, с магическим коэффициентом 1.75. Я проверил также вклады Зюга и Жирика, они вполне скалируются с фиолетовой кривой, и дают ее в сумме (про Богдана можно забыть).
Как такое может быть в парадигме, что пики явки соответствуют желанию выдать на-гора красивое число?
1. Члены избиркома, добросив (это предположение такое) столько-то бюллетеней до красивого процента, мусоля карандаш, перераспределяют доброшенные голоса пропорционально между кандидатами -- иначе пик голосов был бы только на одном кандидате. Как-то в этот карандаш тяжело поверить.
2. Добрасываемые голоса засчтываются за определенную партию согласно желания избиркома. То есть, иными словами, где-то добрасывают за ер, а где-то - за комми. В итоге получается среднее по палате. Ну а после 75% явки крышу конкретно срывает, и там добросы идут за одного кандидата.
3. Есть какая-то неучтенная систематическая фигня. Какая?
Вопрос: что вы думаете по этому поводу? и как вообще можно проверить разные сценарии? у меня есть пара идей, но я хотел бы прежде выслушать общественость.
Давайте, не стесняйтесь.
no subject
Date: 2012-12-20 10:31 pm (UTC)no subject
Date: 2012-12-20 10:33 pm (UTC)no subject
Date: 2012-12-21 07:05 pm (UTC)no subject
Date: 2012-12-20 10:35 pm (UTC)по одной оси высота пичка лидера, по другой оси - всех остальных.
Точек будет столько же, сколько и пиков, но можно посмотреть кривую и прикинуть корреляцию величин.
no subject
Date: 2012-12-20 10:42 pm (UTC)no subject
Date: 2012-12-20 10:52 pm (UTC)no subject
Date: 2012-12-21 06:53 am (UTC)no subject
Date: 2012-12-21 08:08 am (UTC)(Это 2008г, 5% бин)
Только нужен не вице-лидер как у меня, а как у тебя - все остальные.
И точки не через 5%, а через один.
no subject
Date: 2012-12-21 06:15 pm (UTC)no subject
Date: 2012-12-21 06:22 pm (UTC)Но надо подумать о том, надо ли сравнивать одинаковые проценты, например по 80%?
Может быть как раз надо сравнивать 80% лидера и 20% остальных?
Вот и думаю...
no subject
Date: 2012-12-21 07:09 pm (UTC)no subject
Date: 2012-12-20 10:39 pm (UTC)Разве не так?
no subject
Date: 2012-12-20 10:41 pm (UTC)откуда, если по оси Y откладываются голоса, и вброс голосов идет только за лидера?
no subject
Date: 2012-12-20 10:49 pm (UTC)Теперь происходит вброс: на одном участке с низкой явкой в 20% добрасывают за лидера до явки в 75%. По честному там 100 бюллетеней за лидера и 100 за конкурентов. Должны добросить до 750 бюллетеней, т.е. вбрасывают 550 за лидера. У него получается 650 бюллетеней, за конкурентов остается 100.
Т.е. на твоей гистограмме на 75% на диаграмме за лидера появится пик высотой в 650 бюллетеней, но на диаграмме за конкурентов тоже появится маленький пик высотой в 100.
Что не так?
no subject
Date: 2012-12-20 11:36 pm (UTC)no subject
Date: 2012-12-20 11:40 pm (UTC)no subject
Date: 2012-12-21 06:57 am (UTC)то есть для озабоченности нет причин?
и еще вопрос: а что из этого можно вытащить? например, график за других кандидатов линеен, а за лидера - нет. Может это быть следствием больших перемещений по процентам?
Что не так?
Date: 2012-12-21 12:49 pm (UTC)Я думаю, что до 75% имела место реальная "мобилизация вверенного электората", каковой приходил, как просили, но голосовал как хотел, обспечивая наблюдаемые пики за конкурентов. Потом переходный диапазон 75-85%, когда на долю "мобилизации" приходился все более убывающий процент, а потом уже начиналось превалирование беспредела с географическим адресом (-ами).
no subject
Date: 2012-12-21 11:53 pm (UTC)no subject
Date: 2012-12-22 10:46 am (UTC)Если бы пики образовывались за счет вброса голосов за одного кандидата, распределение голосов в этих пиках было бы смещено в его пользу
no subject
Date: 2012-12-21 03:44 pm (UTC)Сохранение пропорции было бы нормальным, если бы явку завышали чуть-чуть, "округляли" - в этом случае небольшое количество добрасываемых бюллетеней не влияли бы существенно на проценты кандидатов. Но мы же знаем, что весь правый хвост высокой явки по большей части ненормальный, и что круглая явка в основном получалась за счет масштабных вбросов
no subject
Date: 2012-12-21 11:53 pm (UTC)no subject
Date: 2012-12-20 10:51 pm (UTC)но вроде
Date: 2012-12-20 10:53 pm (UTC)no subject
Date: 2012-12-20 10:59 pm (UTC)Там тоже пички
no subject
Date: 2012-12-21 06:58 am (UTC)no subject
Date: 2012-12-21 08:17 am (UTC)no subject
Date: 2012-12-21 08:21 am (UTC)no subject
Date: 2012-12-21 08:42 am (UTC)no subject
Date: 2012-12-21 07:15 pm (UTC)это же и есть суммарные голоса (почти), которые я уже разбирал.
ну да, в них есть пики.
no subject
Date: 2012-12-21 07:23 pm (UTC)no subject
Date: 2012-12-21 02:15 am (UTC)Проведённая работа показывает куда они были приписаны и даже позволяет их оценить.
Но есть один нюанс.
В высокоявочные бины были приписаны УИКи из относительно низкоявочных бинов.
Поскольку последние выбирались случайно (точнее - они были распределены по низкоявочным бинам случайно), то и провалов мы не наблюдаем. По сути проседание это размазано.
В результате методика восстановления более менее откинула из высокоявочных бинов приписные голоса - но в большинстве своём вместе с настоящими, которые должны были бы находиться в относительно низкоявочных бинах. Одновременно она не смогла вычислить "пропажу" голосов (вместе у УИКами) из низкоявочных бинов. Что тут можно поделать чтобы компенсировать этот эффект, связанный со "случайным" изыманием и неслучайной припиской - пока слабо соображаю, но напрашивается что-то довольно трудоёмкое, с отсылкой на относительные голоса за кандидатов, вычисление количества (абсолютного и/или относительного) УИКов с приписками, и пропорционального перемещения части голосов из высокоявочных бинов в низкоявочные.
Если же попытаться оценить как-нибудь по-простому, то например, можно предположить что средняя нижнего левого графика должна быть около нуля. Если предположить, что "остальные" остались при своих голосах, им не приписывали и у них не отписывали, либо результат обоих процессов более-менее компенсировал друг-друга.Тогда можно оценить на сколько следует прибавить к низкоявочным бинам и на сколько и с какой явки приписывали. На глаз - где-то около 0.2 млн.
Ну а дальше в голову опять приходят какие-то мудрёные методы восстановления формы распределения. Не могу отделаться от ощущения, что тут не хватает многомерных графиков. :)
UPD. Ерунду спорол. :) Нижний-же интегральная оценка. И кстати, провалы небольшие всё-таки видны.
Так вот если среднее среднего правого графика привести к нулю и (чтобы итог последнего графика пришёл к нулю), то получившееся отклонение можно бы и наложить на первый график.
PS. После того как исполнители вместо приписки до определённых процентов станут просто накидывать какое-то количество бюллетеней, "зубы" рассосутся и вычистить что-либо будет горааздо сложнее.
no subject
Date: 2012-12-21 03:49 am (UTC)А их и не надо вычищать. Зубы - это лишь статистически значимый признак фальсификаций, очистка ведётся другими методами. Например, анализируя СКО и корреляцию по методу barouh:
http://trv-science.ru/2012/02/28/sto-vosemdesyat-chestnykh-gorodov
Или можно сравнить результат на КОИБ и соседних участках. Понятно ведь, что круглый процент рисуют на небольшой доле участков - чаще просто перебрасывают сотню-другую бюллетеней от одной партии к другой.
Кстати, стоит сказать спасибо "рисовальщикам" круглых чисел - именно благодаря им мы имеем надёжные доказательства массовых фальсификаций :)
no subject
Date: 2012-12-21 05:10 am (UTC)Человек мусолит не карандаш, а клавиатуру, вводя в систему красивые данные. Отсюда и круглые числы у претендентов. Нарисовав 75 лидеру остальные проще расписать как 15 и 10 (к примеру). Думать не надо. А вот если напишешь за одного 23.71, то о втором крен посчитаешь.
Кстати, давно хочу спросить. А у количество голосов на участке есть пики на круглых значениях? То есть участков где проголосовало тысячу человек больше, чем тех, на котором проголосовало 817?
no subject
Date: 2012-12-21 06:51 am (UTC)Разумеется. corbulon эту тему вдоль и поперёк исследовал:
http://trv-science.ru/2012/03/13/pro-arifmetiku-i-nemnozhko-pro-vybory
no subject
Date: 2012-12-21 07:23 am (UTC)no subject
Date: 2012-12-21 10:56 am (UTC)1. Из УИКа звонят: "У нас получается явка 73,4%", "Ну вы хотя бы до 75% дотяните". Они вбрасывают еще 1,6 п.п., но это немного и на общее распределение голосов мало влияет.
2. Заранее требуют (или сами принимают повышенные обязательства) набрать 80 (85, 90 и т.д.) % явки. А реально явка процентов 50, тогда вбрасывается 30 п.п. и все (почти все?) за Медведева.
При этом:
- высокая "некруглая" явка тоже в основном липовая, но сделанная не такими идиотами, и, возможно, образованная меньшими приписками, т.е. 85,0% делалось, к примеру, из 45% в среднем, а 83,6% - из 55%.
- эти якобы "честные" 73,4% или 50% тоже включают в себя фальсификации, но те, кто меньше приписывал явку,
меньше приписывал и голоса Медведеву.
no subject
Date: 2012-12-21 11:46 am (UTC)В частности, по сообщениям с мест, голоса за "неугодных" перебрасывали на победителя и коммунистов. С высокой точностью попадания в круглое число. (Что бы там не говорили защитники образования, посмотреть, что голоса распределились правильно, председатели могут только на достаточно правильном распределении. С количеством бюллетеней даже они понимают, а вот на красивость процентов внимания не обращают)
Я бы вообще выкинул пики и построил графики отдельно без них, а отдельно построил бы график только для пиков.
no subject
Date: 2012-12-21 01:35 pm (UTC)no subject
Date: 2012-12-21 02:52 pm (UTC)Две точки справа -- это значения функции в точках -0.4% и -0.2%, т.е. если в интервалах - то -0.5..-0.1%.
Пик считается шириной в 1 бин. Для 1%-пиков это нормальное приближение (на Фурье видно, что они прекрасно вычищаются). Для 5%-пиков - так себе (по Фурье опять-таки). По графику видно, что острые пики вычищаются, но остаются, как я их называю, "релаксационные осцилляции" (это из лазеров): на 5% идет подъем, а потом постепенная релаксация шириной где-то около процента.
Я пробовал подавлять также пики на 5% плюс бин -- разница есть, но небольшая.
no subject
Date: 2012-12-21 03:47 pm (UTC)Как гипотеза: а что если единственное реальное число - это количество проголосовавших, а списочную численность и явку подгоняли под эту цифру? Типа, у нас есть 350 бюллетеней, а с нас требуют явку 70% - так напишем, что всего избирателей 500...
Предположение безумное, но мало ли
А можно попросить график - доля голосов за "других" по бинам?
И конечно не терпится увидеть аналогичные картинки по другим выборам
no subject
Date: 2012-12-21 06:20 pm (UTC)по другим выборам все будет, но требует времени. Я же не скрипты пишу, а ручками все делаю.
no subject
Date: 2012-12-21 07:07 pm (UTC)