oude_rus: (Default)
[personal profile] oude_rus
Сделал двумерные картинки по лидеру и совокупному не-лидеру(т.е. суммируются голоса за всех кандидатов, кроме лидера).
2D
Посчитал корреляцию (по Пирсону) по годам:

pearson
Слегка неожиданно то, что корееляция практически не менялась с 2003го (среднее 0.71, sd 0.007); корреляция не-лидера уменьшалась более постепенно.

Поскольку Пирсон дает среднее по палате, а тренд явно бимодальный, то посчитал средний процент для каждой явки, и сфитил получившиеся кривые функцией, состоящей из двух прямых, точка пересечения которых находится из наилучшего фита. Фит местами так себе, но дает четкую разбивку на два видных на картинке тренда: при малых и больших явках. Далее построил коэффициенты (т.е. наклон) прямых для обеих явок:
coef1
coef2
Коэффициент лидера для больших явок болтается около единицы независимо от года, создавая карайне выгодную ситуацию для лидера: больше явка - больше голосов. Для не-лидера этот коэффициент всегда отрицателен. Коэффициент же для малых явок меняет знак: так, например, небольшая положительная корреляция с явкой сменяется на отрицательную в 2012. Для не-лидера ситуация, понятно, ровно обратная -- но потом, напомню, все равно происходит перелом в пользу лидера.

Если смотреть по годам, то подобный анализ не дает никаких пороговых эффектов, хотя зрительно на двумерных картинках они вроде как видны по кометному хвосту. Непонятно только, как это дело охарактеризовать. Я пробовал смотреть по доле голосов после точки перегиба, но ничего интересного не нашел:
share

Date: 2012-12-28 05:30 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
Любопытно было бы измерить, какая часть голосов приходится на плоскую часть тренда (для которой не прослеживается существенная корреляция). Поскольку приведённые столбчатые диаграммы не различают совершенно разные случаи 2000 и 2011 гг.

Date: 2012-12-28 06:03 pm (UTC)
From: [identity profile] barouh.livejournal.com
Слова хозяина дневника - "Я пробовал смотреть по доле голосов после точки перегиба" - кажется говоря о том же самом

Date: 2012-12-28 06:16 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
Ну да, но на числа глянуть было бы интересно. Всё-таки интуитивно там должна быть зарыта достаточно важная информация.

Date: 2012-12-29 07:24 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
добавил картинку.

Date: 2012-12-29 07:49 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
О, другое дело! Сразу видна деградация - от 2000 к 2011.
2011 год, конечно, феноменален. "Ни шагу назад, позади Москва", что называется.

Date: 2012-12-29 07:53 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
мне как раз не видна.
я вижу, что до 2007 не-лидеру на больших явках ничего не обламывалось, а потом вдруг начало обламываться.

Date: 2012-12-29 08:01 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
Правильно - вброс сдвигает явку вправо, а вместе с этим и голоса не-лидера.

Date: 2012-12-29 08:09 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
логично, чё.

Date: 2012-12-28 06:06 pm (UTC)
From: [identity profile] barouh.livejournal.com
Я не очень понимаю, как сравнение по доле голосов после точки перегиба может быть неинтересным - если так сильно плавает точка перегиба (с каждыми выборами она все раньше, и только в 2012-м небольшой откат), то и "вес" второй линии должен сильно варьироваться
Впрочем, миграция самой точки перегиба ИМХО даже интереснее

А еще один любопытный параметр, который хочется понимать - это r-квадрат для каждой из двух половинок фита. 2001-ый как раз поражает почти идеальной корреляцией после точки перегиба

Date: 2012-12-29 07:53 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
добавил.

ре-квадрат считать там, по-моему, бессмысленно, поскольку модель весьма груба.

Date: 2012-12-28 06:09 pm (UTC)
From: [identity profile] barouh.livejournal.com
Ой, а как это получается, что у Путина в 2000 - четких 2 кластера, а у суммарной оппозиции - одно единое облако? Там нет ошибок в массиве данных, везде сумма по кандидатам (+против всех) равна 100%?

Date: 2012-12-29 10:56 am (UTC)
From: [identity profile] oude-rus.livejournal.com
аппазиция выела среднюю часть!

Date: 2012-12-30 04:39 pm (UTC)
From: [identity profile] barouh.livejournal.com
А если серьезно? Ведь сумма Пу и не-Пу близка к единице, и если у Пу 2 кластера, то и у не-Пу должно быть 2 зеркальных кластера - или же у голосований против всех и недействительных должно быть два очень далеко отстоящих друг от друга кластера

Date: 2012-12-30 05:32 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
Возможно, сказывается особая шкала heatmap, используемая oude_rus - центральная (зелёная) часть очень широкая и поэтому второй кластер не проявляется. Можно заметить, что второй кластер Путина очень маленький - и у оппозиции он исчезает.

Date: 2012-12-28 08:10 pm (UTC)
From: [identity profile] kobak.livejournal.com
Надо бы еще коэф корреляции для каждого года посчитать (это гораздо проще, чем то, что ты тут начал делать), для порядку.

Date: 2012-12-29 07:27 pm (UTC)
From: [identity profile] kobak.livejournal.com
Я тоже сделал. По Спирману получаются более "ожидаемые" результаты (фиг знает почему) + я еще придумал посчитать ту же корреляцию без 9 республик, и показываю таким образом на диаграмме "добавочный вклад" 9 республик в корреляцию.

corrEvolution

Date: 2012-12-29 07:48 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
вообще странно, что такое большое отличие в 2000 и 2003.

Date: 2012-12-29 07:59 pm (UTC)
From: [identity profile] kobak.livejournal.com
в 2003 появляется зачаток кластера в правом верхнем углу, это сильно увеличивает корреляцию (я так думаю).

Date: 2012-12-29 08:08 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
а посчитай пирсона, если тебе несложно, я хотел бы сравнить.

Date: 2012-12-29 08:47 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
что-то у нас результаты с тобой очень сильно расходятся.
это посчитано по сходным (как наверху) диаграммам? с количеством голосов "за" как весовым фактором?
или ты считал напрямую по уик?

Date: 2012-12-29 10:56 pm (UTC)
From: [identity profile] kobak.livejournal.com
Это по участкам посчитано.

Date: 2012-12-30 04:15 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
а я считаю с весами в виде голосов.
я щитаю, что так правильнее -- иначе маленькие участки на себя все перетянут.

Date: 2012-12-30 04:28 pm (UTC)
From: [identity profile] kobak.livejournal.com
В "статье" мы в итоге так и не сделали взвешивание, если мне память не изменяет.

Взвешивать участки, кстати, можно по числу голосов за лидера, а можно по общему числу бюллетеней. Тоже еще вопрос, как правильнее. Скорее второе, на мой вкус.

Date: 2012-12-29 07:41 pm (UTC)
From: [identity profile] kobak.livejournal.com
Вот можно даже так:

corrEvolution

Насколько это полезное представление, не знаю (но я хотел единообразность придать). Может, посчитать еще долю голосов в правом верхнем углу? Типа за 90, 90.

Date: 2012-12-29 07:44 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
тут получается немного неясно, поскольку то ли синий с зеленым аддитивен, то ли нет.
я эту проблему решил путем варьирования ширины столбца: если одинаков, то аддитивен, если нет -- то нет (получается один столбец внутри другого).

посчитать 90х90 - это отличная идея, я тебя как раз хотел попросить. Так же как и раньше, ладно, с разбиением на 9 и остальных.
Edited Date: 2012-12-29 07:45 pm (UTC)

Date: 2012-12-29 07:58 pm (UTC)
From: [identity profile] kobak.livejournal.com
Ну как "аддитивен"... Корреляция для города+села, конечно, не равна сумме корреляция для города и села. Но корреляции для города+села всегда выше, чем только для города, поэтому имеет смысл изображать разницу -- это и есть зеленый цвет.

Date: 2012-12-29 08:04 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
то есть получается, что львиная доля корреляции приходит с 2008 из городов?
ну нифигажсебе.
и никакие веб-камеры в 2012 не помогли.
не нравится мне это.

Date: 2012-12-29 08:12 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
Почему не помогли? Столбик-то пониже стал. Но на примере СПб мы знаем, что веб-камеры действительно не всегда помогают (особенно если их нет - как было на фантомных участках).

Date: 2012-12-29 08:16 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
ну это слезы как помогли.
кстати, по 2012 можно посчитать и без фантомных участков, это дольно быть несложно -- если Дима согласится.

Date: 2012-12-30 04:48 pm (UTC)
From: [identity profile] barouh.livejournal.com
Все же имхо некорректно определять это как "львиную доля" - тут все же не сумма элементов

Весьма вероятно, что если считать только сельские и смешанные ТИКи, то там корреляция окажется еще выше, чем для "без 9 республик"

Ну и еще стоит отметить, что в 2004-м корреляция по городам почти такая же сильная, как по город+село

Date: 2012-12-29 07:58 pm (UTC)
From: [identity profile] kobak.livejournal.com
Всё для вас!

secondclusterEvolution

Date: 2012-12-29 08:00 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
ой.

а скока они приносят не-лидеру, это тоже интересно.
Edited Date: 2012-12-29 08:17 pm (UTC)

Date: 2012-12-29 08:34 pm (UTC)
From: [identity profile] kobak.livejournal.com
Нискока! У нелидера не бывает больше 90%.

Date: 2012-12-29 08:49 pm (UTC)
From: [identity profile] oude-rus.livejournal.com
даже у совокупного?
даже в 2003?

Date: 2012-12-29 10:55 pm (UTC)
From: [identity profile] kobak.livejournal.com
У совокупного в 2003 там 30000 голосов. В масштабе диаграммы, на которой голоса лидера изображаются, это выглядит как 0.

Date: 2012-12-29 08:04 pm (UTC)
From: [identity profile] nonenoun.livejournal.com
"Фазовый переход" 2003->2004 чудесен. Не перестаю удивляться. :)
Page generated May. 25th, 2026 07:37 am
Powered by Dreamwidth Studios