Na rozcvičení si zkusíme prohlédnout výsledky kontroly v případě, že by přetřídění bylo náhodné.
K tomu potřebujeme namodelovat sadu petičních archů, které co nejlépe odpovídají té reálné, o níž jsou naše vědomosti neúplné. Na
vychytávkyjako Poissonovo rozdělení raději hned zapomeňme, chyby na arších jsou všechno, jen ne nekorelované.
Z ministerských rozhodnutí a ze sekvencí, které jsme obdrželi, známe polohy všech neúplných podpisů, vyřazených v prvním kole (v programu jim budeme říkat tvrdé chyby), a u obou vzorků rovněž polohy podpisů, vyřazených ve druhém kole (měkké chyby). Od měkkých chyb budeme lišit ještě duplicity, s nimiž budeme při modelování zacházet odlišně.
Nejprve si opravíme několik drobných chyb v databasi a vygenerujeme z ní soubor error1.csv, obsahující záznamy z rozhodnutí, v pořadí vzorek, čárový kod, číslo řádku, a 0/1 podle toho, jde-li o duplicitu. Je-li vzorek nulový, jde o tvrdou chybu, jinak je zachycena chyba měkká.
S tím se můžeme pustit do modelování. Celý program je zde, komentovat budu pouze jeho zajímavé části.
Petiční archy budeme representovat objekty třídy
Sheet
. Rekonstruujeme si jen ty archy, které byly v některém vzorku. O nich víme vše, s výjimkou toho, kolik podpisů obsahují. Známe nejvyšší číslo řádku, na němž byla chyba (tvrdá nebo měkká), ale ne, kolik dalších bezchybných podpisů se na archu nachází.Nejrozumnější, co můžeme udělat, je vzít celkový počet
přebytečnýchpodpisů a archům je náhodně přidělit tak, aby vzorky měly každý 8 500 podpisů. To provedeme takto:
Na řádku 54 inicialisujeme generátor pseudonáhodných čísel, aby výsledky byly reprodukovatelné. Zajímavý je rovněž řádek 64, kde odstraňujeme poslední archy z obou vzorků. Důvodem je, že u nich nám rozhodnutí nedávají kompletní informaci o chybách, a i když by to představovalo jen drobnou nepřesnost, můžeme se jí snadno vyvarovat tím, že s posledními, neúplně ověřenými archy ve vzorku pracovat nebudeme.
Základem našeho modelu je představa, že se celý soubor petičních archů skládá z archů se stejnou strukturou chyb, jako mají tyto rekonstruované. Z nich budeme archy náhodně vybírat a vytvářet si tak vzorky, které by mohly být ze souboru náhodně vybrány. Vždy vypočítáme, jak by výběr pro kandidáta dopadl. A abychom i zde redukovali problém posledního archu, nepoužijeme pro dělení 8 500, nýbrž skutečný počet podpisů na vybraných arších.
Abychom měli co nejbohatší základní soubor archů, použijeme i duplicity, avšak pro dosažení co nejvyšší přesnosti budeme započítaný počet duplicit korigovat (v prvém vzorku koeficientem 0,5, ve druhém 1,5).
Výsledek výpočtu je zde. Provedli jsme 25 pokusů a vidíme, že rozdíly jsou ve stovkách podpisů, nikoli v tisících, které by Vladimír Dlouhý i Tomio Okamura potřebovali (a nedostaneme se u nich na 50 000, jak jsem ověřil, ani v případě deseti tisíc iterací).
Tudy zjevně cesta nevede…
Naše třídění ovšem nemusí být náhodné; postačí, bude-li se tak tvářit.
Namodelujme si takovou situaci (program).
Začneme podobně jako v předchozím případě, ale vytvořenými petičními archy vyplníme skutečný seznam, který budeme zdánlivě nahodile, po stovkách, přetřiďovat, sledujíce při tom, zda se nám podaří se s výsledkem
pohnoutvíc než při nahodilém třídění.
Nejprve si
namíchámepočáteční, skutečně pseudonáhodné uspořádání:
Poté budeme pseudonáhodně přehazovat jednotlivé stovkové fragmenty, avšak permutaci přijmeme pouze tehdy, pokud vedla k pohybu žádoucím směrem:
A hle, co nám program ukázal v případě Tomio Okamury. Stačílo dvacet iterací, a jsme tam, kde jsme potřebovali být, aniž by byla naše manipulace komukoli patrná! U Vladimíra Dlouhého je potřeba o pět iterací víc, ale i tam je sestavení vhodné sekvence otázkou několika sekund. Pokud budeme trpěliví a vydržíme čekat několik minut (rychlost výpočtu se s klesající pravděpodobností positivní změny snižuje), dostaneme u T. Okamury téměř 53 000 podpisů a u V. Dlouhého 52 000.
Jistěže by šlo algorithmus obrátit a Vp naopak podle, jak říká Okamura, politické objednávky, snižovat.
Ačkoli jsme se pohybovali spíš na úrovni proof of concept, výsledek je zcela přesvědčivý, a je jím plně odůvodněn závěr, že zdánlivě nahodilé přetřídění petičních archů po stovkách umožňuje manipulaci s výsledky takovou měrou, že výsledný počet platných a ověřených podpisů může variovat ve velmi širokém rozpětí; tímto způsobem lze, bez risika prozrazení, ovlivnit, který z kandidátů bude registrován a který odmítnut.
Zda jde o podvod, stále bezpečně nevíme, nicméně jsme nuceni konstatovat, že to, co Henychovi lidé provedli, jako podvod čím dál víc vypadá. Jak že to napsali soudci Nejvyššího správního soudu? Transparentní a podrobně zdokumentovaný postup odpůrce! Jako vtip skutečně zdařilé…
Komentáře
JM.
Yossi
pokud by náhodou ve druhém kontrolním vzorku byla potom chybovost menší než 3%, potom by se uplatnila věta z odstavce č.6 -
"Zjistí-li Ministerstvo vnitra, že druhý kontrolní vzorek vykazuje chybovost u méně než 3 % občanů podepsaných na petici, nezapočítá Ministerstvo vnitra občany z obou kontrolních vzorků ...."
Tzn. že by se poté odečetlo všech 17000 hlasů? Toho si nikdo nevšiml?
Navíc je otázka, jestli se druhý vzorek nemá počítat jako (počet chyb) / (podpisů na petici celkem). Ale to by mohlo uškodit dalším kandidátům.
Sám jste správně zmínil, že OČTŘ je fakticky nemožné o tom přesvědčit. Kdo z nich na střední pochopil alespoň základy statistiky? Nemluvě o tom, že leta ji nepoužívali a už si nepamatují asi vůbec nic...
Právník který bude chtít obhájit stát si vyžádá expertýzu slabých míst a hned je má. Sám si to evidentně uvědomujete. Cituji:
* Na "vychytávky" jako Poissonovo rozdělení raději hned zapomeňme, chyby na arších jsou všechno, jen ne nekorelované.
* Základem našeho modelu je představa, že se celý soubor petičních archů skládá z archů se stejnou strukturou chyb, jako mají tyto rekonstruované.
Jinými slovy, archy mohou vypadat doslova jakkoli a tvrzení proti může klidně i znít: stát to přerovnal tak, aby jim co nejvíce pomohl. Dokud se skutečně nepřekontroluje vše, lze v tomto stavu tvrdit cokoli.
Tentokrát je to první volba, dalo by se nad tím snad říci dětské nemoci a do příště to vychytají. Ale nevěřím. Poslaneckou sněmovnu a senát o tom nepřesvědčí již vůbec nic...
Martin Prokš
Zajisté máte pravdu, že model byl ovlivněn některými nutnými předpoklady, které nemusejí být v souladu s realitou, avšak tvrdím, že je to maximum, které lze v tuto chvíli učinit. Což na druhou stranu neznamená, že by nebylo možné získat další cenné údaje z jiných analys, např. ze statistického otestování vztahů mezi prvním a druhým vzorkem (objevila se tvrzení, že druhé vzorky obsahovaly staticky významně větší počet chyb než první, což by se dalo exaktně prověřit).
RSS kanál komentářů k tomuto článku