Důležité upozornění!

Policie České republiky se zajímá o IP-adresy osob, které komentují tento blog. Ve vlastním zájmu zde proto nic nepopírejte, nezpochybňujte, neschvalujte, neospravedlňujte, nikoho a nic nehanobte, nepodporujte a nepropagujte, a pokud se přesto rozhodnete komentář přidat, pak se, prosím, ničemu nedivte.

V dávných dobách, kdy bylo obyvatelstvo požehnaně negramotné, existoval institut člověka s bubnem nebo trubkou, který, kdykoli veřejná moc (dobově zvaná vrchnost) pocítila potřebu cokoli právně relevantního poddanému lidu intimovat, vyšel na prominentní místo v obci, tam svým nástrojem vzbudil pozornost davu a přečetl, co mělo být sděleno. Pro ty, kteří sdělení nemohli být přítomni, se písemná podoba zvěsti vyvěsila na vhodné místo, a tak vznikla úřední deska, právní zařízení, jež v prakticky nezměněné formě existuje dodnes.

Existuje, a funguje čím dál hůř. Jednak je nemyslitelné, aby si každý přečetl, co je tam umístěno, už jen kvůli mnohosti těchto desek, jednak se vrchnost prakticky přestala starat o to, aby se zpráva dostala k adresátům, a v mnoha případech, např. u vyhlašovaných dražeb, je to přímo nežádoucí: mezi kamarády se draží laciněji a hladčeji. Z úřední desky, zařízení kdysi užitečného, se stalo alibi.

To se mohlo změnit v době elektronické, jenže elektronické úřední desky jsou stejně nepřehledné jako ty dřevěné a nikdo je nečte a ani číst nemůže.

Sledování úředních desek soudů a státních zastupitelství jsme zařadili do našeho systému legal.pecina.cz: oficiální aplikace ministerstva spravedlnosti infoDeska je k ničemu, protože se v ní nedá vyhledávat ani podle jména osoby, ani podle jiných kriterií. My všechny dokumenty ukládáme na server a zároveň předvádíme do textové podoby, v cca 3 % případů, kdy jsou vystavovány skeny, pomocí OCR, takže se dá vyhledávat fulltextově a bez potíží.

Problémem je, že zatím zřejmě nebudeme schopni uložit celou historii, kterou infoDeska nabízí, neboť server, na němž náš systém běží, nám poskytuje sponsorsky společnost NETHOST, a jeho kapacita je pro daný účel nedostatečná. Protože je legal.pecina.cz bez reklam, nemáme ani žádné příjmy, ze kterých bychom případný nákup nebo pronájem hardwaru/prostředků v cloudu hradili.

Komentáře   

0 # Mormegil 2017-08-31 09:54
Není to stejná funkcionalita, o kterou se snaží edesky.cz?
0 # Tomáš Pecina 2017-08-31 11:11
Ano, víceméně.

Kdybych měl dost hardwaru, nahrál bych tam všechny dokumenty od r. 2009.
0 # Anonymní 2017-08-31 13:16
Úniky ze spisů jsou stále častější. Loni jich GIBS šetřila dvaapadesát
ceskatelevize.cz/.../...

Sněmovní komise k únikům ze spisů dokončila výslechy
www.ceskenoviny.cz/.../1520831

A co na to předseda Ústavního soudu ČR?

strana 61:

P. R.: ... Zrovna nedávno se ke mně v samoobsluze nějaký člověk živě hlásil: „Já začínal jako právník v Bílé labuti u vašeho tatínka. On mě učil krást ze spisů!“

T. N.: * Co že ho prosím učil?

P R.: Patrně šli spolu studovat spis na soud a nevýhodné listiny odstranili...

zdroj:
Pavel Rychetský, Tomáš Němeček: Diskrétní zóna. Praha: Vyšehrad, 2011.
0 # gogo 2017-08-31 13:52
Kolik je potřeba peněz jednorázově a kolik na provoz v případě full verze?
0 # Tomáš Pecina 2017-08-31 14:06
Potřeboval bych server s několika TB prostoru na archiv dokumentů, a zřejmě i s rychlým SSD na dababasi.
0 # Anonymní 2017-08-31 15:08
Jak velký by měl být SSD? Nedal by se nahradit dostatečnou pamětí? Debian/Ubuntu OK? RAID (zrcadlo)? G1610 ok?
Stačila by linka 100Mbit full duplex?
0 # Tomáš Pecina 2017-08-31 17:10
To si můžeme snadno spočítat. Justice produkuje cca 1.000–1.500 vystavených dokumentů za jeden pracovní den (s úvahou toho, že teď ještě končí dovolené), tzn. 30 tisíc dokumentů měsíčně, 360 tisíc ročně. Každý zabere v průměru 150 KB, počítejme, že dřív bylo víc scannovaných, tedy raději vezmeme 300 KB/dokument.

Tzn. data za jeden rok vyžadují cca 100 GB úložného prostoru.

Na rychlé úložiště nebo cache v RAM je náročný pouze fulltextový index. Ten v současné chvíli zabírá cca 7 KB na soubor, takže ročně by to bylo cca 2 GB.

Chtěl-li bych mít na serveru data za 10 let, tedy celý archiv infoDesky, potřeboval bych 1 TB diskového prostoru a 20 GB rychlé SSD nebo ještě lépe RAM na indexy. To není nedosažitelné, jen je to drahé: můj server má nyní 8 GB RAM a 300 GB HDD, bez SSD.
0 # Tomáš Pecina 2017-08-31 17:35
Spíš jsem měl ta čísla znásobit dvěma: vidím, že minulou středu bylo těch dokumentů 1.805
0 # Anonymní 2017-08-31 18:13
300/mesacne pravidelne ponukam, -prida sa dalsich 9?
0 # Tomáš Pecina 2017-09-01 07:33
Děkuji, kdo má zájem přispět, nechť mne laskavě požádá mailem o číslo účtu.

Slibuji, že pokud se nesejde dost peněz na nájem nového serveru, výtěžek na počest zmařeného projektu poctivě propiji.
0 # Anonymní 2017-09-01 11:42
pozeram, ze ked sa ma prilozit ruka k dielu tak kazdy zrazu zmizne ako gafor. no, klasika. na zdravie! :D
0 # Tomáš Pecina 2017-09-01 12:14
Není to tak zlé, už se ozval s nabídkou první sponsor.
0 # Tomáš Pecina 2017-09-05 10:05
V tuto chvíli mám k disposici sponsorské prostředky zhruba na tři měsíce provozu server ve variantě "nájem" a zároveň testuji VPS, nabízený sponsorem, který ale, jak se předběžně jeví, nebude stačit.

Příliš se mi za této situace nechce jít do žádné "větší akce", protože by to znamenalo, že si pronajmu server a počínaje čtvrtým měsícem ho budu muset platit ze svého, cca 3-3,5 tisíce korun měsíčně. Lepší by bylo sehnat peníze na hardware, k tomu ale momentálně dost chybí. Velmi proto uvítám jakékoli další finanční příspěvky, číslo účtu sdělím e-mailem.

Sponsorům, dosavadním i potenciálním, děkuji.
0 # Anonymní 2017-09-05 14:31
cena hw?
0 # Tomáš Pecina 2017-09-05 21:31
Úplně předběžně 50 kKč.

Řeším teď hlavně, čím indexovat. Domníval jsem se, že si vystačím s fulltext indexem pgSQL, ale zjistil jsem, že vůbec nezvládá hledání frase (A <-> B), což je pro tuto aplikaci zcela zásadní: nejčastěji se v dokumentech bude hledat konkrétní osoba, takže jméno následované příjmením. To by nevyřešil ani extremně silný server, podle všeho se mi jeví, že to developeři pgSQL naprosto dokopali.

Alternativou je externí indexer; momentálně zkouším Sphinx. Až ho zprovozním, uvidím, jak je na tom s rychlostí. Podle toho se dá určit, zda je možné mít index na SSD nebo je potřeba držet mít dostatek RAM, aby mohl být celý v cachi.
0 # Anonymní 2017-09-07 00:26
Na tu ulohu, kterou popisujete bohate dostacuje PC za 15K + 15K disky mozna dalsi 5K pamet...1-2K energie rocne, net doma mate, verejna IP 1K rocne navic. Nejakym 4TB diskem mohu prispet.
0 # Tomáš Pecina 2017-09-07 03:15
Takové řešení je nemyslitelné už kvůli objemu dat, potřebnému pro načtení historie úředních desek. Webserver jsem měl doma v letech 2005–9, pod stolem, a vím, o čem mluvím.
0 # Anonymní 2017-09-07 18:50
D805 propadak uz pred 10 lety, 95W, uz s velmi levnym 15W J1900,16GB RAM a DC napajenim, je trochu vedle.
Nevim, tak jak jste popisoval ulohu, melo by vyhrazene pasmo 10-15Mbit bohate stacit coz v dobe 100-500Mbit nic neznamena.
I tak Vam popreji sponzory sustici papirkama.
0 # Tomáš Pecina 2017-09-07 19:52
Nekomentujete občas taky na Rootu? :-)

Servery jsou obecně dražší než desktopový (spotřební) hardware, ale taky několikanásobně déle vydrží. Můj současný je téměř 10 let starý, přesto bezproblémově provozovatelný; normální počítač by byl za tu dobu bezpečně ve šrotu, spíš dvakrát. Další náklady představuje zdvojení všech disků, protože bez RAIDu by server s podobnou aplikací provozoval jen šílenec.

Co se týká přenosového pásma, pokud chci mít data z úředních desek na serveru za několik měsíců a ne let, musím denně přenést cca 10 GB, a to jen v noci, abych zbytečně nezatěžoval zdrojový server. Zkuste si to, milý odborníče, pár dní z domácí xDSL linky, co tomu váš ISP řekne.
0 # Anonymní 2017-09-07 20:19
A tak ISP tomu neřekne celkem nic, jen bude ten server na <dámské přirození na 4>, protože s uplinkem v řádu jednotek Mbps se nic takového provozovat nedá.
0 # Anonymní 2017-09-09 22:16
Servery vs desktop:
- servery nejsou o tom, ze se nepokazi, ale ze dodavatel umi komponentu vymenit po jistou dobu - obvykle 5 let
- co se tyce desktopu, bezne vydrzi 10 i 12 let 24x7, cena je jinde
- hw raid nevnimam, jako vyhodu(ten kdo data z toho zachranoval vi sve), napr. ZFS resi daleko vice

Co se tyce internetu:
- tak opravdu jsem necekal, ze jedete na necem xDSL v ceske verzi, jinak VDSL3 je trochu jine kafe, to mi i moje wifi dava 30/30 a muj provozovatel dostal zaplaceno a k provozu se nema co vyjadrovat. Patrne jste si spatne vybral ISP ci pri Vasem charakteru musite byt v opravdu nuzne lokalite
- mel jsem za to, ze data uz mate a stahujete jen denni prirustky, ne ze jste ve stavu downloadu

Je tu dale mozno mit svuj server/virtual u ruznych neziskovek, jen za naklady...
0 # Tomáš Pecina 2017-09-10 00:40
Stahovat dokumenty budu ještě několik měsíců.

Vaše představa, jak provozovat server doma, je arci revoluční. Její technické důsledky raději nebudu komentovat, jen ve zkratce: bandwidth, latence.

ZFS na jednom disku je opravdu bezpečné řešení, asi tak, jako kdybyste na něm měl RAID. Pobavil jste, jen přidávejte!
0 # Anonymní 2017-09-10 20:53
Provozuji a na amaterske sluzby staci, latence 10ms, sirku pasma jsem sdelil a take staci. Neco umi vyresit HTB, pripadne provozovat doma jen DB a data - na stavajicicm serveru mit cache a web.
Nemohu za to, ze podporujete pokracovatele telecomu(at je distribuce uctovana kymkoliv) a neumite si zaridit slusnou sluzbu. Pravda na telekomackych xDSL bych to take neprovozoval.

Kdo psal o RAIDu na jednom disku? To je nejaky smutny pokus o trolovani?
Kdo chce hleda reseni, kdo nechce hleda vymluvy...
0 # Tomáš Pecina 2017-09-10 21:52
No výborně, tedy se shodneme, že nějaký kus HW v serverovně by to přece jen chtělo. Zda ušetříte tím, že to, co nemusí reagovat rychle, tedy repositář s dokumenty z úřední desky, budete mít tam nebo to budete provozovat doma (a budete kvůli tomu mít potenciálně 24/7 v provozu domácí server), je diskutabilní, podstatný je závěr, že server tohoto typu prostě doma rozumně provozovat nelze – ledaže byste měl připojení odpovídající kategorie, což příkladmo já nemám (používám UPC).
0 # Anonymní 2017-09-14 01:04
Mám v okolí asi 3 počítače, všechny jsem skládal jako běžný desktop na stůl. Běží bez problémů i 10 let a více. Momentálně píši z počítače, který jede denně mnoho hodin už cca dvanáctým rokem.

Celé je to o tom, co si postavíte a z čeho. Supermarketový počítač to nepřežije dlouho. Nebo Intel procesor v zátěži s teplovodivou pastou místo napájeného chladiče.

Také jsem provozoval několik let doma webový server. Dokonce i na relativně pomalé lince (pod 1Mb/s upload). Běželo to velice slušně, je to otázkou také optimalizace výsledných HTML.

Kdybych měl veřejnou IP, pokračoval bych v tom dále. Ale síťaři vymysleli, jak rychle prošustrovat přes 4 miliardy veřejných IPv4 adres, aby naschvál nebylo dostatek Ipv4 adres. A pak vymysleli proces přechodu na IPv6 tak (stylem my jsme síťaři, a naše IPv6 prosadíte style fuhrer diktátor a ukážeme vám svou moc), že přechod neproběhne ani za nejbližších příštích 20 let. Což za situace, kdy v IPv4 je nainverstováno hodně moc biliard dolarů a Ipv6 nic ekonomicky významného nepřínáší není divu.

Miloslav Ponkrác
0 # Libor Petříček 2017-08-31 14:27
Prima, hned jsem to vyzkoušel funguje Vám to (:-)).
Je fascinující, kolik peněz, jakou dobu a jaké úsilí musí vynaložit stát, aby zplodil něco tak nefunkčního jako jsou ty jeho aplikace, a jak to pak uděláte Vy, pane Pecino, to prostě "čumím".
Děkuji tedy Vám i Vašim pomocníkům a kolegům.
Existuje-li jiná obdobná aplikace, jak v diskusi zmíněno, já jí neznal, moje chyba, ale budu šířit "světlo" dál mezi kolegy.
K Vaší charakteristice institutu "Úřední deska" není co dodat. Přesně tak to je. A z institutu právu sloužícímu , se stal institut právo popírající.
Ach jo.
L.Petříček
0 # Tomáš Pecina 2017-08-31 14:33
Vaše chvála mne těší, ale žádným kolegům a spolupracovníkům ji předat nemohu; všechno dělám sám, a vyjadřuji-li se někdy v plurálu, jde o pluralis modestiæ.
0 # Anonymní 2017-08-31 19:23
:) pluralis modestiæ, mě babička učila "komu čest, tomu čest (a pastejřovi hůl)

mmch, čím je krmené to Django? Předpokládám PostgreSQL.

Jak se vy(zne)užívá ouřední deska vysvětlil hezky DNA ve Stopařově průvodci.

Vladimír
0 # Tomáš Pecina 2017-08-31 19:29
Ne, používám MariaDB, ale na pgSQL zřejmě co nevidět přejdu, právě pro lepší podporu fulltextového vyhledávání (momentálně fulltext funguje i s MariaDB, ale je to celé divně zbastlené, u nativně podporovaného pgSQL fungují lookupy, což je ve výsledku rychlejší).
0 # Anonymní 2017-09-14 01:09
Fulltext realizovaný jakoukoli databází za mnoho nestojí. Udělejte to jako já, a fulltext si realizujte sám pomocí několika db tabulek, do kterých naindexujete svůj fulltextový formát.A pak si nad tím vybudujte hledání.

Jedna db tabulka je slovník slov (word_id, word_text) a další tabulky i hledání už jsou jen práce s celočíselnými hodnotami.

Miloslav Ponkrác
0 # Tomáš Pecina 2017-09-14 06:00
Momentálně mám hledání ve Sphinxu, varianta vlastního algorithmu s využitím database zní zajímavě.
0 # Anonymní 2017-09-15 08:32
Fulltext v pgSQL byl vlastně dělán kdysi na zakázku. Kdosi to zaplatil, a kdosi to naprogramoval. Jak se to moc rozvíjí, nevím, ale startovací pozice byla asi lepší, než u MySQL.

MySQL stála od verze 4 za starou belu až do té doby, než ji vzal do rukou Oracle - až pak se začala trochu podobat použitelnému tvaru. U Sunu (předchozího vlastníka) jsem měl silný dojem, že nové vlastnosti jsou přidávány přesně manažerským způsobem a přesně plánovanými termíny. Takže přibývaly vlastnosti stylem: nová vlastnost tam je, má miliardu chyb - ale je to v termínu. Rozhraní nových věcí bylo vymyšleno horkou jehlou a implementaci také. Nebyl pro mě problém shodit databázový stroj či ho řadou SQL příkazů dostat do stavy, kdy zničil integritu databáze či rovnou nevratně celou databázi na disku.

Podle mého soudu dobrý fulltext uděláte jen sám vlastníma rukama - ať už v db tabulkách, nebo na souborech. Navíc si ho uděláte tak, jak to daný projekt potřebuje - a funguje to dobře.

Miloslav Ponkrác
0 # Tomáš Pecina 2017-09-15 16:14
Není pochyb o tom, že bych dokázal fulltextové hledání naprogramovat sám, ale nevím, zda je racionální to ad hoc dělat, jestliže je to hotové v mnoha různých podobách obecně: Apache Lucene, Elastic Search, Sphinx… Jsem sice nepříliš potěšen tím, že musím svou aplikaci zatížit závislostí na dalším externím SW, ale s úvahou toho, že už pracuje s externím převodníkem PDF -> text, včetně OCR, a testy běží s využitím externího validátoru, zdá se mi to ještě snesitelné. Co je problém, je lemmatizer/stemmer, tam zvažuji, že bych ho vyvinul zvlášť, protože v dokumentech je obrovský počet jmen a příjmení, která nelze jednoduše propojit; na druhou stranu mají všechny dokumenty např. správnou českou diakritiku a je iracionální před hledáním ji osekávat.
0 # Anonymní 2017-09-11 20:36
Rizikem jsou justiční informační systémy
ceska-justice.cz/.../...
0 # Anonymní 2017-09-13 22:37
Zajimalo by mne, zda s tim suplovanim desky neni nejaky problem? Ochrana osobmich dat, suplovani statni funkce...
0 # Tomáš Pecina 2017-09-14 06:13
ÚOOÚ se domnívá, že nikoli.
0 # Anonymní 2017-09-16 14:47
Dokumenty justice spravují letité systémy, soudci se bojí výpadku
zpravy.idnes.cz/.../...
0 # Anonymní 2017-09-20 16:21
Hrozí kolaps při výplatě důchodů, obávají se poslanci. ČSSZ mění systémy
zpravy.idnes.cz/.../...

Komentovat články mohou pouze registrovaní uživatelé; prosím, zaregistrujte se (v pravém sloupci dole)