Zpracování a vizualizace kriminality.
Jistě, nejprve otevřu a prohlédnu si vámi nahrávku dat. Poté se pokusím najít nejzajímavější informace a vizualizovat je.
Data obsahují několik nejmenovaných sloupců a zdá se, že formátování je trochu složité. Vypadá to, že hlavičky tabulky začínají od třetího řádku, takže je potřeba je správně nastavit. Také se zdá, že některé sloupce obsahují více informací v jedné buňce, což může vyžadovat další zpracování.
Zkusme načíst data znovu a tentokrát správně nastavit hlavičky.
Omlouvám se za chybu. Zdá se, že se pokouším nastavit více hlaviček než je dostupných. Vypadá to, že struktura dat je složitější, než jsem očekával.
Pokusím se načíst data znovu s jinými parametry. Místo toho, aby se snažil všechny hlavičky načíst najednou, zkusím načíst data bez hlavičky a pak manuálně nastavím názvy sloupců podle potřeby.
Zdá se, že tabulka obsahuje několik řádků hlavičky a některé z nich jsou prázdné. Zkusme vyextrahovat relevantní informace z těchto hlaviček a vytvořit vlastní hlavičky pro naši tabulku.
Předpokládám, že skutečná data začínají na 7. řádku (indexovaném jako 6, protože indexace začíná na 0). První řádek (index 0) se zdá být obecným popisem dat. Druhý řádek (index 1) obsahuje poznámku o tom, jak je vypočítáno "spácháno dětmi". Třetí a čtvrtý řádek (indexy 2 a 3) jsou prázdné. Pátý řádek (index 4) obsahuje názvy kategorií, zatímco šestý řádek (index 5) obsahuje podrobnější popis těchto kategorií.
Nyní vytvoříme seznam hlaviček z těchto informací a přiřadíme ho našim datům.
Omlouvám se za chybu, vypadá to, že počet definovaných hlaviček (26) nesouhlasí s počtem sloupců v datech (25). Zdá se, že jsem přidal jeden sloupec navíc v hlavičkách.
Zkontroluji definované hlavičky a opravím počet, aby odpovídal počtu sloupců v datech.
Nyní máme naše data s přiřazenými hlavičkami. Sloupce obsahují informace jako:
- "TSK": Takticko-statistická klasifikace, která je kódem pro typ trestného činu.
- "takticko statistická klasifikace": Popis typu trestného činu.
- "REGISTROVÁNO - POČET": Počet případů, které byly zaznamenány za daný měsíc.
- "OBJASNĚNO - POČET": Počet případů, které byly vyřešeny za daný měsíc.
- "OBJASNĚNO - tj. v % (objasnenost)": Procento případů, které byly vyřešeny z celkového počtu zaznamenaných případů.
- Různé kategorie "spácháno", které ukazují, kolik případů bylo spácháno různými skupinami lidí, jako jsou nezletilí, mladiství, opakovaně trestané osoby, cizinci a firmy.
- Různé kategorie "zajištěno", které ukazují, kolik případů bylo vyřešeno pro různé skupiny pachatelů.
- "škoda celkem v tisících Kč": Celková škoda způsobená trestnými činy v tisících korun.
- "škoda zajištěno celkem v tisících Kč": Celková škoda, která byla zajištěna (např. vrácena nebo kompenzována) v tisících korun.
Zkusme nyní najít nějaké zajímavé informace v těchto datech. Například můžeme zjistit, jaký typ trestného činu byl nejčastěji spáchán, jaký typ trestného činu způsobil největší škodu, nebo jaké skupiny lidí nejčastěji páchají trestné činy.
Dále se pokusím vyhodnotit a vizualizovat některé z těchto údajů. Začnu s hodnocením typů trestných činů, které byly nejčastěji spáchány. Budu muset zpracovat data, abych se vyhnul chybám a problémům s formátem dat. Například některé hodnoty mohou být uloženy jako řetězce místo čísel, nebo v datech mohou být chybějící hodnoty.
Před tím, než provedu jakoukoli analýzu, zkontroluji, zda data obsahují nějaké chybějící hodnoty nebo nekonzistence.
Zdá se, že některé řádky v našich datech mají chybějící hodnoty ve všech sloupcích. Tyto řádky pravděpodobně neobsahují žádné užitečné informace, takže je můžeme bezpečně odstranit z našeho datasetu.
Nyní odstraním tyto řádky a znovu zkontroluji, zda v datech zůstaly nějaké chybějící hodnoty.
Nyní, když jsme odstranili řádky s chybějícími hodnotami, naše data neobsahují žádné chybějící hodnoty.
Dalším krokem je převést sloupce s číselnými hodnotami na správný datový typ. Některé sloupce, které by měly obsahovat číselné hodnoty, mohou být aktuálně uloženy jako řetězce. Převedu tyto sloupce na číselné datové typy, abych mohl provést numerické analýzy a výpočty.
Konkrétně se budu snažit převést sloupce "REGISTROVÁNO - POČET", "OBJASNĚNO - POČET", "OBJASNĚNO - tj. v % (objasnenost)", "škoda celkem v tisících Kč" a "škoda zajištěno celkem v tisících Kč" na číselné datové typy. V případě, že některé z těchto sloupců obsahují nečíselné hodnoty, budu muset tyto hodnoty nejprve ošetřit nebo odstranit.
Začnu tím, že zkontroluji datové typy v našich datech.
Všechny sloupce jsou aktuálně uloženy jako objekty, což je datový typ, který Pandas používá pro textové řetězce a smíšené datové typy. To znamená, že budeme muset převést některé sloupce na číselné datové typy.
Převedu sloupce "REGISTROVÁNO - POČET", "OBJASNĚNO - POČET", "OBJASNĚNO - tj. v % (objasnenost)", "škoda celkem v tisících Kč" a "škoda zajištěno celkem v tisících Kč" na číselné datové typy.
Pokud některý z těchto sloupců obsahuje nečíselné hodnoty, budu muset tyto hodnoty ošetřit. Nejprve zkusím převést tyto sloupce a pokud narazím na jakékoliv problémy, pokusím se je řešit.
Sloupce "REGISTROVÁNO - POČET", "OBJASNĚNO - POČET", "OBJASNĚNO - tj. v % (objasnenost)", "škoda celkem v tisících Kč" a "škoda zajištěno celkem v tisících Kč" byly úspěšně převedeny na číselné datové typy.
Nyní, když jsou naše data připravena, mohu začít s analýzou. Nejprve zjistím, jaký typ trestného činu byl nejčastěji spáchán. To udělám tím, že seřadím data podle sloupce "REGISTROVÁNO - POČET" a zobrazím typy trestných činů s největším počtem případů.
Zde jsou typy trestných činů, které byly nejčastěji zaznamenány v květnu 2023 v České republice:
- CELKOVÁ KRIMINALITA: 81 996 případů
- Obecná kriminalita: 64 607 případů
- Majetková kriminalita: 43 893 případů
- Ostatní majetková kriminalita: 14 940 případů
- Krádeže prosté: 14 835 případů
- Krádeže vloupáním: 14 118 případů
- Ostatní kriminalita: 13 243 případů
- Zbývající kriminalita: 11 099 případů
- Maření výkonu úředního rozhodnutí (§ 337): 6 411 případů
- Hospodářská kriminalita: 6 217 případů
Toto jsou nejčastější typy trestných činů podle počtu zaznamenaných případů. Všimněte si, že "CELKOVÁ KRIMINALITA" a podobné kategorie jsou zřejmě souhrnné kategorie, které zahrnují různé typy trestných činů.
Teď bychom mohli tyto informace vizualizovat pomocí grafu. Například můžeme vytvořit sloupcový graf, který ukazuje počet případů pro každý typ trestného činu.
Tento graf ukazuje top 10 typů trestných činů, které byly zaznamenány v květnu 2023 v České republice, podle počtu případů. Jak můžeme vidět, nejčastějším typem trestného činu je "CELKOVÁ KRIMINALITA", což je pravděpodobně souhrnná kategorie zahrnující různé typy trestných činů. Dalšími častými typy trestných činů jsou "obecná kriminalita", "majetková kriminalita", "ostatní majetková kriminalita", "krádeže prosté" a "krádeže vloupáním".
Nyní můžeme provést další analýzy, například zjistit, které typy trestných činů způsobily největší škodu, nebo zjistit, jaké skupiny lidí nejčastěji páchají trestné činy. Můžete mi prosím říci, jakou analýzu byste chtěli provést dále?
Tento graf ukazuje počet trestných činů spáchaných různými skupinami lidí v květnu 2023 v České republice.
Jak můžeme vidět, největší počet trestných činů byl spáchán opakovaně trestanými osobami, následovány skupinami "pod vlivem" a "pod vlivem alkoholu". Počet trestných činů spáchaných nezletilými, mladistvými a dětmi je poměrně nízký ve srovnání s ostatními skupinami. Také je poměrně malý počet trestných činů spáchaných firmami a cizinci.
Je důležité poznamenat, že tyto údaje nám poskytují pouze obecný přehled o skupinách lidí, které páchají trestné činy, a nemusí nutně odrážet skutečné rozdělení pachatelů trestných činů v populaci. Například skupina "pod vlivem" může zahrnovat různé podskupiny lidí, včetně opakovaně trestaných osob a osob pod vlivem alkoholu, takže je možné, že některé trestné činy jsou v těchto datech započítány vícekrát.
Pokud máte zájem o další analýzu těchto dat, dejte mi prosím vědět!
Tento heatmap (teplotní mapa) vizualizuje korelace mezi různými sloupci v našich datech o trestné činnosti. Pozitivní hodnoty (reprezentované teplými barvami) ukazují pozitivní korelaci, což znamená, že když jedna proměnná roste, roste i druhá. Negativní hodnoty (reprezentované chladnými barvami) ukazují negativní korelaci, což znamená, že když jedna proměnná roste, druhá klesá.
Zde je několik zajímavých korelací, které lze vidět na heatmapě:
"REGISTROVÁNO - POČET" a "OBJASNĚNO - POČET" mají velmi vysokou pozitivní korelaci (0.98), což znamená, že čím více případů je zaznamenáno, tím více případů je také vyřešeno. To může ukazovat na efektivitu práce policie.
"REGISTROVÁNO - POČET" a "škoda celkem v tisících Kč" mají také vysokou pozitivní korelaci (0.97), což znamená, že čím více případů je zaznamenáno, tím je větší celková škoda. To může naznačovat, že trestné činy obecně způsobují větší škodu, když jich je více.
"škoda celkem v tisících Kč" a "škoda zajištěno celkem v tisících Kč" mají pozitivní korelaci (0.92), což znamená, že čím větší je celková škoda, tím větší je škoda, která byla zajištěna (např. vrácena nebo kompenzována). To může naznačovat, že se policie snaží zajišťovat co největší část škody způsobené trestnými činy.
Je důležité poznamenat, že korelace neimplikuje příčinnou souvislost. Tyto vztahy pouze ukazují, že existuje statistický vztah mezi dvěma proměnnými, ale neříkají nám, zda jedna proměnná způsobuje změnu v druhé. Pro určení příčinných vztahů by bylo třeba provést další analýzy.
Pokud máte zájem o další analýzu těchto dat, dejte mi prosím vědět!
Omlouvám se za nedorozumění. Ano, některé korelace, které jsem zmínil, jsou poměrně očekávané, protože souvisí s celkovým počtem případů nebo celkovou škodou.
Pokud hledáme méně zřejmé korelace, můžeme se zaměřit na vztahy mezi různými kategoriemi pachatelů. Například můžeme se podívat na to, jak jsou korelovány počty trestných činů spáchaných nezletilými, mladistvými, opakovaně trestanými osobami, cizinci, osobami pod vlivem, osobami pod vlivem alkoholu a firmami.
Také můžeme se podívat na korelaci mezi objasněností případů ("OBJASNĚNO - tj. v % (objasnenost)") a různými kategoriemi pachatelů. To by nám mohlo poskytnout nějaké zajímavé informace o tom, jak efektivně jsou vyšetřovány případy v závislosti na kategorii pachatele.
Zkusím vytvořit nový heatmap, který se zaměří na tyto méně zřejmé korelace.
Tento heatmap (teplotní mapa) vizualizuje korelace mezi vybranými sloupci v našich datech o trestné činnosti. Zde jsou některé méně zřejmé korelace, které lze vidět na heatmapě:
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - pod vlivem": Mírně negativní korelace (-0.11) mezi těmito dvěma sloupci může naznačovat, že případy, kde byly trestné činy spáchány pod vlivem, mohou být obtížnější vyřešit.
"spácháno - mladistvými" a "spácháno - dětmi*": Pozitivní korelace (0.24) mezi těmito dvěma sloupci naznačuje, že když roste počet trestných činů spáchaných mladistvými, tak roste i počet trestných činů spáchaných dětmi.
"spácháno - pod vlivem" a "spácháno - pod vlivem alkoholu": Silná pozitivní korelace (0.75) mezi těmito dvěma sloupci je očekávaná, protože alkohol je běžnou látkou, která může ovlivnit chování lidí.
"spácháno - opakov. trest. osobami" a "spácháno - pod vlivem": Mírně pozitivní korelace (0.16) mezi těmito dvěma sloupci může naznačovat, že opakovaně trestané osoby mají tendenci spáchat trestné činy pod vlivem.
Je důležité mít na paměti, že korelace neznamená příčinnost a že tyto výsledky by měly být interpretovány opatrně. Tyto výsledky mohou být ovlivněny řadou faktorů, které nejsou zahrnuty v těchto datech.
Pokud máte zájem o další analýzu těchto dat, dejte mi prosím vědět!
Omlouvám se za tuto chybu. Měl jsem korelovat objasňovací míru s kategoriemi pachatelů, ne s objasňovací mírou samotnou. Opravím to a provedu korelaci mezi objasňovací mírou a kategoriemi pachatelů.
Sloupce "zajištěno" reprezentují počet vyřešených případů pro různé kategorie pachatelů. Tyto sloupce mohou být použity pro korelaci s objasňovací mírou ("OBJASNĚNO - tj. v % (objasnenost)").
Zkusím to znovu a vytvořím nový heatmap s těmito opravenými korelacemi. Děkuji za vaši trpělivost.
Tento heatmap (teplotní mapa) vizualizuje korelace mezi objasňovací mírou ("OBJASNĚNO - tj. v % (objasnenost)") a počtem vyřešených případů pro různé kategorie pachatelů. Zde jsou některé méně zřejmé korelace, které lze vidět na heatmapě:
"OBJASNĚNO - tj. v % (objasnenost)" a "zajištěno - spácháno nezletilými": Tato mírně negativní korelace (-0.13) může naznačovat, že případy, kde byly trestné činy spáchány nezletilými, mohou být obtížnější vyřešit.
"OBJASNĚNO - tj. v % (objasnenost)" a "zajištěno - spácháno opakov. trest. osobami": Tato mírně pozitivní korelace (0.09) může naznačovat, že případy, kde byly trestné činy spáchány opakovaně trestanými osobami, jsou mírně snáze vyřešitelné.
"OBJASNĚNO - tj. v % (objasnenost)" a "zajištěno - spácháno pod vlivem alkoholu": Tato mírně pozitivní korelace (0.08) může naznačovat, že případy, kde byly trestné činy spáchány pod vlivem alkoholu, jsou mírně snáze vyřešitelné.
"OBJASNĚNO - tj. v % (objasnenost)" a "zajištěno - spácháno firmou": Tato mírně negativní korelace (-0.08) může naznačovat, že případy, kde byly trestné činy spáchány firmami, mohou být obtížnější vyřešit.
Je důležité mít na paměti, že korelace neznamená příčinnost a že tyto výsledky by měly být interpretovány opatrně. Tyto výsledky mohou být ovlivněny řadou faktorů, které nejsou zahrnuty v těchto datech.
Pokud máte zájem o další analýzu těchto dat, dejte mi prosím vědět!
Omlouvám se za opakované chyby. Nyní vidím, že máme problém s tím, jak se snažíme korelovat objasňovací míru s počtem vyřešených případů pro různé kategorie pachatelů. Tento přístup nefunguje, protože obě proměnné jsou závislé na celkovém počtu případů pro danou kategorii pachatelů, takže korelace je vlastně korelací mezi objasňovací mírou a objasňovací mírou, což je nesmyslné.
Namísto toho bychom měli korelovat počet případů spáchaných různými kategoriemi pachatelů s objasňovací mírou. To by nám mohlo dát smysluplnější výsledky.
Omlouvám se za tento omyl a děkuji vám za vaši trpělivost. Opravím to a provedu korelaci mezi objasňovací mírou a počtem případů pro různé kategorie pachatelů.
Omlouvám se za předchozí chyby. Nyní máme heatmapu (teplotní mapu), která ukazuje korelace mezi objasňovací mírou ("OBJASNĚNO - tj. v % (objasnenost)") a počtem případů pro různé kategorie pachatelů. Tato mapa ukazuje následující méně zřejmé korelace:
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - nezletilými": Korelace -0.01 je velmi slabá, což naznačuje, že neexistuje silný vztah mezi objasňovací mírou a počtem případů spáchaných nezletilými.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - mladistvými": Korelace -0.01 je také velmi slabá, což naznačuje, že neexistuje silný vztah mezi objasňovací mírou a počtem případů spáchaných mladistvými.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - dětmi*": Korelace -0.01 je opět velmi slabá, což naznačuje, že neexistuje silný vztah mezi objasňovací mírou a počtem případů spáchaných dětmi.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - opakov. trest. osobami": Korelace -0.07 je mírně negativní, což by mohlo naznačovat, že objasňovací míra je mírně nižší pro případy, kde byly trestné činy spáchány opakovaně trestanými osobami.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - cizinci": Korelace -0.03 je slabá, což naznačuje, že neexistuje silný vztah mezi objasňovací mírou a počtem případů spáchaných cizinci.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - pod vlivem": Korelace -0.09 je mírně negativní, což by mohlo naznačovat, že objasňovací míra je mírně nižší pro případy, kde byly trestné činy spáchány pod vlivem.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - pod vlivem alkoholu": Korelace -0.07 je mírně negativní, což by mohlo naznačovat, že objasňovací míra je mírně nižší pro případy, kde byly trestné činy spáchány pod vlivem alkoholu.
"OBJASNĚNO - tj. v % (objasnenost)" a "spácháno - firmou": Korelace -0.01 je velmi slabá, což naznačuje, že neexistuje silný vztah mezi objasňovací mírou a počtem případů spáchaných firmami.
Tyto výsledky ukazují, že objasňovací míra nemá silnou korelaci s počtem případů pro různé kategorie pachatelů, což může naznačovat, že objasňovací míra je ovlivněna řadou dalších faktorů. Je důležité mít na paměti, že korelace neznamená příčinnost a že tyto výsledky by měly být interpretovány opatrně.
Pokud máte zájem o další analýzu těchto dat, dejte mi prosím vědět