101132775

1193714591

1193714592

1193714593

1237904433

1277879515

1312738797

1476759596

1547924522

1887692490

2144828235

2176179500

2331692225

2370410632

2370410634

2575540972

2576123431

2635734272

2811617088

2919366999

3168246095

3299284219

3340924940

340466392

3414158273

3758099832

3917128856

4204547666

445876862

75342665

75342698

855925714

889327355

1026575464

1056591003

1070272635

1123641887

1162285750

1198030896

1426009137

1568195116

1654633603

1703773460

174366048

1820151945

1825130190

1828361965

1852364556

1880477506

1883608273

1923022511

1938289220

2000076788

2004295676

2046333385

211801712

2166885617

2173548801

226799327

2438078654

2449630478

2542814321

2546838099

2562876640

2689530298

2865702999

2865703032

2893926039

2947776398

29898433

3011278998

3060586957

3134329717

3254335143

3320547351

3376455464

3455796462

3501550327

3511639124

3643162575

3700615661

3912844760

3922145230

3941367332

3954213837

4226692983

458009956

48895201

544659310

607723475

700530598

716475478

716722001

730579107

73891701

740954505

81143276

857491970

859327441

874794369

87687712

1238742812

1547743984

2723963139

3048336830

3637408529

import zipfile
import os

# Unzipping the uploaded file
with zipfile.ZipFile('/mnt/data/h224dta.zip', 'r') as zip_ref:
    zip_ref.extractall('/mnt/data/h224dta')

# Listing the contents of the unzipped directory
files = os.listdir('/mnt/data/h224dta')
files

import pandas as pd

# Loading the Stata data file
data = pd.read_stata('/mnt/data/h224dta/h224.dta')

# Displaying the first few rows of the dataset
data.head()

      DUID  PID    DUPERSID        PANEL FAMID31 FAMID42 FAMID53 FAMID20  \
0  2320005  101  2320005101  23 PANEL 23       A       A       A       A   
1  2320005  102  2320005102  23 PANEL 23       A       A       A       A   
2  2320006  101  2320006101  23 PANEL 23       A       A       A       A   
3  2320006  102  2320006102  23 PANEL 23       B       B       B       B   
4  2320006  103  2320006103  23 PANEL 23       A       A       A       A   

  FAMIDYR CPSFAMID  ... RXOSR20 RXPTR20 RXOTH20     PERWT20F      FAMWT20F  \
0       A        A  ...       0       0       0  8418.417067  10019.765809   
1       A        A  ...       0       0       0  5199.931866  10019.765809   
2       A        A  ...       0       0       0  2139.840017   1646.585855   
3       B        B  ...       0       0       0  2216.008686   2883.001611   
4       A        A  ...       0       0       0  4157.285889   1646.585855   

       FAMWT20C     SAQWT20F DIABW20F VARSTR VARPSU  
0  10019.765809     0.000000      0.0   2079      1  
1  10019.765809     0.000000      0.0   2079      1  
2   1646.585855     0.000000      0.0   2028      1  
3   2883.001611  4082.830163      0.0   2028      1  
4   1646.585855     0.000000      0.0   2028      1  

[5 rows x 1451 columns]

# Loading the Excel file
meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

# Displaying the first few rows of the loaded Excel data
meps_map.head()

       Name   Start     End                               Description
0  ACCELI42  995     996     PERS ELIGIBLE FOR ACCESS SUPPLEMENT-R4/2
1  ACTDTY31  248     249        MILITARY FULL-TIME ACTIVE DUTY - R3/1
2  ACTDTY42  250     251        MILITARY FULL-TIME ACTIVE DUTY - R4/2
3  ACTDTY53  252     253        MILITARY FULL-TIME ACTIVE DUTY - R5/3
4  ACTLIM31  506     508     ANY LIMITATION WORK/HOUSEWRK/SCHL-RD 3/1

# Checking if variables from the Excel file exist in the initial dataset
existing_vars = meps_map[meps_map['Name'].isin(data.columns)]
missing_vars = meps_map[~meps_map['Name'].isin(data.columns)]

existing_vars_list = existing_vars['Name'].tolist()
missing_vars_list = missing_vars['Name'].tolist()

len(existing_vars_list), len(missing_vars_list), missing_vars_list[:10]  # Displaying first 10 missing variables for brevity

import numpy as np

# Randomly selecting 5 columns from the dataset
random_columns = np.random.choice(data.columns, 5, replace=False)

# Getting value counts for the selected columns
value_counts = {}
for column in random_columns:
    value_counts[column] = data[column].value_counts()

value_counts

{'SOCLIM31': 2 NO                      17079
 -15 CANNOT BE COMPUTED     9156
 1 YES                       987
 -1 INAPPLICABLE             565
 -8 DK                        14
 -7 REFUSED                    4
 Name: SOCLIM31, dtype: int64,
 'OBTOTV20': 0      8508
 1      4247
 2      3002
 3      2035
 4      1478
        ... 
 115       1
 105       1
 155       1
 191       1
 123       1
 Name: OBTOTV20, Length: 158, dtype: int64,
 'VISPTR20': 0      26311
 150       70
 100       53
 200       52
 120       44
        ...  
 581        1
 468        1
 865        1
 133        1
 628        1
 Name: VISPTR20, Length: 490, dtype: int64,
 'DSFL2053': -1 INAPPLICABLE           26224
 1 YES                      1080
 2 NO                        483
 -15 CANNOT BE COMPUTED       18
 Name: DSFL2053, dtype: int64,
 'POEOC20': 2 NO               27163
 1 YES                330
 -1 INAPPLICABLE      312
 Name: POEOC20, dtype: int64}

# Searching for columns in the dataset and Excel mapping related to "usual care"
usual_care_columns = meps_map[meps_map['Description'].str.contains('usual', case=False, na=False) & 
                              meps_map['Description'].str.contains('care', case=False, na=False)]

usual_care_columns_list = usual_care_columns['Name'].tolist()

# Displaying the relevant variables along with their descriptions
usual_care_info = usual_care_columns[['Name', 'Description']]
usual_care_info

Empty DataFrame
Columns: [Name, Description]
Index: []

# Searching for columns in the dataset and Excel mapping related to "USC" (usual source of care)
usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]

usc_columns_list = usc_columns['Name'].tolist()

# Displaying the relevant variables along with their descriptions
usc_info = usc_columns[['Name', 'Description']]
usc_info

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
Cell In[1], line 2
      1 # Searching for columns in the dataset and Excel mapping related to "USC" (usual source of care)
----> 2 usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]
      4 usc_columns_list = usc_columns['Name'].tolist()
      6 # Displaying the relevant variables along with their descriptions

NameError: name 'meps_map' is not defined


# Reloading the datasets

# Loading the initial Stata data file
data = pd.read_stata('/mnt/data/h224dta/h224.dta')

# Loading the Excel file
meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

# Searching for columns in the Excel mapping related to "USC" (usual source of care)
usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]
usc_info = usc_columns[['Name', 'Description']]
usc_info

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
Cell In[2], line 4
      1 # Reloading the datasets
      2 
      3 # Loading the initial Stata data file
----> 4 data = pd.read_stata('/mnt/data/h224dta/h224.dta')
      6 # Loading the Excel file
      7 meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

NameError: name 'pd' is not defined


import pandas as pd

# Reloading the datasets

# Loading the initial Stata data file
data = pd.read_stata('/mnt/data/h224dta/h224.dta')

# Loading the Excel file
meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

# Searching for columns in the Excel mapping related to "USC" (usual source of care)
usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]
usc_info = usc_columns[['Name', 'Description']]
usc_info

---------------------------------------------------------------------------
FileNotFoundError                         Traceback (most recent call last)
Cell In[3], line 6
      1 import pandas as pd
      3 # Reloading the datasets
      4 
      5 # Loading the initial Stata data file
----> 6 data = pd.read_stata('/mnt/data/h224dta/h224.dta')
      8 # Loading the Excel file
      9 meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

File ~/.local/lib/python3.8/site-packages/pandas/io/stata.py:1941, in read_stata(filepath_or_buffer, convert_dates, convert_categoricals, index_col, convert_missing, preserve_dtypes, columns, order_categoricals, chunksize, iterator, compression, storage_options)
   1925 @Appender(_read_stata_doc)
   1926 def read_stata(
   1927     filepath_or_buffer: FilePathOrBuffer,
   (...)
   1938     storage_options: StorageOptions = None,
   1939 ) -> DataFrame | StataReader:
-> 1941     reader = StataReader(
   1942         filepath_or_buffer,
   1943         convert_dates=convert_dates,
   1944         convert_categoricals=convert_categoricals,
   1945         index_col=index_col,
   1946         convert_missing=convert_missing,
   1947         preserve_dtypes=preserve_dtypes,
   1948         columns=columns,
   1949         order_categoricals=order_categoricals,
   1950         chunksize=chunksize,
   1951         storage_options=storage_options,
   1952         compression=compression,
   1953     )
   1955     if iterator or chunksize:
   1956         return reader

File ~/.local/lib/python3.8/site-packages/pandas/io/stata.py:1091, in StataReader.__init__(self, path_or_buf, convert_dates, convert_categoricals, index_col, convert_missing, preserve_dtypes, columns, order_categoricals, chunksize, compression, storage_options)
   1088 self._lines_read = 0
   1090 self._native_byteorder = _set_endianness(sys.byteorder)
-> 1091 with get_handle(
   1092     path_or_buf,
   1093     "rb",
   1094     storage_options=storage_options,
   1095     is_text=False,
   1096     compression=compression,
   1097 ) as handles:
   1098     # Copy to BytesIO, and ensure no encoding
   1099 
   1100     # Argument 1 to "BytesIO" has incompatible type "Union[Any, bytes, None,
   1101     # str]"; expected "bytes"
   1102     self.path_or_buf = BytesIO(handles.handle.read())  # type: ignore[arg-type]
   1104 self._read_header()

File ~/.local/lib/python3.8/site-packages/pandas/io/common.py:710, in get_handle(path_or_buf, mode, encoding, compression, memory_map, is_text, errors, storage_options)
    701         handle = open(
    702             handle,
    703             ioargs.mode,
   (...)
    706             newline="",
    707         )
    708     else:
    709         # Binary mode
--> 710         handle = open(handle, ioargs.mode)
    711     handles.append(handle)
    713 # Convert BytesIO or file objects passed with an encoding

FileNotFoundError: [Errno 2] No such file or directory: '/mnt/data/h224dta/h224.dta'


# Unzipping the uploaded Stata file again
with zipfile.ZipFile('/mnt/data/h224dta.zip', 'r') as zip_ref:
    zip_ref.extractall('/mnt/data/h224dta')

# Loading the datasets

# Loading the Stata data file
data = pd.read_stata('/mnt/data/h224dta/h224.dta')

# Loading the Excel mapping file
meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

# Searching for columns in the Excel mapping related to "USC" (usual source of care)
usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]
usc_info = usc_columns[['Name', 'Description']]
usc_info

---------------------------------------------------------------------------
NameError                                 Traceback (most recent call last)
Cell In[4], line 2
      1 # Unzipping the uploaded Stata file again
----> 2 with zipfile.ZipFile('/mnt/data/h224dta.zip', 'r') as zip_ref:
      3     zip_ref.extractall('/mnt/data/h224dta')
      5 # Loading the datasets
      6 
      7 # Loading the Stata data file

NameError: name 'zipfile' is not defined


# Importing the necessary libraries again
import zipfile
import pandas as pd

# Unzipping the uploaded Stata file
with zipfile.ZipFile('/mnt/data/h224dta.zip', 'r') as zip_ref:
    zip_ref.extractall('/mnt/data/h224dta')

# Loading the datasets

# Loading the Stata data file
data = pd.read_stata('/mnt/data/h224dta/h224.dta')

# Loading the Excel mapping file
meps_map = pd.read_excel('/mnt/data/meps map.xlsx')

# Searching for columns in the Excel mapping related to "USC" (usual source of care)
usc_columns = meps_map[meps_map['Description'].str.contains('USC', case=False, na=False)]
usc_info = usc_columns[['Name', 'Description']]
usc_info

              Name                          Description
90        AFTHOU42  HOW DIFF CONTACT USC AFT HOURS-R4/2
452       HAVEUS42   DOES PERSON HAVE USC PROVIDER-R4/2
709       LOCATN42                    USC LOCATION-R4/2
885       OFFHOU42  USC HAS OFFCE HRS NGHTS/WKENDS-R4/2
1027      PHNREG42   HOW DIFF CONTACT USC BY PHONE-R4/2
1032      PLCTYP42               USC TYPE OF PLACE-R4/2
1313      TMTKUS42    HOW LONG IT TAKES GET TO USC-R4/2
1368      TYPEPE42            USC TYPE OF PROVIDER-R4/2
1449  YNOUSC42_M18  MAIN REAS PERS DOESNT HAVE USC-R4/2

# Combining HAVEUS42 and LOCATN42
data['COMBINED_USC'] = data.apply(
    lambda row: 'nowhere' if 'NO' in str(row['HAVEUS42']) else row['LOCATN42'],
    axis=1
)

# Displaying value counts for the combined variable
combined_usc_counts = data['COMBINED_USC'].value_counts()
combined_usc_counts

/tmp/ipykernel_11/3960664928.py:2: PerformanceWarning: DataFrame is highly fragmented.  This is usually the result of calling `frame.insert` many times, which has poor performance.  Consider joining all columns at once using pd.concat(axis=1) instead.  To get a de-fragmented frame, use `newframe = frame.copy()`
  data['COMBINED_USC'] = data.apply(
1 OFFICE                          11176
nowhere                            6340
2 HOSPITAL, NOT EMERGENCY ROOM     5642
-8 DK                              3323
-1 INAPPLICABLE                    1216
3 HOSPITAL, EMERGENCY ROOM          108
Name: COMBINED_USC, dtype: int64

# Searching for columns in the Excel mapping related to "race"
race_columns = meps_map[meps_map['Description'].str.contains('race', case=False, na=False)]

race_info = race_columns[['Name', 'Description']]
race_info

          Name                              Description
977   OTHRCP42         IS PROVIDER SOME OTHER RACE-R4/2
1196    RACEAX  ASIAN AMONG RACES RPTD (EDITED/IMPUTED)
1197    RACEBX  BLACK AMONG RACES RPTD (EDITED/IMPUTED)
1198   RACETHX          RACE/ETHNICITY (EDITED/IMPUTED)
1199   RACEV1X                    RACE (EDITED/IMPUTED)
1200   RACEV2X                    RACE (EDITED/IMPUTED)
1201    RACEWX  WHITE AMONG RACES RPTD (EDITED/IMPUTED)

# Getting value counts for the identified race-related variables
race_value_counts = {}
for column in race_info['Name']:
    race_value_counts[column] = data[column].value_counts()

race_value_counts

{'OTHRCP42': -1 INAPPLICABLE    13385
 2 NO               12928
 1 YES                799
 -8 DK                677
 -7 REFUSED            16
 Name: OTHRCP42, dtype: int64,
 'RACEAX': 3 ALL OTHER RACE ASSIGNMENTS        26094
 1 ASIAN - NO OTHER RACE REPORTED     1464
 2 ASIAN - OTHER RACE(S) REPORTED      247
 Name: RACEAX, dtype: int64,
 'RACEBX': 3 ALL OTHER RACE ASSIGNMENTS        23191
 1 BLACK - NO OTHER RACE REPORTED     4124
 2 BLACK - OTHER RACE(S) REPORTED      490
 Name: RACEBX, dtype: int64,
 'RACETHX': 2 NON-HISPANIC WHITE ONLY                     14595
 1 HISPANIC                                     6814
 3 NON-HISPANIC BLACK ONLY                      3965
 4 NON-HISPANIC ASIAN ONLY                      1436
 5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE      995
 Name: RACETHX, dtype: int64,
 'RACEV1X': 1 WHITE - NO OTHER RACE REPORTED               20865
 2 BLACK - NO OTHER RACE REPORTED                4124
 4 ASIAN/NATV HAWAIIAN/PACFC ISL-NO OTH          1587
 6 MULTIPLE RACES REPORTED                       1008
 3 AMER INDIAN/ALASKA NATIVE - NO OTHER RACE      221
 Name: RACEV1X, dtype: int64,
 'RACEV2X': 1 WHITE - NO OTHER RACE REPORTED               20865
 2 BLACK - NO OTHER RACE REPORTED                4124
 12 MULTIPLE RACES REPORTED                      1008
 10 OTH ASIAN/NATV HAWAIIAN/PACFC ISL-NO OTH      593
 4 ASIAN INDIAN - NO OTHER RACE REPORTED          412
 5 CHINESE - NO OTHER RACE REPORTED               306
 6 FILIPINO - NO OTHER RACE REPORTED              276
 3 AMER INDIAN/ALASKA NATIVE-NO OTHER RACE        221
 Name: RACEV2X, dtype: int64,
 'RACEWX': 1 WHITE - NO OTHER RACE REPORTED    20865
 3 ALL OTHER RACE ASSIGNMENTS         6046
 2 WHITE - OTHER RACE(S) REPORTED      894
 Name: RACEWX, dtype: int64}

# Creating a cross-tabulation of the usual source of care by race
usc_by_race = pd.crosstab(data['COMBINED_USC'], data['RACETHX'], margins=True, margins_name="Total")

# Renaming the index for clarity
usc_by_race.index.name = "Usual Source of Care"

usc_by_race

RACETHX                         1 HISPANIC  2 NON-HISPANIC WHITE ONLY  \
Usual Source of Care                                                    
-1 INAPPLICABLE                        307                        572   
-8 DK                                  678                       1905   
1 OFFICE                              2143                       6579   
2 HOSPITAL, NOT EMERGENCY ROOM        1552                       2788   
3 HOSPITAL, EMERGENCY ROOM              40                         40   
nowhere                               2094                       2711   
Total                                 6814                      14595   

RACETHX                         3 NON-HISPANIC BLACK ONLY  \
Usual Source of Care                                        
-1 INAPPLICABLE                                       219   
-8 DK                                                 436   
1 OFFICE                                             1527   
2 HOSPITAL, NOT EMERGENCY ROOM                        798   
3 HOSPITAL, EMERGENCY ROOM                             23   
nowhere                                               962   
Total                                                3965   

RACETHX                         4 NON-HISPANIC ASIAN ONLY  \
Usual Source of Care                                        
-1 INAPPLICABLE                                        76   
-8 DK                                                 185   
1 OFFICE                                              525   
2 HOSPITAL, NOT EMERGENCY ROOM                        283   
3 HOSPITAL, EMERGENCY ROOM                              4   
nowhere                                               363   
Total                                                1436   

RACETHX                         5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE  \
Usual Source of Care                                                         
-1 INAPPLICABLE                                                         42   
-8 DK                                                                  119   
1 OFFICE                                                               402   
2 HOSPITAL, NOT EMERGENCY ROOM                                         221   
3 HOSPITAL, EMERGENCY ROOM                                               1   
nowhere                                                                210   
Total                                                                  995   

RACETHX                         Total  
Usual Source of Care                   
-1 INAPPLICABLE                  1216  
-8 DK                            3323  
1 OFFICE                        11176  
2 HOSPITAL, NOT EMERGENCY ROOM   5642  
3 HOSPITAL, EMERGENCY ROOM        108  
nowhere                          6340  
Total                           27805  

# Searching for columns in the Excel mapping related to "Medicaid"
medicaid_columns = meps_map[meps_map['Description'].str.contains('Medicaid', case=False, na=False)]

medicaid_info = medicaid_columns[['Name', 'Description']]
medicaid_info

          Name                               Description
274   DVTMCD20          ALL DENTAL CARE -MEDICAID AMT 20
311   ERDMCD20                   ER-MEDICAID AMT - DR 20
325   ERFMCD20                  ER-MEDICAID AMT - FAC 20
339   ERTMCD20              ER -MEDICAID AMT-(FAC+DR) 20
459   HHAMCD20         HOME HLTH AGENCY -MEDICAID AMT 20
475   HHNMCD20      HOME HLTH NON-AGNCY -MEDICAID AMT 20
650   IPDMCD20           IP HOSP STAZ-MEDICAID AMT-DR 20
664   IPFMCD20          IP HOSP STAZ-MEDICAID AMT-FAC 20
679   IPTMCD20     IP HOSP STAZ-MEDICAID AMT-(FAC+DR) 20
715    MCAID20       COV BY MEDICAID OR SCHIP - 12/31/20
716   MCAID20X  COV BY MEDICAID OR SCHIP - 12/31/20 (ED)
717    MCAID31    COV BY MEDICAID OR SCHIP - R3/1 INT DT
718   MCAID31X  COV BY MEDICAID/SCHIP - R3/1 INT DT (ED)
719    MCAID42    COV BY MEDICAID OR SCHIP - R4/2 INT DT
720   MCAID42X  COV BY MEDICAID/SCHIP - R4/2 INT DT (ED)
721    MCAID53  COV BY MEDICAID OR SCHIP 12-31/R3 INT DT
722   MCAID53X    COV MEDICAID/SCHIP 12-31/R3 INT DT(ED)
731    MCDAP20         COV BY MEDICAID OR SCHIP IN APR20
732   MCDAP20X    COV BY MEDICAID OR SCHIP IN APR20 (ED)
734   MCDAT31X  COV MEDICAID OR SCHIP - ANY TIME IN R3/1
735   MCDAT42X  COV MEDICAID OR SCHIP - ANY TIME IN R4/2
736   MCDAT53X  COV MEDICAID OR SCHIP - ANY TIME IN R5/3
737    MCDAU20         COV BY MEDICAID OR SCHIP IN AUG20
738   MCDAU20X    COV BY MEDICAID OR SCHIP IN AUG20 (ED)
739    MCDDE20         COV BY MEDICAID OR SCHIP IN DEC20
740   MCDDE20X    COV BY MEDICAID OR SCHIP IN DEC20 (ED)
742    MCDFE20         COV BY MEDICAID OR SCHIP IN FEB20
743   MCDFE20X    COV BY MEDICAID OR SCHIP IN FEB20 (ED)
747    MCDJA20         COV BY MEDICAID OR SCHIP IN JAN20
748   MCDJA20X    COV BY MEDICAID OR SCHIP IN JAN20 (ED)
749    MCDJL20         COV BY MEDICAID OR SCHIP IN JUL20
750   MCDJL20X    COV BY MEDICAID OR SCHIP IN JUL20 (ED)
751    MCDJU20         COV BY MEDICAID OR SCHIP IN JUN20
752   MCDJU20X    COV BY MEDICAID OR SCHIP IN JUN20 (ED)
753    MCDMA20         COV BY MEDICAID OR SCHIP IN MAR20
754   MCDMA20X    COV BY MEDICAID OR SCHIP IN MAR20 (ED)
758    MCDMY20         COV BY MEDICAID OR SCHIP IN MAY20
759   MCDMY20X    COV BY MEDICAID OR SCHIP IN MAY20 (ED)
760    MCDNO20         COV BY MEDICAID OR SCHIP IN NOV20
761   MCDNO20X    COV BY MEDICAID OR SCHIP IN NOV20 (ED)
762    MCDOC20         COV BY MEDICAID OR SCHIP IN OCT20
763   MCDOC20X    COV BY MEDICAID OR SCHIP IN OCT20 (ED)
764    MCDSE20         COV BY MEDICAID OR SCHIP IN SEP20
765   MCDSE20X    COV BY MEDICAID OR SCHIP IN SEP20 (ED)
841   OBDMCD20         DR OFFICE VISITS -MEDICAID AMT 20
857   OBVMCD20        ALL OFFICE VISITS -MEDICAID AMT 20
894   OPDMCD20        ALL OPD VISITS-MEDICAID AMT -DR 20
909   OPFMCD20        ALL OPD VISITS-MEDICAID AMT-FAC 20
923   OPSMCD20          OPD DR VISITS-MEDICAID AMT-DR 20
937   OPTMCD20     ALL OPD VSTS-MEDICAID AMT-(FAC+DR) 20
952   OPVMCD20         OPD DR VISITS-MEDICAID AMT-FAC 20
969   OTHMCD20       OTHER EQUP/SUPPLIES-MEDICAID AMT 20
1246   RXMCD20                  TOTAL RX-MEDICAID AMT 20
1315  TOTMCD20             TOTAL AMT PAID BY MEDICAID 20
1409  VISMCD20      GLASSES/CNTCT LENSES-MEDICAID AMT 20

# Creating a cross-tabulation of the usual source of care by race and Medicaid status
usc_by_race_medicaid = pd.crosstab(
    [data['COMBINED_USC'], data['RACETHX']],
    data['MCAID20'],
    margins=True,
    margins_name="Total"
)

# Renaming the index and columns for clarity
usc_by_race_medicaid.index.names = ["Usual Source of Care", "Race/Ethnicity"]
usc_by_race_medicaid.columns.name = "Medicaid Status"

usc_by_race_medicaid

Medicaid Status                                                            -1 INAPPLICABLE  \
Usual Source of Care           Race/Ethnicity                                                
-1 INAPPLICABLE                1 HISPANIC                                               36   
                               2 NON-HISPANIC WHITE ONLY                               122   
                               3 NON-HISPANIC BLACK ONLY                                41   
                               4 NON-HISPANIC ASIAN ONLY                                11   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                5   
-8 DK                          1 HISPANIC                                                0   
                               2 NON-HISPANIC WHITE ONLY                                 0   
                               3 NON-HISPANIC BLACK ONLY                                 0   
                               4 NON-HISPANIC ASIAN ONLY                                 0   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                0   
1 OFFICE                       1 HISPANIC                                                1   
                               2 NON-HISPANIC WHITE ONLY                                 0   
                               3 NON-HISPANIC BLACK ONLY                                 1   
                               4 NON-HISPANIC ASIAN ONLY                                 0   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                1   
2 HOSPITAL, NOT EMERGENCY ROOM 1 HISPANIC                                                1   
                               2 NON-HISPANIC WHITE ONLY                                 0   
                               3 NON-HISPANIC BLACK ONLY                                 0   
                               4 NON-HISPANIC ASIAN ONLY                                 2   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                0   
3 HOSPITAL, EMERGENCY ROOM     1 HISPANIC                                                0   
                               2 NON-HISPANIC WHITE ONLY                                 0   
                               3 NON-HISPANIC BLACK ONLY                                 0   
                               4 NON-HISPANIC ASIAN ONLY                                 0   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                0   
nowhere                        1 HISPANIC                                                1   
                               2 NON-HISPANIC WHITE ONLY                                 2   
                               3 NON-HISPANIC BLACK ONLY                                 2   
                               4 NON-HISPANIC ASIAN ONLY                                 0   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE                0   
Total                                                                                  226   

Medicaid Status                                                            1 YES  \
Usual Source of Care           Race/Ethnicity                                      
-1 INAPPLICABLE                1 HISPANIC                                     80   
                               2 NON-HISPANIC WHITE ONLY                      67   
                               3 NON-HISPANIC BLACK ONLY                      40   
                               4 NON-HISPANIC ASIAN ONLY                      19   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE      9   
-8 DK                          1 HISPANIC                                    338   
                               2 NON-HISPANIC WHITE ONLY                     263   
                               3 NON-HISPANIC BLACK ONLY                     169   
                               4 NON-HISPANIC ASIAN ONLY                      36   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     46   
1 OFFICE                       1 HISPANIC                                    959   
                               2 NON-HISPANIC WHITE ONLY                    1056   
                               3 NON-HISPANIC BLACK ONLY                     656   
                               4 NON-HISPANIC ASIAN ONLY                      92   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    131   
2 HOSPITAL, NOT EMERGENCY ROOM 1 HISPANIC                                    643   
                               2 NON-HISPANIC WHITE ONLY                     441   
                               3 NON-HISPANIC BLACK ONLY                     326   
                               4 NON-HISPANIC ASIAN ONLY                      49   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     63   
3 HOSPITAL, EMERGENCY ROOM     1 HISPANIC                                     21   
                               2 NON-HISPANIC WHITE ONLY                      10   
                               3 NON-HISPANIC BLACK ONLY                      16   
                               4 NON-HISPANIC ASIAN ONLY                       0   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE      0   
nowhere                        1 HISPANIC                                    528   
                               2 NON-HISPANIC WHITE ONLY                     400   
                               3 NON-HISPANIC BLACK ONLY                     296   
                               4 NON-HISPANIC ASIAN ONLY                      52   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     66   
Total                                                                       6872   

Medicaid Status                                                             2 NO  \
Usual Source of Care           Race/Ethnicity                                      
-1 INAPPLICABLE                1 HISPANIC                                    191   
                               2 NON-HISPANIC WHITE ONLY                     383   
                               3 NON-HISPANIC BLACK ONLY                     138   
                               4 NON-HISPANIC ASIAN ONLY                      46   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     28   
-8 DK                          1 HISPANIC                                    340   
                               2 NON-HISPANIC WHITE ONLY                    1642   
                               3 NON-HISPANIC BLACK ONLY                     267   
                               4 NON-HISPANIC ASIAN ONLY                     149   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     73   
1 OFFICE                       1 HISPANIC                                   1183   
                               2 NON-HISPANIC WHITE ONLY                    5523   
                               3 NON-HISPANIC BLACK ONLY                     870   
                               4 NON-HISPANIC ASIAN ONLY                     433   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    270   
2 HOSPITAL, NOT EMERGENCY ROOM 1 HISPANIC                                    908   
                               2 NON-HISPANIC WHITE ONLY                    2347   
                               3 NON-HISPANIC BLACK ONLY                     472   
                               4 NON-HISPANIC ASIAN ONLY                     232   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    158   
3 HOSPITAL, EMERGENCY ROOM     1 HISPANIC                                     19   
                               2 NON-HISPANIC WHITE ONLY                      30   
                               3 NON-HISPANIC BLACK ONLY                       7   
                               4 NON-HISPANIC ASIAN ONLY                       4   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE      1   
nowhere                        1 HISPANIC                                   1565   
                               2 NON-HISPANIC WHITE ONLY                    2309   
                               3 NON-HISPANIC BLACK ONLY                     664   
                               4 NON-HISPANIC ASIAN ONLY                     311   
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    144   
Total                                                                      20707   

Medicaid Status                                                            Total  
Usual Source of Care           Race/Ethnicity                                     
-1 INAPPLICABLE                1 HISPANIC                                    307  
                               2 NON-HISPANIC WHITE ONLY                     572  
                               3 NON-HISPANIC BLACK ONLY                     219  
                               4 NON-HISPANIC ASIAN ONLY                      76  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE     42  
-8 DK                          1 HISPANIC                                    678  
                               2 NON-HISPANIC WHITE ONLY                    1905  
                               3 NON-HISPANIC BLACK ONLY                     436  
                               4 NON-HISPANIC ASIAN ONLY                     185  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    119  
1 OFFICE                       1 HISPANIC                                   2143  
                               2 NON-HISPANIC WHITE ONLY                    6579  
                               3 NON-HISPANIC BLACK ONLY                    1527  
                               4 NON-HISPANIC ASIAN ONLY                     525  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    402  
2 HOSPITAL, NOT EMERGENCY ROOM 1 HISPANIC                                   1552  
                               2 NON-HISPANIC WHITE ONLY                    2788  
                               3 NON-HISPANIC BLACK ONLY                     798  
                               4 NON-HISPANIC ASIAN ONLY                     283  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    221  
3 HOSPITAL, EMERGENCY ROOM     1 HISPANIC                                     40  
                               2 NON-HISPANIC WHITE ONLY                      40  
                               3 NON-HISPANIC BLACK ONLY                      23  
                               4 NON-HISPANIC ASIAN ONLY                       4  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE      1  
nowhere                        1 HISPANIC                                   2094  
                               2 NON-HISPANIC WHITE ONLY                    2711  
                               3 NON-HISPANIC BLACK ONLY                     962  
                               4 NON-HISPANIC ASIAN ONLY                     363  
                               5 NON-HISPANIC OTHER RACE OR MULTIPLE RACE    210  
Total                                                                      27805  

import matplotlib.pyplot as plt

# Filtering the data for individuals on Medicaid
medicaid_data = data[data['MCAID20'] == '1 YES']

# Creating a cross-tabulation for visualization
ct = pd.crosstab(medicaid_data['RACETHX'], medicaid_data['COMBINED_USC'])

# Plotting the stacked bar chart
plt.figure(figsize=(14, 8))
ct.plot(kind='bar', stacked=True, figsize=(12, 7))
plt.title('Usual Source of Care by Race for Individuals on Medicaid')
plt.xlabel('Race/Ethnicity')
plt.ylabel('Number of Individuals')
plt.xticks(rotation=45)
plt.tight_layout()
plt.legend(title='Usual Source of Care', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

# Normalizing the cross-tabulation to get proportions
ct_normalized = ct.div(ct.sum(axis=1), axis=0) * 100

# Plotting the 100% stacked bar chart
plt.figure(figsize=(14, 8))
ct_normalized.plot(kind='bar', stacked=True, figsize=(12, 7), colormap="viridis")
plt.title('Proportional Distribution of Usual Source of Care by Race for Individuals on Medicaid')
plt.xlabel('Race/Ethnicity')
plt.ylabel('Percentage (%)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.legend(title='Usual Source of Care', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.show()

# Plotting the 100% stacked bar chart with data labels
plt.figure(figsize=(14, 8))
ax = ct_normalized.plot(kind='bar', stacked=True, figsize=(12, 7), colormap="viridis")
plt.title('Proportional Distribution of Usual Source of Care by Race for Individuals on Medicaid')
plt.xlabel('Race/Ethnicity')
plt.ylabel('Percentage (%)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.legend(title='Usual Source of Care', bbox_to_anchor=(1.05, 1), loc='upper left')

# Adding data labels to each segment
for i, category in enumerate(ct_normalized.index):
    y_offset = 0  # Starting point for the first label
    for j, value in enumerate(ct_normalized.loc[category]):
        label = "{:.1f}%".format(value) if value > 0 else ""  # Only display label if value > 0
        ax.text(i, y_offset + (value/2), label, ha='center', va='center', color='white', fontsize=8, weight='bold')
        y_offset += value  # Move up by the value of the current segment for next label

plt.show()