산업보건 AI 혁신을 위한 전제 조건 - 파편화된 비정형 데이터의 표준화

산업보건에서 AI의 도입이 요구되고 있는 가운데, 먼저 해결해야할 문제가 무엇인지 확인합니다.

2026. 4. 13.

기사공유 | 홈페이지

AI 시대

2026.4.12

5화. 산업보건 AI 혁신의 전제 조건

- 파편화된 비정형 데이터의 표준화 -

최혜란 | 오이레터

지난 4화에서는 AI를 활용해 단순 서류 작업을 반복하는 앵무새에서 벗어나, 현장의 문제를 해결하는 분석가로 진화하자고 제안했습니다.

하지만 AI 도입을 논하기 전, 현장의 민낯부터 하나 짚고 넘어가야겠습니다. AI가 코딩을 하고 영상을 만들고 심지어 Systematic Review 를 몇 시간 만에 뚝딱 만들어낸다는 2026년 오늘, 혹시 보건관리전문기관의 업무 보고서가 어떤 형식인지 확인해 본 적이 있으신가요?

믿기 어렵겠지만, 이 디지털 시대에 볼펜으로 꾹꾹 눌러쓰면 뒷장에 파랗게 글씨가 배겨 나오는 NCR지(이른바 먹지)에 수기로 적은 보고서를 사용하는 곳이 수두룩합니다. 스마트폰 하나로 은행 대출부터 여권 발급까지 끝내는 시대에, 근로자의 건강을 보호하고 산재 예방의 주춧돌이 될 데이터가 1980년대식 먹지 위를 맴돌고 있습니다. 우리는 왜 아직도 이러고 있을까요?

AI는 알고리즘 이전에 정제된 데이터를 먹고 자라는 기계입니다. 하지만 현재 우리 산업보건 데이터는 기계가 읽기는커녕, 사람조차 알아보기 힘든 아날로그와 비정형 상태로 파편화되어 있습니다. 먹지와 PDF 파일의 늪에 빠진 산업보건 실무자들의 하루는 대략 이렇습니다.

세 명의 전문가와 끊어진 데이터 파이프라인

특수건강진단 의사의 문진실은 시간과의 싸움입니다. 하루 100명 이상의 근로자를 마주해야 하는 검진 현장의 특성 상, 한 사람에게 할애할 수 있는 시간은 1~2분 남짓입니다. '3분 진료'가 일상인 임상 의사들도 시간에 쫓기기는 마찬가지지만, 두 진료실의 데이터 인프라는 극명하게 다릅니다.

임상 의사는 클릭 한 번으로 건강보험공단 서버에 연동된 환자의 10년 치 혈압 추세와 타 병원 처방 내역(DUR)을 즉시 확인합니다. 반면 직업환경의학과 전문의는 타 병원의 과거 기록을 조회할 권한도, 시스템도 없습니다. 근로자가 이전에 받은 결과지를 챙겨오지 않는 한, 의사는 근로자의 불확실한 기억에 의존해 업무적합성을 판정해야 합니다.

현장을 누비는 보건관리전문기관 간호사의 가방 속에는 아직도 먹지가 들어있습니다. 사업장 방문을 마치고, 볼펜으로 꾹꾹 눌러 쓴 먹지 보고서의 파란 사본을 찢어 담당자에게 건넵니다.

이 아날로그 종이를 받아 든 사내 보건관리자의 책상 위는 참담함 그 자체입니다. 위탁기관이 던져주고 간 파란색 먹지 보고서와, 검진기관이 이메일로 전달한 수백 장의 PDF 스캔본이 뒤섞여 있습니다. 이상 소견자를 솎아내고 연간 유해물질 노출 추세를 분석하려면, 이 먹지와 PDF를 번갈아 보며 하루 종일 엑셀에 수기로 타이핑해야 합니다. 답답한 마음에 OCR(광학문자인식)을 돌려보지만, 마법은 일어나지 않습니다. 복잡한 다단 표 구조가 뭉개져 A 근로자의 혈압 수치가 B 근로자 칸으로 밀려 들어오고, 희미한 스캔 상태나 문서에 찍힌 도장 자국 탓에 노출 농도 10.5가 105로 둔갑하는 치명적인 오인식이 속출합니다. 결국 이 오류를 잡아내기 위해 모니터에 PDF 원본과 변환된 엑셀을 나란히 띄워놓고 두 눈으로 전수 검사하는 검수 지옥에 빠지게 됩니다. 직접 타이핑하는 시간이나 검수하는 시간이나 매한가지 입니다.

이들에게 AI 분석은 남의 나라 이야기일 뿐, 현실은 데이터 입력(타이핑)과 검수에 업무 시간의 대부분을 소모하며 지쳐 떨어집니다. 결국 모든 것을 포기한 보건관리자는, 아까 현장을 방문했던 보건관리전문기관 간호사에게 수백 장짜리 검진 결과 PDF 파일을 통째로 던져버립니다. 우리의 현장에선 이렇게 누구도 쉽게 활용하기 힘든 ‘비정형 데이터의 폭탄 돌리기’가 무한반복됩니다.

K2B 시스템, 수집은 하되 분석은 불가한 갈라파고스 구조

고용노동부의 K2B(안전보건정보시스템)는 매년 전국 사업장의 작업환경측정과 특수건강진단 결과 등 방대한 데이터를 수집합니다. 이에 대해 정부기관 담당자들은 억울할 수 있습니다. "우리도 K2B 시스템에 엑셀 업로드 양식이 있고, 전산 송수신 규격을 갖추고 있다"고 항변할 것입니다. 하지만 K2B의 현행 전산 양식이 질병 예측을 위한 분석용 데이터 표준이 아니라, 법적 규제 이행을 확인하기 위한 사후 검증용 서식에 머물러 있다는 구조적 한계를 직시해야 합니다. 현재의 전송 규격에는 세 가지 한계가 있습니다.

첫째, 의미론적 표준(Semantic Standard)의 부재입니다.

엑셀 빈칸은 존재하지만, 물질명을 '톨루엔'이라 쓰든 'Toluene'이라 쓰든 자유롭게 입력(Free-text)할 수 있습니다. 기계가 보기엔 전혀 다른 세 개의 물질이 됩니다. 실제로 이 원시 데이터를 활용하려는 연구진은 수만 건의 텍스트를 표준 코드로 매핑하는 수작업에 상당한 시간을 할애해야 하며, 끝내 변환이 불가능한 비정형 입력값과 결측치는 분석 모수에서 제외할 수 밖에 없는 한계를 안고 있습니다.

둘째, '갈라파고스 규격'입니다.

노동부의 전산 규격은 의료계가 전 세계적으로 통용하는 국제 표준 규격(HL7 FHIR 등)이나 건강보험공단의 EDI 청구 코드와는 전혀 다른 독자 노선의 언어입니다. 언어가 다르니 부처 간 데이터 융합은 시작부터 불가능합니다.

셋째, 결정적으로 가장 중요한 디테일은 여전히 PDF 신세입니다.

공정의 특성, 환기 설비의 상태, 측정 당시의 특이사항 등 AI가 맥락을 파악하고 사고를 예측하는 데 필요한 알짜 정보들은 K2B 전송 양식의 빈칸 몇 개에 담기지 못합니다. 결국 분석 불가능한 비정형의 'PDF 첨부파일'로 서버 구석에 고이 잠자고 있습니다.

[일반건강검진결과와 특수건강진단결과 조회 화면의 비교] 좌측의 정형 데이터를 활용한 결괏값이 시스템 내 시계열 분석을 지원하는 것과 대조적으로, 우측 K2B 시스템의 비정형 PDF 자료는 기계 판독이 불가합니다. 이는 표준화되지 않은 원시 데이터가 2차 분석 및 AI 활용 단계에서 겪는 기술적 제약을 단적으로 보여줍니다.

선진국은 어떻게 데이터를 표준화 하는가

그렇다면 북유럽, 프랑스, 독일은 각 기업에서 생성되는 측정 및 검진 데이터를 어떻게 표준화하여 관리하고 있을까요? 이들은 현장의 자율에 맡기지 않고, 데이터 입력 단계부터 강제된 표준(Standardized Coding)을 적용합니다.

독일 (MEGA DB): 독일은 작업환경측정 기관이 결과 보고서를 자유 양식(PDF)으로 제출하는 것을 허용하지 않습니다. 모든 측정 데이터는 중앙에서 배포한 표준 소프트웨어(OMEGA)를 통해 입력해야 합니다. 물질명은 반드시 국제 화학물질 식별 번호인 CAS 번호로 입력해야 하며, 환기 상태나 작업 형태도 드롭다운 방식의 지정된 코드 체계로만 선택할 수 있습니다. 입력 단계에서 오타나 이명 표기를 원천 차단하는 방식입니다.
프랑스 (COLCHIC): 산업안전보건연구원(INRS)과 질병금고가 공동 운영하는 이 데이터베이스 역시, 전국 8개 지역 측정 기관이 하나의 통일된 데이터 딕셔너리(Data Dictionary)를 공유합니다. 작업 공정은 국제표준직업분류(ISCO) 코드로, 측정 방법은 규격화된 코드로 변환되어 중앙 서버로 전송됩니다.
핀란드 (FINJEM/NOCCA): 개별 기업의 보고서에 의존하지 않습니다. 국가가 보유한 전 국민의 고유 식별 번호(PIN)를 매개로, 국세청의 '직업/산업 분류 코드'와 보건부의 '건강/암 등록 데이터'를 시스템 단에서 결합합니다.

[홈페이지] 독일 IFA MEGA 공식 페이지
[홈페이지] 프랑스 INRS COLCHIC 공식 페이지
[대시보드] 핀란드 FINJEM 인터랙티브 대시보드

표준화된 데이터가 AI와 만났을 때의 파급력

표준화된 코드로 정제된 데이터는 AI 알고리즘과 결합할 때 강력한 예측 도구로 활용됩니다.

가장 대표적인 사례가 AI 기반 노출 예측 모델(Predictive Exposure Modeling)입니다. 독일 직업안전보건연구원(IFA)의 MEGA 데이터베이스는 1972년부터 50년 이상 체계적으로 축적된 380만 건 이상의 표준화 측정 데이터(물질의 CAS 번호, 공간 체적, 환기량 등)를 기반으로 합니다.

이 정제된 데이터는 노출 예측 머신러닝 모델의 핵심 학습 자료가 됩니다. 그 결과, 공정의 기본 변수만 입력하면 AI가 예상 노출 농도를 높은 정확도로 산출합니다. 독일 법정재해보험조합(DGUV)은 이 예측 도구와 연계된 안전보건 가이드라인(VSK)을 준수하는 중소기업에 대해 정기 현장 측정 의무를 법적으로 면제합니다. 이를 통해 기업은 사업장 내 공정당 평균 1,000~3,000유로(약 150만~450만 원)에 해당하는 측정 수수료를 절감할 수 있습니다.

또한, 직업환경 역학 연구에서는 자연어 처리(NLP)를 도입하여 직업병 원인 규명의 속도를 높이고 있습니다. 과거에는 연구진이 근로자의 진료 기록이나 설문지에 서술형(Free-text)으로 작성된 직무 기술서를 직접 읽고 국제표준직업분류(ISCO) 코드로 변환해야 했습니다. 하지만 옥스퍼드 대학교 출판부에서 발행하는 『Annals of Work Exposures and Health』(2023)의 연구에 따르면, CASCOT, AUTONOC 등의 자동 코딩 알고리즘을 활용할 경우, 인간 코더가 수개월에서 수년에 걸쳐 수작업해야 할 수만 명 분량의 직업 데이터를 단 몇 시간 만에 정규화된 코드로 변환할 수 있습니다.

이러한 코딩 자동화 기술은 방대한 데이터를 다루는 대규모 역학 연구의 효율성을 높입니다. 실제로 약 15,000명의 폐암 환자와 18,000명의 대조군 데이터를 통합 분석한 국제 공동 연구 'SYNERGY 프로젝트'에서 이와 같은 사실을 확인할 수 있습니다. 연구진은 방대한 직업력 데이터를 정형화하여 분석한 결과, 전문 용접공뿐만 아니라 가끔 용접을 하는 작업자 역시 용접 흄 노출 기간이 길어질수록 폐암 발병 위험도(Odds Ratio)가 1.44에서 최대 1.96까지 통계적으로 유의미하게 증가한다는 사실을 입증했습니다. 이 분석 결과는 2017년 국제암연구소(IARC)가 용접 흄을 1군 발암물질(Group 1)로 지정하는 결정적인 과학적 근거가 되었습니다.

[논문] 자연어 처리를 활용한 직무 기술서 자동 코딩 연구

[논문] SYNERGY 프로젝트

산업보건 분야의 데이터 고립을 끝낼 3단계 로드맵

세계 최고 수준의 IT 인프라와 건강보험공단 시스템을 보유한 우리는 연결의 규칙만 바꾸면 됩니다.

데이터 표준화, PDF 제출을 넘어 표준 딕셔너리로
의료계의 공통데이터모델(CDM)처럼 산업보건 데이터에도 표준 딕셔너리를 도입해야 합니다. 측정 및 검진 결과는 PDF가 아닌, CAS 번호와 질병 코드가 통일된 기계 판독 가능 서식(XML/JSON)으로만 제출하도록 제도를 개편해야 합니다. 입력자가 키보드로 ‘톨루엔’이나 ‘메틸벤젠’을 자유롭게 타이핑하게 두는 것이 아니라, 시스템 단에서 CAS번호 기반의 코드를 선택하도록 강제해야 합니다. 이렇게 코드로 변환된 원시 데이터(Raw Data) 가 API(응용 프로그램 인터페이스)를 통해 K2B 서버로 들어가야 비로소 AI가 학습할 수 있는 데이터가 됩니다.

여기에 더해 노동부의 강력한 행정적 강제가 동반되어야 합니다. 노동부는 매년 실시하는 '보건관리전문기관 및 작업환경측정기관 평가' 지표를 전면 개편해야 합니다. 표준화된 디지털 데이터로 현장 지도를 수행하고 전송하는 기관에 점층적으로 큰 가점을 부여해야 합니다. 데이터 전산화 역량을 기관의 생존 요건으로 만들어야 시장이 움직입니다.

건강보험 시스템과의 융합 - 일반검진의 언어로 특수건진을 말하라
산업보건만의 완전히 새로운 데이터 시스템을 구축할 필요가 없습니다. 이미 대한민국에는 매년 수천만 건의 데이터를 처리하는 국가건강검진(건보공단)이라는 인프라가 존재합니다. 문제는 같은 병원에서 같은 채혈을 하더라도, 일반검진 결과는 건보공단 서버로, 특수건강진단 결과는 노동부 K2B 서버로 제각각 쪼개져 전송된다는 점입니다. 이 두 데이터를 융합하려면 특수건강진단 데이터를 전송할 때, 건보공단이 일반건강검진에 사용하는 의료 데이터 표준 규격(HL7 FHIR 및 EDI 청구 코드)을 차용해야 합니다.

예를 들어, 특수검진에서 실시한 간 기능 검사(AST/ALT)나 청력검사 결과를 노동부만의 독자적인 서식에 끼워 맞출 것이 아니라, 병원 EMR 시스템이 건보공단에 데이터를 전송할 때 사용하는 국제 표준 코드를 그대로 달아서 노동부에도 전송하게 만드는 것입니다. 데이터의 언어를 일반 의료계와 똑같이 맞추면, 향후 근로자의 일반 질환과 직업성 질환 데이터를 하나의 플렛폼(ex. 마이 헬스웨이)에서 충돌 없이 융합할 수 있습니다.

데이터 거버넌스 통합 - 예방 목적의 상시 결합
언어가 통일되었다면 남은 일은 법으로 가로 막혀 있던 부처 간의 데이터 장벽을 부수는 것입니다. 데이터 3법(가명정보 처리 특례)을 활용하여, 고용노동부의 산업보건 관련 데이터와 건강보험공단의 질병 데이터를 예방 목적에 한해 상시 결합할 수 있는 거버넌스를 구축해야 합니다.

[홈페이지] HL7 FHIR 공식 홈페이지
[보고서] 디지털 뉴딜: 빅데이터를 활용한 직업병 위험도 예측

보건관리자와 의료진의 업무 시간이 엑셀 데이터 입력에 지배 당해 업무의 본질을 해치면 안 됩니다. 현장에서 취득한 산업보건 데이터가 입력 단계에서부터 표준화될 때, 비로소 AI는 산업재해를 예측하고 기업의 비용을 덜어주는 핵심 솔루션으로 작동할 것입니다.

💡 보건관리자 실무 Action Item

원시 데이터(Raw Data) 확보: 외부 기관과 계약 시, 결과 보고서(PDF) 외에 데이터 분석용 표준 엑셀 파일(물질명, CAS 번호, 측정치 분리) 제공을 계약 조건에 명시하십시오.
사내 코드 표준화: 사내 물질 관리 대장 작성 시, 단순히 한글 명칭(예: 톨루엔)만 적지 말고 반드시 CAS 번호와 GHS 분류 코드를 병기하여 향후 전산화와 AI 분석에 대비하십시오.
먹지 보고서 중단 및 디지털 전환 요구: 외부 보건관리전문기관과 위탁 계약을 맺을 때, 수기 보고서(NCR지) 제출을 중단 시키십시오. 현장 점검 결과는 태블릿을 통해 사내 클라우드 시스템에 직접 입력하게 하거나, 최소한 사후 분석이 가능한 구조화된 디지털 포맷으로 납품하도록 계약서의 과업지시서를 수정해야 합니다. 데이터 전산화가 실시되지 않은 기관에게는 적극적인 디지털 전환을 요구해야 합니다.

<AI 시대, 인간 의사의 존재를 묻다>
1화. AI의 진화와 의학의 변곡점: LLM이 열어갈 새로운 지평
2화. HealthBench로 본 의료 AI 성능, 과연 믿을 만할까?
3화. 특수건강진단 판정을 AI가 대신할 수 있을까?
4화. 앵무새를 죽여라 - AI시대, 전문가의 생존전략

오이레터를구독하고 이메일로 받아보세요

산업보건과 환경보건에 종사하거나 관심있는 분들을 위한 고품격 뉴스레터

이전 뉴스레터

과로사 예방을 위한 노력: 뇌심혈관질환·수면 리플렛 소개

2026. 4. 6.

다음 뉴스레터

지금 산업보건현장에는 더 많은 기록 보다 더 나은 도구가 필요하다.

2026. 4. 20.

오이레터

산업보건과 환경보건에 종사하거나 관심있는 분들을 위한 고품격 뉴스레터