data_cleaning Project/프로젝트 주제 (1)
2025-01-09 14:29:27

 우선 프로젝트 주제를 얘기하기 전에 짚고 넘어가야할 부분이 있다. 반성아닌 반성을 하자면, 지난 1년 동안 개발 공부를 해왔지만 정리도 제대로 안하고 코드 분석도 소홀히 한 거 같다. 블로그, 깃허브 또한 마찬가지이다. 처음엔 엄청난 의욕을 가지고 작성했었는데 지금은 그렇지 않고 있다. 주변에서는 이런 말을 많이 한다. "기록을 남겨야 한다." 이런 조언을 무시하며 1년 정도를 보내왔다. 그리고 이런저런 핑계를 대며 기록을 소홀히 했다. 아직 완성되지 않았으니 완성하고 올리자, 블로그에 시간을 많이 쓰면 결국 공부를 못한다 등. 사실은 이 모두가 핑계였다는 것을 나는 알고 있었을 지도 모른다. 따라서 지금부터라도 시작하려고  한다.

 

 

  지난 1년 동안 개발 공부를 하면서 시계열 데이터에 관한 프로젝트도 진행해보고 이미지 데이터에 관한 프로젝트도 진행하였다. 전자의 경우 깊이감있는 공부를 하진 않았고 후자의 경우 나름 논문도 하나 나올만큼의 성과가 있었다. 주제는 "교통 표지판 인식에서의 일반화 성능 평가"이다. 프로젝트 진행은 나와 연구실 동료와 진행하였고 담당 교수님의 지휘 하에 진행하였다. 프로젝트를 진행하면서 많은 고충이 있었다. 처음에는 GPU 연동과 모델 수집이 너무 어려웠다. 하지만 지나고보니 가장 힘들었던 부분은 데이터였다. 그저 데이터를 수집하고 모델에 입력하면 끝이라고 생각했는데 너무 오만한 생각이었다. 데이터 수집뿐만 아니라 분석 및 이상치 데이터를 관리하는 것이 이렇게나 힘들 줄 몰랐다. 또한 잘못된 데이터로 인해 모델의 성능이 떨어지는 것 또한 간과하고 있었다. 실제로 논문 마감 1주일 전에 예상치 못한 데이터의 오류가 있었다. 이를 해결하기 위해 낮과 밤이 바뀔 정도였다. 몇 천개 이상의 데이터를 눈으로 확인하고 잘못된 데이터를 직접 수정하는 것은 여간 쉬운 일이 아니었다. 따라서 생각한 것이 클린한 데이터를 학습한 모델로 다른 데이터를 정제하는 것이다.

 

 

 다음 챕터부터는 데이터 정제를 위한 설계를 준비하도록 하겠다.