블로그

[와이즈인컴퍼니 : 플젝 스토리] 제34호 : 빅데이터 – 큼지막한 데이터도 분석할 수 있어?

등록일

2024-08-27

조회수

19

지혜는 경험에서 나온다고 합니다. 와이즈인컴퍼니에선 좋은 경험이 될 수 있는 다양한 프로젝트 사례들을 주기적으로 보내드리고 있습니다. 받으시는 여러분의 사업과 업무에 지혜가 가득하길 바랍니다. 더 많은 솔루션을 원하신다면 와이즈인컴퍼니에 메일회신 또는 연락부탁드립니다.
 2024년 8월 4주차
 빅데이터 큼지막한 데이터도 분석할 수 있어?

지혜는 경험에서 나온다고 합니다.

와이즈인컴퍼니에선 좋은 경험이 될 수 있는 다양한 프로젝트 사례들을 주기적으로 보내드리고 있습니다. 받으시는 여러분의 사업과 업무에 지혜가 가득하길 바랍니다.

더 많은 솔루션을 원하신다면 와이즈인컴퍼니에 메일회신 또는 연락부탁드립니다.

출처 : 로봇기술
로봇? 이곳은 어디야?

 

이곳은 한국로봇산업협회랍니다! 한국로봇산업협회(KAR)는 1999년에 설립된 이래로 우리나라의 로봇산업 발전을 위해서 노력하고 있어요. KAR의 목표는 로봇산업 강국 도약을 선도하는 대표적인 단체가 되는 거랍니다!

 

이를 위해 산업활성화 기반구축, 핵심사업 추진, 회원사 지원체계 강화를 전략으로 삼고 있답니다. 그 핵심사업으로 회원사를 위한 R&D 사업, 인력양성사업, 로보월드 및 국제협력사업, 표준 및 조사통계 사업 등 여러 가지를 진행하고 있어요.

서울시 용산구 한강대로 31

혹시 한국로봇산업협회에 대해 더 알아보고 싶으신가요?

로고를 누르면 안내해 줄 거예요!

와! 그럼 와이즈인은 어떤 일을 한 거야?


와이즈인컴퍼니는 티브릿지코퍼레이션과 협력하여 KAR의 의뢰인 2022 빅데이터 활용 로봇 분야 채용 동향 및 특이점 분석을 수행했어요. 이는 로봇 분야 채용 동향 분석이 목적이랍니다. 이 분석 자료는 나중에 산업 발전을 위해서 사용될 수 있어요.

 

예를 들어, 기업에서 어떤 인재를 원하는지 알게 된다면 취업을 희망하는 사람들의 준비가 수월해지겠지요. 또는 이전의 조사자료가 있다면 그것과 비교하면서 어떤 방향으로 산업이 나아가도 있는지 알아낼 수도 있고요.

 

아는 것이 힘이라는 말처럼, 빠르고 정확한 정보는 중요하답니다.

어떻게 분석을 진행했니?

 

온라인 채용 포털의 정보와 채용 공고를 아주 많이 수집하는 것이 분석의 시작이었답니다. 수십만 건의 채용 공고 중 로봇 분야 채용 공고 수만 건을 골라내고, 이 공고들을 분석하기 시작했지요.

 

먼저 로봇 분야 채용 공고를 분류합니다. 크게 로봇 분야로 묶일지라도, 그 내부에선 세부적으로 분야가 갈리기 마련이에요. 예를 들어, 로봇의 하드웨어를 만드는 것과 소프트웨어를 만드는 것은 차이가 있지요.

 

그 이외 연봉이나, 연차 등의 정량적 자료들은 평균이나 표준편차 등의 기술 통계량을 활용해서 보여줄 수 있어요. 기업의 소재지, 기업이 원하는 구직자의 학력 등도 나타낼 수 있지요.

 

그러나 정성적 자료를 분석하는 것은 단순한 방법으로는 할 수 없답니다. 이 경우, 자료가 많으므로 분석은 빅데이터 분석의 성격을 띱니다. 이를테면 그 기업이 원하는 인재상 같은 것은 정리하기 어렵지요. 어디에선 ‘시간을 잘 지키는 인재’를 원하고, 어디에선 ‘학생처럼 잘 배우는 사람’을 원한다고 적었을지도 모르니까요.

그러면 정성적 자료는 어떻게 분석한 거야?


비정형 형태의 텍스트 데이터(이메일, 웹 페이지, 텍스트 문서 등)의 양이 많다면, 이걸 일일이 보기 위해 많은 시간과 노력이 필요해요. 그래서 정보를 추출하기 위해 전처리 과정을 거쳐야 합니다.

 

이 과정들은 빅데이터를 다루는 것과 연결되어 있어요. 먼저 텍스트마이닝을 통하여 언어를 분해해요. ‘은’, ‘는’, ‘이’, ‘가’ 같은 조사는 핵심적인 키워드에 전혀 해당하지 않지요. 이런 말들을 걸러내는 것이랍니다.

[텍스트 마이닝 예시]

 

다음 과정은 토픽 모델링이에요. 이건 문서를 이루는 키워드들을 바탕으로 문서에서 주제를 도출하기 위해 사용하는 통계적 분석방법이랍니다. 이걸 이용해서 문서들을 주제별로 분류할 수 있어요. 이 경우, 채용 공고들을 분류하는 데 사용하지요.

 

잠재 디리클레 할당(LDA)은 주어진 문서의 숨겨진 주제를 추론하는 확률 모델 알고리즘이랍니다. 이걸 이용해서 문서 전체의 주제, 각 문서별 주제 비율, 그리고 각 주제에 포함될 단어의 분포를 알아낼 수 있답니다.

 

이 이후, 각 키워드가 얼마나 언급되었는지 빈도 분석을 할 수 있습니다. 전체를 기준으로 할수도 있고, 각 주제별로 할 수도 있으며, 하나의 채용 공고를 기준으로 할 수도 있어요.

결과는 어떤 방식으로 나오니?


앞서 분석들을 통해서, 채용 공고들을 직무 관련 하위 주제별로 나눌 수 있게 되었어요. 이 주제들은 기존에는 보이지 않았으며, 분석을 거쳐 비슷한 키워드를 공유하는 것을 기준으로 나누었습니다.

 

그리고 각 주제들이 전체에서 얼마나 비중을 차지하는지 보여드렸답니다. 또 각 주제별로 조명하면서 설명했어요. 그 주제는 어떤 키워드를 담고 있으며, 전체에서 얼마나 비중을 차지하고 있는지. 그리고 특이사항이 있는지를 보여줬답니다.

[주제별 비중 예시]

 

이 예시 데이터를 보시면, 서로 가까운 주제들끼리는 거리가 가깝게 표현되어 있습니다. 그리고 원이 클수록 더 비중이 높은 주제에요. 이 경우, 1번 주제가 오른쪽의 키워드에서 얼마나 큰 비중을 가졌는지 나온답니다.

 

마지막으로는 전체 자료에서 키워드의 빈도를 보여드렸어요. 이 분석은 매년 시행했었기에, 과거의 분석 결과와 함께 비교하면서 보여드렸답니다. 이것을 보면 로봇 분야에서 무엇이 각광받는지, 어떤 것이 상승세고, 하락세인지 파악할 수 있어요.

이번 소식도 재미있으셨나요?


과거에는 저장매체의 한계 때문에 단편적인 소량의 데이터만으로 분석을 진행해야 했지요. 시간이 지나면서, 저장매체의 성능이 상승하자 우리는 대량의 풍성한 데이터를 활용할 수 있게 되었습니다. 즉 빅데이터 시대의 도래이지요.

 

데이터의 크기가 커질수록 분석하는 난이도는 상승합니다. 빅데이터 분석을 위해서는 기계학습, 인공신경망, 그리고 앞서 언급한 데이터 마이닝 등의 기술이 필요합니다. 방대한 양의 정보에서, 정말 가치 있는 정보를 찾거나 만들어야 하기 때문이지요.

 

‘너무 당연한 얘기 아니야?’라고 생각하시겠지만, 당연한 얘기가 아닙니다. 

빅데이터 분석이 가능할 정도의 역량을 가진 회사는 흔치 않아요~

빅데이터의 수집과 분석.

꼭 이것을 체크해 보고 선택하세요.