Top 13 데이터 사이언스 거품 The 178 Latest Answer

You are looking for information, articles, knowledge about the topic nail salons open on sunday near me 데이터 사이언스 거품 on Google, you do not find the information you need! Here are the best content compiled and compiled by the https://toplist.charoenmotorcycles.com team, along with other related topics such as: 데이터 사이언스 거품 데이터 사이언스 현실, 데이터 사이언스 전망, 한림대학교 데이터과학융합스쿨, 임상 데이터 분석, 임상의학 통계


미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실
미국 IBM 본사 Data Scientist가 알려주는 데싸의 씁쓸한 현실


데이터 사이언스 거품

  • Article author: m.dcinside.com
  • Reviews from users: 13698 ⭐ Ratings
  • Top rated: 3.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 데이터 사이언스 거품 통계학자체가 지루하고 재미가없음.데이터가 가치있을때는 가공된 데이터로 예측을 할 때인데 이건 수리통계랑 관련없고 거의 경… …
  • Most searched keywords: Whether you are looking for 데이터 사이언스 거품 통계학자체가 지루하고 재미가없음.데이터가 가치있을때는 가공된 데이터로 예측을 할 때인데 이건 수리통계랑 관련없고 거의 경…
  • Table of Contents:
데이터 사이언스 거품
데이터 사이언스 거품

Read More

데이터 사이언스 거품

  • Article author: pgr21.com
  • Reviews from users: 16860 ⭐ Ratings
  • Top rated: 3.2 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 데이터 사이언스 거품 몇 년 전에 데이터 사이언스 블로그 하시던 분이 그러시더라고요. 한국은 아직 후발주자라 갈피를 못잡고 buzz word에만 매몰돼서 어중이 떠중이들이 … …
  • Most searched keywords: Whether you are looking for 데이터 사이언스 거품 몇 년 전에 데이터 사이언스 블로그 하시던 분이 그러시더라고요. 한국은 아직 후발주자라 갈피를 못잡고 buzz word에만 매몰돼서 어중이 떠중이들이 …
  • Table of Contents:
데이터 사이언스 거품
데이터 사이언스 거품

Read More

프로그래밍 못해도 데이터 과학자가 될 수 있을까? – 한빛출판네트워크

  • Article author: m.hanbit.co.kr
  • Reviews from users: 31452 ⭐ Ratings
  • Top rated: 4.3 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 프로그래밍 못해도 데이터 과학자가 될 수 있을까? – 한빛출판네트워크 ‘데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 … 두 번째는 데이터 과학의 공급이 과잉되어 고용 시장의 거품이 터진다는 점 … …
  • Most searched keywords: Whether you are looking for 프로그래밍 못해도 데이터 과학자가 될 수 있을까? – 한빛출판네트워크 ‘데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 … 두 번째는 데이터 과학의 공급이 과잉되어 고용 시장의 거품이 터진다는 점 … 데이터과학, 데이터과학자, 빅데이터, 데이터분석, 프로그래밍, R, 파이썬, SQL, 데이터사이언스, 데이터사이언티스트 ‘데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 데이터를 사용하는 과정이다.’ 데이터 과학이라는 게 새로운 내용의 개념은 아니다. 과거에도 판매 수치나 동향은 분석해왔다. 다만, 지난 10년간 과거보다 기하급수적으…
  • Table of Contents:

IT모바일

데이터 과학이란 무엇인가

수학과 통계학

프로그래밍과 데이터베이스

프로그래밍을 못해도 데이터 과학자가 될 수 있을까

데이터 과학은 사라질까

프로그래밍 못해도 데이터 과학자가 될 수 있을까? - 한빛출판네트워크
프로그래밍 못해도 데이터 과학자가 될 수 있을까? – 한빛출판네트워크

Read More

¾ï´ë ¿¬ºÀ ¹Þ´Â µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®°¡ °®Ãç¾ß ÇÒ 8°¡Áö ¿ª·® ¨ç – ¸ÅÀÏ°æÁ¦

  • Article author: www.mk.co.kr
  • Reviews from users: 31634 ⭐ Ratings
  • Top rated: 3.1 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about ¾ï´ë ¿¬ºÀ ¹Þ´Â µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®°¡ °®Ãç¾ß ÇÒ 8°¡Áö ¿ª·® ¨ç – ¸ÅÀÏ°æÁ¦ 그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. … 위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 … …
  • Most searched keywords: Whether you are looking for ¾ï´ë ¿¬ºÀ ¹Þ´Â µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®°¡ °®Ãç¾ß ÇÒ 8°¡Áö ¿ª·® ¨ç – ¸ÅÀÏ°æÁ¦ 그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. … 위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 … <°í¿µÇõÀÇ µ¥ÀÌÅÍ ¾×¼Ç>
  • Table of Contents:

°í¿µÇõÀÇ µ¥ÀÌÅÍ ¾×¼Ç

¾ï´ë ¿¬ºÀ ¹Þ´Â µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®°¡ °®Ãç¾ß ÇÒ 8°¡Áö ¿ª·® ¨ç - ¸ÅÀÏ°æÁ¦
¾ï´ë ¿¬ºÀ ¹Þ´Â µ¥ÀÌÅÍ »çÀ̾ðƼ½ºÆ®°¡ °®Ãç¾ß ÇÒ 8°¡Áö ¿ª·® ¨ç – ¸ÅÀÏ°æÁ¦

Read More

컴퓨터 사이언스 부트캠프 with 파이썬: 자료 구조와 알고리즘으로 배우는 컴퓨터 … – 양태환 – Google Sách

  • Article author: books.google.com.vn
  • Reviews from users: 22302 ⭐ Ratings
  • Top rated: 3.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about 컴퓨터 사이언스 부트캠프 with 파이썬: 자료 구조와 알고리즘으로 배우는 컴퓨터 … – 양태환 – Google Sách Updating …
  • Most searched keywords: Whether you are looking for 컴퓨터 사이언스 부트캠프 with 파이썬: 자료 구조와 알고리즘으로 배우는 컴퓨터 … – 양태환 – Google Sách Updating 32비트와 64비트는 무슨 의미일까? 스택과 힙은 각각 언제 사용해야 할까? 어떻게 하면 CPU와 메모리를 좀 더 효율적으로 사용할 수 있을까? 프로그래밍 문법만 배워서는 실무에 들어갔을 때 한계에 부딪힐 수 있습니다. 좋은 프로그램을 만들려면 결국 자료 구조와 알고리즘은 물론 컴퓨터의 동작 원리를 알아야 합니다. 이 책은 컴퓨터 사이언스의 핵심만 간추려 쉽게 설명합니다. 또한, 165개의 그림으로 개념을 시각화하고, 파이썬으로 주요 원리를 실습할 수 있게 안내합니다.
  • Table of Contents:
컴퓨터 사이언스 부트캠프 with 파이썬: 자료 구조와 알고리즘으로 배우는 컴퓨터 ... - 양태환 - Google Sách
컴퓨터 사이언스 부트캠프 with 파이썬: 자료 구조와 알고리즘으로 배우는 컴퓨터 … – 양태환 – Google Sách

Read More

Your Anonymous Workplace Community – Blind

  • Article author: www.teamblind.com
  • Reviews from users: 18824 ⭐ Ratings
  • Top rated: 4.9 ⭐
  • Lowest rated: 1 ⭐
  • Summary of article content: Articles about Your Anonymous Workplace Community – Blind 우선 답변해주시는 분들께 미리 감사합니다.안녕하세요. 현재 회계법인에서 근무중인 4년차 회계사입니다. 최근 커리어 고민을 많이 하고 있는데요, … …
  • Most searched keywords: Whether you are looking for Your Anonymous Workplace Community – Blind 우선 답변해주시는 분들께 미리 감사합니다.안녕하세요. 현재 회계법인에서 근무중인 4년차 회계사입니다. 최근 커리어 고민을 많이 하고 있는데요, …
  • Table of Contents:
Your Anonymous Workplace Community - Blind
Your Anonymous Workplace Community – Blind

Read More


See more articles in the same category here: https://toplist.charoenmotorcycles.com/blog.

프로그래밍 못해도 데이터 과학자가 될 수 있을까?

“데이터 과학(data science)은 현실의 문제를 해결하고 이해하는 데 데이터를 사용하는 과정이다.”

데이터 과학이라는 게 새로운 내용의 개념은 아니다. 과거에도 판매 수치나 동향은 분석해왔다. 다만, 지난 10년간 과거보다 기하급수적으로 더 많은 데이터에 접근할 수 있게 되었고, 컴퓨터는 모든 데이터의 생성을 돕는 동시에 많은 정보를 처리하는 유일한 방법이 되었다.

데이터 과학자는 컴퓨터 코드로 데이터를 변환하거나 집계 및 통계 분석, 머신러닝 모델을 훈련하는 등의 일을 한다. 코드 결과는 소비와 관련된 보고서 또는 대시보드, 연속적으로 실행하도록 배치된 머신러닝 모델일 수도 있다.

데이터 과학이란 무엇인가?

새로운 매장을 오픈하는 소매업이 좋은 위치를 선정하기 위해 데이터 과학자에게 데이터 분석을 의뢰한다고 가정해보자. 의뢰를 받은 데이터 과학자는 과거의 온라인 주문 배송지 데이터를 참고하여 상권을 분석해 고객 수요가 있을 만한 곳을 찾는다.

그리고 고객 위치 데이터 및 해당 지역의 인구 조사를 통한 인구 통계 및 소득 정보를 결합한다. 이런 데이터셋으로 찾아낸 최적의 장소를 추천하게 된다.

또 다른 예로 어느 기업에서 고객이 쇼핑할 때 상품을 추천하고 구매로 이어지게 하여 온라인 주문량을 늘리고 싶어 할 수 있다.

이때 데이터 과학자는 과거의 웹 주문 데이터를 불러와 현재 장바구니 항목을 토대로 소비자 니즈에 맞는 상품을 예측하는 머신러닝 모델을 만든다. 이후 회사의 기술 팀과 협업해 고객이 쇼핑을 할 때마다 상품을 추천하는 시스템을 개발할 것이다.

“많은 사람이 데이터 과학을 연구하기 시작할 때 앞으로 배우게 될 분량에 압도당한다.”

코딩(무슨 언어를 배워야 하는가), 통계(어떤 방법이 가장 중요하고 어떤 방법이 그나마 학문적인가), 머신러닝(머신러닝이 통계나 AI와 어떻게 다른가), 일하고 싶은 분야의 기본 지식 등… 잠시 숨을 한 번 고르고 이어가자. (후읍, 파)

다른 데이터 과학자부터 최고 경영자에 이르기까지 다양한 청중에게 효과적으로 결과를 전달하기 위한 비즈니스 기술도 필요하다. 박사 학위 취득과 수년간의 데이터 과학 경력, 통계 및 프로그래밍 전문 지식을 요구하는 채용 공고를 보면 은근슬쩍 불안감이 찾아올 수도 있다.

“어떻게 모든 기술을 배울 수 있을까? 어느 것부터 시작해야 할까? 기본은 무엇일까?”

데이터 과학의 다양한 영역을 살펴보다 보면 드루 콘웨이(Drew Conway)의 데이터 과학 벤다이어그램을 접하게된다. 처음 발표할 당시 드루 콘웨이는 ‘데이터 과학은 수학과 통계 영역에서 전문성, 해킹 기술(코딩)의 교차점에 속한다’라고 말했다.

[데이터 과학을 만든 기술 결합]

위 그림은 데이터 과학자를 정의할 때 종종 사용된다. 드루 콘웨이가 제안한 데이터 과학의 구성 요소를 약간 다르게 변형한 것이다. 세 가지 모두 기본 기술이고 각 기술을 어느 정도 알고 있어야 한다. 하지만 이 모든 기술을 알고 있는 전문가가 될 필요는 없다.

다양한 종류의 데이터 과학 전문 분야를 정리했지만, 그것이 항상 직업과 연결되지는 않는다. 설령 연결된다 하더라도 많은 기업에서 해당 분야의 직업을 다르게 부른다. 그렇다면 각 구성 요소는 무엇을 의미하는지부터 살펴봐야 겠다.

수학과 통계학

기본적인 수준에서 수학과 통계학 지식은 데이터 활용 능력과 같다. 전자 상거래 업체에서 일하고 있으며 비즈니스 파트너가 평균 주문 금액이 가장 높은 국가에 관심을 두고 있다고 가정해보자. 데이터를 활용할 수 있다면 이 질문에 쉽게 답할 수 있다. 단순히 정보를 제시하고 결론을 도출하기에 앞서, 좀 더 깊이 들어가 예를 들어보자.

A 국가로부터 100달러에 주문 한 건을 받고 B 국가로부터 평균 75달러에 1,000건의 주문을 받았다면? A 국가가 더 높은 평균 주문 가치를 지니는 게 맞다. 그렇다면 주문 수를 늘리고자 A 국가의 광고에 반드시 투자해야 할까? 그렇지 않다.

A 국가의 주문이 500개라면 통계적 검증으로 평균 주문 금액이 얼마나 다른지 확인할 수 있다. 즉 A, B 국가 간 차이가 정말로 없다면 차이점을 볼 수 없다. 그래서 어떤 접근 방법이 합리적이고 어떤 것을 고려해야 하며 어느 결과가 중요하지 않은지 여러 검증 단계가 필요하다.

프로그래밍과 데이터베이스

여기서 말하는 프로그래밍은 회사 데이터베이스에서 데이터를 가져와서 깔끔하고 효율적이며 유지 보수가 훌륭한 코드로 작성하는 기술을 말한다.

데이터 과학자는 미리 정의된 결과를 생성하기보다 확장 가능한 분석이 이뤄지는 코드를 작성해야 한다. 이를 제외하고는 여러 면에서 소프트웨어 개발자가 알아야 할 부분과 프로그래밍을 하는 부분은 유사하다.

기업마다 데이터 구성이 다르며 데이터 과학자에게 정해진 기술은 없다. 다만 데이터베이스에서 데이터를 가져오는 방법, 데이터 정리, 조작, 요약, 시각화, 공유 방법을 알아야 한다.

대부분 데이터 과학 업무는 R이나 파이썬을 주요 언어로 사용한다. R은 통계학을 기반한 프로그래밍 언어이다. 일반적으로 통계 분석 및 모델링, 시각화, 결과 보고서 생성 등에 적합하다.

파이썬은 범용 소프트웨어 개발 언어로 시작된 프로그래밍 언어로 데이터 과학 분야에서 큰 인기를 끌고 있다. 파이썬은 대용량 데이터셋 작업, 머신러닝 및 실시간 알고리즘(아마존의 추천 엔진)에서 더 훌륭하다고 알려져 있다.

하지만 두 언어는 많은 기여자의 노력으로 비슷한 수준이 됐다. 데이터 과학자는 R을 사용해 일주일에 수백만 번 실행되는 머신러닝 모델을 만드는 동시에 파이썬에서 깔끔하고 보기 좋은 통계 분석을 한다. R과 파이썬은 다양한 이유로 데이터 과학 분야에서 유명한 언어다.

● 둘 다 오픈 소스 언어이고 무료다. 많은 사람과 기업, 조직, 기여자가 코드를 제공한다. 데이터 수집, 조작, 시각화, 통계 분석, 머신러닝을 할 수 있는 다양한 패키지 및 라이브러리(코드 집합)도 많다.

● 사용자가 워낙 많아 코드 실행 중 문제가 발생하면 도움을 받기 쉽다. 아직 많은 기업에서 SAS, SPSS, 스타타(stata), 매트랩(matlab) 등과 같은 상용 프로그램을 사용하기도 하지만 R과 파이썬으로 옮기는 추세이다.

대부분 데이터 과학 분석이 R이나 파이썬으로 이뤄지지만 데이터를 가져올 때는 데이터베이스 작업을 위해 SQL 언어를 사용한다. SQL은 데이터베이스에서 데이터를 조작 및 추출 시 사용하는 프로그래밍 언어다.

일일 주문량이 어떻게 변화할지 예측하기 위해 기업 내 고객 주문 레코드 수억 개를 분석한다고 가정해보자. 먼저 일자별 주문량을 가져오려면 SQL 쿼리를 작성해야 한다. 그다음 일일 주문량을 가져와서 R이나 파이썬으로 통계 예측을 실행한다. 이런 이유로 SQL은 데이터 과학 커뮤니티에서 인기가 높다.

마지막으로 중요한 부분은 이전 코드가 어떻게 변경됐는지 추적하는 버전 관리다. 버전 관리를 통해 파일을 저장하고 이전 시간으로 되돌리며 누가 어떤 파일을 어떻게, 언제 변경했는지 확인할 수 있다. 데이터 과학과 소프트웨어 공학에서 매우 중요하다. 누군가 실수로 잘못된 코드를 저장하면 되돌리거나 어디가 바뀌었는지 확인할 수 있어야 한다.

버전 관리에서 많이 사용되는 시스템인 깃(git)은 웹 기반으로 호스팅한 깃허브(github)와 결합하여 종종 사용된다. 깃은 커밋(commit)을 통해 변경 사항이 저장되고 다시 돌아가거나 각 커밋에 어떤 변경이 있었는지 프로젝트의 전 과정을 보고 되돌릴 수 있다.

두 명이 같은 파일로 각각 작업할 때 한 명이 실수로 삭제하거나 덮어 쓰는 문제를 방지할 수 있다. 엔지니어링 팀이 있는 많은 기업에서 코드를 공유하거나 제품화한다면 깃을 사용해야 한다.

프로그래밍을 못해도 데이터 과학자가 될 수 있을까?

앞서 파이썬, R, SQL 등을 이야기했다고 너무 머리아프게 고민할 필요는 없다.

그래픽 인터페이스인 엑셀, 태블로(tableau), 기타 비즈니스 인텔리전스 도구만 사용해도 데이터 업무가 가능하다. 코드를 작성하지 않지만 R이나 파이썬 같은 언어와 거의 동일한 기능이 있다. 그래서 많은 데이터 과학자가 사용하고 있다.

그렇다면 그것들이 완벽한 데이터 과학 도구킷(toolkit)이 될 수 있을까? 또 그렇지만은 않다. 프로그래밍이 필요 없는 데이터 과학 팀이 있는 회사는 거의 없다. 프로그래밍에는 엑셀, 태블로 등의 도구들에 없는 장점이 있다.

첫 번째는 재생산성이다. 마우스 커서로 클릭만 하는 소프트웨어를 사용하지 않고 사용자가 직접 코드를 작성하면 매일 또는 6개월 후 데이터가 변경될 때마다 코드를 다시 실행할 수 있다. 버전 제어와도 연결된다. 즉 코드가 변경될 때마다 파일 이름을 바꾸지 않고 전체 기록을 볼 수 있는 하나의 파일로 저장할 수 있다.

두 번째는 유연성이다. 태블로는 그래프 기능이 없어서 전혀 그릴 수 없다. 프로그래밍으로는 도구 개발자가 생각지도 못한 방법을 만들어 자신만의 코드로 작성할 수 있다.

마지막으로 R과 파이썬 같은 오픈 소스 언어는 커뮤니티 기여가 크다. 개발자 수천 명이 패키지나 코드를 개발해 깃허브에 공개한다. 다른 사람의 코드로 본인의 문제를 스스로 해결할 수 있어서 기능을 추가해야 할 때 다른 업체에 의지하지 않아도 된다.

그래서 결론을 정리하자면, 프로그래밍을 못해도 데이터 과학자가 될 수는 있다. 다만, 보다 능숙한 데이터 과학자가 되려면, 그리고 업무를 보다 효율적으로 처리하려면 프로그래밍을 할 줄 아는 것이 아주 도움이 된다.

데이터 과학은 사라질까?

이쯤되면 한 가지 궁금한게 생긴다. 데이터 과학에 대한 향후 전망은 어떨까?

기술의 발전에 따라 데이터 과학이 10년이나 20년 후에도 지속될 수 있을 것인가?에 대한 질문에 두 가지를 이유로 우려하는 이들이 있다. 첫 번째로 데이터 과학이 자동화될 것이고, 두 번째는 데이터 과학의 공급이 과잉되어 고용 시장의 거품이 터진다는 점에서다.

데이터 과학의 일부분이 자동화되는 것은 맞다. 자동화된 머신러닝(AutoML)은 여러 모델과 성능을 비교하는 것이 가능해질 뿐만 아니라 데이터 준비(변수 스케일링)와 같은 auto ml 부분에 유용하게 사용할 수 있다. 이는 데이터 과학 과정의 극히 일부분이다.

자체 데이터를 생성해야 할 때 완전히 적합한 데이터를 정리하는 것은 쉽지 않다. 일반적으로 데이터 생성은 사용자 경험 연구원 및 엔지니어와 협업하여 이뤄지며 사용자의 행동을 조사하거나 기록하여 분석에 활용한다.

고용 시장의 거품이 터질 가능성을 1980년대 소프트웨어 엔지니어와 비교해보자. 컴퓨터의 가격이 하락하고 성능이 향상되면서 대중성이 가속화됐다. 컴퓨터가 모든 것을 대체하고 프로그래머가 사라질 것이라고 예상했다. 하지만 정반대의 상황이 되었다.

미국에는 소프트웨어 엔지니어가 12만 명 이상 있다. ‘웹마스터’라는 직업은 사라졌지만 훨씬 더 많은 사람이 웹사이트 개발 및 유지 보수, 성능 향상 등과 관련된 일을 한다.

앞으로 데이터 과학이 더욱 전문화되면 ‘데이터 과학자’라는 일반적인 이름은 사라질 수 있다. 하지만 많은 기업이 여전히 데이터 과학을 활용하는 초기 단계에 있으며 풀어야 할 과제가 아직 많이 남아 있다. 따라서 더 전문화되고 세분화된 직업이 생겨날 것이다.

이 글은 <데이터 과학자 되는 법> 도서 내용 일부를 발췌 편집하여 작성되었습니다. 취업 준비부터 면접, 이직, 경력관리까지 데이터 과학자로 성장하기 위한 보다 자세한 정보는 하기 책에서 만나볼 수 있습니다.

『데이터 과학자 되는 법』

억대 연봉 받는 데이터 사이언티스트가 갖춰야 할 8가지 역량 ①

데이터 사이언티스트 직군의 연봉 분포 [사진 출처 : 페이스케일]

위키피디아에서 이야기하는 데이터 사이언스의 절차 [사진 출처 : 위키피디아] ▶ 여기를 누르시면 크게 보실 수 있습니다

데이터 사이언스 코딩에 많이 활용되는 대표적인 노트북 도구인 주피터 [사진 출처 : dataquest.io] ▶ 여기를 누르시면 크게 보실 수 있습니다

머신러닝의 구분 – 지도학습(Supervised Learning)과 비지도학습 [사진 출처 : 캠브리지스파크] ▶ 여기를 누르시면 크게 보실 수 있습니다

2012년 하버드 비즈니스 리뷰가 21세기 가장 섹시한 직업으로 데이터 사이언티스트(Data Scientist)를 꼽으면서 이 새로운 직업은 전세계 수많은 사람들의 관심을 끌게 됐다. 이 용어가 나온 근원지인 미국 채용 시장을 잘 보여주는 구인구직 서비스 인디드(indeed.com)의 2016년 리포트 ‘미국에서 가장 연봉이 높은 기술 직업은?’을 살펴보면 기술 직업 15개 중에서 IT보안 전문가와 소프트웨어 아키텍트의 뒤를 이어 데이터 사이언티스트가 3위를 차지하고 있다. 직군 별 연봉 및 기타 상세한 정보들을 살펴볼 수 있는 페이스케일(payscale.com)을 살펴봐도 데이터 사이언티스트는 높은 연봉이 보장된 커리어 성장 패턴을 보이고 있음을 확인할 수 있다.한국에는 이러한 정보들을 체계적으로 보여주는 서비스가 아직 없어 수치로 말하기는 어렵지만 거의 모든 크고 작은 기업들이 데이터 사이언티스트를 뽑고 싶은데 마땅한 사람이 없어서 못뽑는다고 하소연을 하고 있다는 얘기를 직간접적으로 전해듣고 있다. 공급대비 수요가 부족하면 당연히 몸값이 올라가기 마련이고 실제로 데이터 사이언티스트의 연봉은 국내 역시 꽤 높게 형성돼 있다.그러나 이렇게 인기 있는 직업의 경우 자연스럽게 몸값 거품도 있기 마련이이다. 특히 채용 담당자가 제대로 평가하기 어려운 신종 직업이라는 점을 노려 데이터 사이언티스트라고 하기에는 사실상 부적절한 역량과 업무 경험을 가진 사람들이 스스로를 데이터 사이언티스트라고 주장하면서 채용 담당자들과 기업들을 골탕 먹이는 경우도 점점 많아지고 있다.이처럼 ‘뜨거운 감자’인 데이터 사이언티스트 분야에 종사하려고 마음을 먹었다면 어떻게 해야 시장에서 실질적으로 인정받는 성과를 내는 사람으로 성장할 수 있을지 궁금할 것이다. 뽑는 입장에서도 어떻게 성장해 온 사람이 진짜 일 잘 해서 성과를 내는 데이터 사이언티스트일지 궁금할 수밖에 없다. 이 용어 자체가 2008년에 링크트인(LinkedIn)의 데이터 제품 총괄이었던 DJ 파틸이 ‘우리 같은 일을 하는 사람들이 데이터 사이언티스트다’라고 말한 것에서 나온 것이기 때문에 역사가 채 10년도 안됐으며 산업 현장에서 나왔기 때문에 학술적으로 정교하게 정의가 된 용어도 아니다. 고로 객관식 답안지처럼 용어의 명확한 뜻과 이 커리어를 밟기 위한 정형화된 공식이 존재하지도 않는다.물리 법칙을 연구하는 과학이 물리학이고 생명체의 법칙을 연구하는 과학이 생명과학인 여타 과학들과 달리 데이터 사이언스는 데이터를 연구하는 과학이 아니라 현실 세계의 다양한 문제, 보통은 비즈니스와 밀접한 관계를 갖고 있는 문제를 데이터를 통해 해결하는 절차와 방법을 통칭한다. 따라서 과학과 산업의 융복합, 다양한 학문들간의 융복합이 자연스러운 영역이기 때문에 정형화된 순차적인 커리어보다는 다양한 커리어와 역량의 융복합이 일반적이다. 한국 및 세계의 뛰어난 데이터 사이언티스트들을 살펴봐도 그 배경이 정말 다양하다는 것을 알 수 있다.그러나 공식화된 성장의 지름길은 없지만 현업에서 성과를 제대로 내는 데이터 사이언티스트들이 노력해 쌓은 역량들을 이들이 현업에서 해결해야 하는 일의 성격과 연결해 정리할 수는 있다. 21세기에 가장 섹시하다는 이 새로운 커리어를 관심있게 보는 사람에게는 이번 정리가 도움이 될 것이다. 앞으로 두회에 걸쳐 8가지 특징을 살펴볼 것이며 순번에 따른 우선순위가 없다는 점을 미리 밝힌다.데이터 사이언티스트는 세상의 여러가지 모습들을 숫자와 수식으로 표현하는 모델링을 수시로 하게 된다. 이렇게 해야 세상의 흐름을 읽고 예측해 연관된 비즈니스에 도움을 줄 수 있기 때문이다. 수치화 될 수 있는 수많은 데이터들의 대부분은 어디서 툭 튀어나온 것이 아니라 결국 세상의 한 부분에서 나온 것이기 때문에 데이터들을 보면서 세상을 읽는 작업도 밥 먹듯이 하게 된다. 즉 데이터로 세상을 읽고, 세상에서 모델을 설정해 데이터를 뽑아내는 쌍방향의 작업을 해야 하는데 이 기반이 되는 것이 바로 수학이다. 수학을 대학에서 제대로 공부한 사람, 예를 들어 수학 석사나 박사를 이수했다면 데이터 사이언티스트가 되기에 유리한 점으로 작용할 수도 있다. 그러나 데이터 사이언스에서 요구되는 수학적인 감각은 꼭 수학을 전공으로 아주 깊게 파고들지 않았어도 수학을 세상을 읽는 도구로서 제대로 느끼고 활용할 수 있다면 어느 정도는 이미 갖고 있는 역량이라고 볼 수 있다.통계학의 근간은 결국 확률과 분포다. 데이터 사이언스에서는 수많은 데이터들을 활용해 우리가 해결하고자 하는 문제에 대한, 혹은 해결책에 대한 단서를 지니고 있는 분포와 패턴을 찾아낸다. 이러한 패턴의 분류는 머신러닝 등을 이용해 보완하거나 개량할 수 있지만 탐색적 데이터 분석(EDA)이라고 하는 데이터 사이언스의 앞단계 프로세스의 상당 부분은 사람이 통계학의 여러 방법론과 이론을 바탕으로 직접 수행해야 한다. 또 비즈니스에 도움이 되는 일의 상당수는 결국 앞으로의 기대 수익을 예상하고 그것을 벌 수 있는 조건을 구현하거나 재현하는 데에 초점을 맞추게 돼 확률적인 접근법이 필수다.한편 데이터 사이언스도 여타 과학과 마찬가지로 가설의 수립과 검증을 통해 논리적인 해결책을 도출하게 되는데 이 작업의 기본이 되는 것 역시 통계학의 방법론이다. 통계학은 다른 모든 과학에서도 기본이 되는 중요한 도구이며 데이터 사이언스에서도 마찬가지 역할을 하고 있다.데이터 사이언스를 하는 과정에서 일반적으로 가장 많은 시간을 차지하는 작업을 멍잉(munging) 혹은 랭글링(wrangling)이라고 한다. 수많은 다양한 데이터들에 대해 모양을 바꿔가면서 살펴보거나 정제하거나 조합을 다르게 시도해보거나 하는 작업들을 지칭한다. 사람이 일일이 손으로 할 수 있는 작업이 아니며 엑셀이나 다른 보편적인 생산성 도구로 수행하기에도 데이터의 양이나 복잡도 등에서 큰 무리가 따른다. 따라서 이런 작업을 하기에 최적화된 프로그래밍 언어로 코딩을 해서 해결하거나 가급적 자동화해야 한다.데이터 사이언스의 코딩에서 많이 활용되는 프로그래밍 언어는 파이썬, R, SQL 로 축약될 수 있다. 이 언어들이 데이터 멍잉과 랭글링에 최적화 된 기능들을 많이 보유하고 있기도 하고 데이터를 읽고, 쓰고, 살펴보고, 분석하는 데에 태생적으로 특화된 언어들이기 때문이다. 컴퓨터 과학을 전공으로 하면 프로그래밍과 코딩 역량에 있어서 가산점을 가져갈 수도 있지만 심지어 컴퓨터 과학 전공자 중에서도 코딩은 잘 못하는 경우도 있고, 비전공자라도 데이터 사이언스를 잘 하는 데에는 아무 문제 없는 수준으로 코딩을 배우고 익힐 수도 있다.알파고가 뜨면서 이제는 딥러닝이나 머신러닝이라는 단어가 일반인들도 한 번쯤은 들어 봤을 법한 기술 용어가 됐다. 간단하게 핵심만 이야기하면 딥러닝은 머신러닝의 한 세부 기법이며, 머신러닝은 인간 고유의 본질적 능력으로 오래전부터 여겨져왔던 ‘분류’라는 인지 행동을 기계가 자동으로 하는 기법이라고 볼 수 있다. 분류라는 행동은 정치, 경제, 사회, 문화 곳곳에 알게 모르게 자연스럽게 녹아 있으며 인간이 생존할 수 있는 중요한 본능 역시 적군과 아군의 분류다. 바꿔 말하면 분류는 세상의 수많은 문제들을 푸는 데에 다양한 형태로 활용할 수 있으며 데이터 사이언스에서도 분류로 풀어야 하는 문제가 많을 수밖에 없는데 이것을 인간이 아닌 기계가 머신러닝이라는 이름으로 할 수 있게 되었다는 점은 많은 것을 시사한다.분류는 다시 두 가지로 나눌 수 있는데 보기들 중 어느 하나로 분류하면 되는 객관식처럼 선택지를 미리 알고 분류하는 경우와 선택지 자체를 몰라서 그냥 서로 다른 둘 이상의 집단이라고 경계선을 긋는 분류가 있다. 그러나 이같은 분류 내에 사실은 수많은 파생 형태와 고려 사항이 있기 때문에 머신러닝이라는 방법론을 따로 제대로 공부하고 연습하지 않고서는 그냥 툭 가져다가 쓸 수 없다. 단 머신러닝에 대해 본질적인 깊은 이해를 갖고 있지 않더라도 큰 무리 없이 데이터 사이언스의 목표를 달성할 수 있게끔 갈수록 머신러닝 및 딥러닝의 활용이 빠르게 쉬워지고 대중화되는 흐름에 있다는 점은 눈여겨 볼만하다.편집자 주 : 나머지 4가지 역량과 데이터 사이언티스트 커리어 계발을 위해 명심해야 할 점들은 2부에서 이어집니다.[고영혁 트레저데이터 지사장 / 고넥터 대표][ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

데이터 사이언스와 제조

————이하: 12/28자 업데이트—————–

우선 제 원글에 댓글을 달아주신 여러분께 감사하다는 말씀을 전합니다. 댓글을 읽으며, 미쳐 생각이 미치지 못 하였던 부분까지도 생각을 해볼수 있는 값진 기회였어요. 또 헝클어져 있던 제 생각을 정리도 할 수 있었습니다. 하여, 사내 지원했었던 Data Scientist 포지션에의 변동 사항 공유해드리고자 합니다. Hiring manager에게서 연락을 받았습니다. 절 포지션에 채용하지는 않지만, 저와 협업을 했으면 한다는 제안을 해왔습니다. 이 제안을 제 매니저는 수락을 했습니다. 두 매니저로서는 윈윈 상황입니다. 데이터 사이언스 팀에서는 저의 domain knowledge가 필요하고, 현 부서에서는 데이터 사이언스 팀의 Deep Learning 기법을 적용해보고 싶어하니까요. 현 부서는 inline visual inspection machines를 담당합니다. 협업의 골자는 Computer vision, image classification, patterning 등입니다. Deep learning 기법을 적용하여, inspection program의 정확도를 높이고자 하는 의도입니다.

여기서 생각해봐야할 점이 있는데요. 데이터 사이언스 팀에는 제조, lean manufacturing, unit process의 domain knowledge를 조금이라도 이해하고 경험해본 사람이 없습니다. 새로 뽑은 사람도 그러할것으로 짐작합니다. 그렇기에 제게 domain knowledge를 공유해달라고 요청하는것이겠지요. 제 domain knowledge가 필요한 프로젝트는, 데이터 사이언스 팀에서 진행 중인 여러 프로젝트 중에서 하나인 프로젝트이며, 단중기 프로젝트입니다. 짧게는 6개월에서 길게는 1년 6개월 정도 걸릴 것으로 예상합니다. 문제는, 제가 데이터 사이언스 팀의 실무진 (심지어는 저대신 뽑은 새 직원)에게 domain knowledge를 전수해주는 불쏘시개 역할만 하게 되지 않을까 하는 우려입니다. 제 용도가 다 하면, 협업은 끝날 것으로 예상합니다. 차후 데이터 사이언스 팀에서 사람을 더 뽑는 날이 오더라도, hiring manager가 저를 뽑을 것 같지 않습니다. 한 번 No했던 사람을 다시 뽑는 경우는 없지 않습니까? 되려 새로운 인력 pool에서 사람을 찾겠지요.

데이터 사이언스 팀만 접근 가능한 데이터 베이스에의 접근을, 제게도 허용해줄것인지를 보면, 데이터 사이언스 팀에서 저를 동반자로 생각하는지, 아니면 필요한 부분만 빼먹고 손절할지를 쉽게 파악할 수 있을겁니다. 데이터 사이언스 팀에서 제게 data science, machine learning, deep learning 등에 관한 교육을 따로 시켜주지는 않을 것 같습니다. 상대방에게서 받는 건 괜찮은데, 상대방에게 주는 건 꺼리는 건, 인간의 본성이니까요. 다행히 상기 툴 자체에대한 진입 장벽이 생각보다 높지 않더군요. 기존에 혼자 공부를 하면서 다진 기초에 덧붙여서, 필요한 부분(협업을 통해 체득한)은 제 스스로 공부를 하면서 채울 계획입니다.

우선은 현 부서에 deep learning approach를 적용하여, 생산성을 향상시키는데에 주력을 하려고 합니다. Deep learning 기법을 도구로서 잘 활용하는, 엔지니어 이력을 다지는데에 촛점을 맞추고 협업을 진행해보고자 합니다. 제조에서의 데이터 사이언스가 허상인지, 엔지니어가 deep learning 기법을 배우는게 실효성이 더 큰지는, 제가 내공을 충분히 쌓게되면 공유해드리겠습니다. 다시금 토론에 참여해주신 여러분들께 감사하다는 말씀 전합니다.

————이하: 12/12에 올린 원글—————–

여행과 관련된 주제를 다루는 인터넷 공간이긴한데, 가끔은 진로 고민 상담 요청글도 올라기도 하는걸 봤어서, 용기를 내어 글을 하나 적어봅니다. 궁금한 점은, 제조 업체에서 데이터 사이언스를 접목해야할 타당성이 있는것인지, 아니면 제조업에서 도입한 데이터 사이언스라는 새 프레임은, 실은 엄밀한 의미에서의 데이터 사이언스가 아닌건지 궁금합니다.

실은, 전자 부품 제조 업체에서 공정 엔지니어로 일하는 와중에, domain knowledge를 바탕으로, Data Scientist로 경력을 쌓아볼까 하는 생각을 해오다가, 제조업에서의 Data Science가 허상 혹은 일시적인 거품인지, 아니면 제대로된 방향인지 의구심이 듭니다. 얼마전에 Data Scientist 포지션 사내 공고가 있어서 지원을 했었거든요. 기존에 현업에서 Data Mining/Data Visualization에 관한 경험을 쌓긴 했습니다. 머신 러닝 기법은, 준비가 미흡했습니다. 현업에서 적용해본적도 없고요. 현업에서 굳이 필요한지도 잘 모르겠습니다.

이번에 합격을 하진 못 했는데, 향후 비슷한 포지션이 또 생길걸 감안해서, 제가 역량을 집중하여 일과 외 시간에 따로 투자하여 공부/준비할 가치가 있을지…. 아니면 시간 낭비일지 감을 못 잡겠네요. 만약에 제조업에서 데이터 사이언티스트가 필요가 없다면, 데이터 사이언티스트가 필요한 업종(FAANG 혹은 금융권)으로 이직할 가능성과 의향은 전혀 없습니다. 학부/대학원 전공이 통계, CS, 물리, 수학이 아닙니다. 학위 후 현 회사에서 Data Mining/Data Visualization을 업무 중 경험을 하긴 했습니다. 파이썬 이용해서 데이터에 통계 모델을 적용, 결과값을 시각화하는 훈련은 얕게나마 혼자서 공부했고요.

1) 제가 링크한 아래의 글을 참고하면, 이분은 제조 업체에서는 데이터 사이언스가 도입되어야할 필요성을 모르겠다는 입장입니다.

제조업과 빅데이터

2) 반면, 아래 링크를 보시면, 한국에 제조/데이터 사이언스 관련 연구 단체나 부서가 최근에 여럿 생겨났습니다.

https://sites.google.com/site/dsfmanufacturing/yeonguhoesogae

https://news.skhynix.co.kr/2290

3) 흥미롭게도, 같은 포지션에 대하여, SK Hynix Korea에서는 Data Scientist라는 용어를, SK Hynix America에서는 Applied Scientist라는 용어를 사용하고 있습니다.

https://www.indeed.com/viewjob?from=app-tracker-saved-appcard&hl=en&jk=5ce1dc8937020812&tk=1epc6h6ckubnp800

4) 아래 글을 보면, “빅 데이터 시대가 온게 아니라, 내 데이터가 빅 데이터라고 우기는 시대가 온 것 같다”라는 의견을 제시합니다.

https://blog.ab180.co/posts/data-science-with-r-2-data-visualization

기존에 해 오던 일인데도, ‘데이터 사이언스’라는 단어를 집어 넣으면, 연구비 수령이 쉬워지고 혹은 결재 보고서가 쉽게 통과가 되니까, 꼭 필요하지도 않은 업종에서도 데이터 사이언스라는 단어를 남용하고 있는것인지 궁금합니다. 또, 과연 제조 업계에서는 빅 데이터와 데이터 사이언스라는 두 단어의 정의를 정확히 이해하고 있는지 궁금하네요.

그리고, FAANG이나 금융권을 제외한 업종에서, 데이터 사이언티스트가 어떻게 육성되는지 궁금합니다. 데이터 사이언티스트가 꼭 필요한 경우에요. 크게는 아래의 두가지 경우가 있을것 같은데요.

A) Domain knowledge를 가진 내부 인력을 사내 채용하여, 데이터 사이언티스트로 키우는 방법

B) 데이터 사이언스 전공을 한 외부 인력을 채용하여, domain knowledge를 주입시키는 방법

여러분들의 의견 혹은 조언 부탁드립니다. 제가 계획을 세우는데에 도움이 많이 될 것 같습니다.

So you have finished reading the 데이터 사이언스 거품 topic article, if you find this article useful, please share it. Thank you very much. See more: 데이터 사이언스 현실, 데이터 사이언스 전망, 한림대학교 데이터과학융합스쿨, 임상 데이터 분석, 임상의학 통계

Leave a Comment