알라딘

헤더배너
상품평점 help

분류

이름:박효균

최근작
2021년 4월 <빅데이터 마이닝 3/e>

박효균

2009년부터 13년째 네이버에서 데이터 엔지니어링과 데이터 과학, 그 중간 어딘가쯤의 업무를 수행해 오고 있다. 네이버 데이터 정보 센터에서 하둡을, 네이버 랩스에서 스팍과 ML을, 네이버 검색에서 딥러닝을 주로 사용했고, 현재는 네이버 파이낸셜의 파이낸셜인텔리전스 팀을 리딩하고 있다.  

대표작
모두보기
저자의 말

<빅데이터 마이닝> - 2017년 2월  더보기

이제는 빅데이터라는 용어 자체만큼이나, 그 용어의 식상함을 논하는 것조차 식상하게 느껴지는 시대가 되었다. 그러나 이 책은 허식 없이 매우 현실적인 접근 방식으로 데이터마이닝 기법을 빅데이터에 적용하는 방법을 설명하고 있다. 각 기법을 메모리에 담을 수 있는 경우와 메모리에 담을 수 없는 경우로 나누어 친절하게 해법을 알려준다. 서서히 데이터 과학 분야는 관련 업계의 통계학자나 엔지니어가 갖춰야 할 선택적인 '지식'이 아닌, 필수적인 '상식'이 되어가고 있다. 어쩌면 우리는 미래의 상식을 공부하기 위해 이 책을 펼친 것인지도 모른다. 이 책은 통계학과 데이터 마이닝, 그리고 컴퓨터 공학을 동시에 다루고 있음에도, 이 세 분야를 자세하고도 조화롭게 서술하고 있다. 덕분에 대학 교재(http://www.mmds.org/)임에도 불구하고 실무에 도움이 될 정도로 내용에 깊이가 있다는 장점이 있다. 동시에, 통계학자와 엔지니어 모두에게 어려운 책이 돼버렸다는 단점도 있다. 따라서 이 책을 공부하는 데 도움이 되는 팁을 먼저 공유하고자 한다. 1. 원서는 아래 URL에서 무료로 다운로드할 수 있다. 역서만으로 잘 이해가 되지 않는 부분이 있다면, 해당 부분을 원서에서 찾아 반복해서 세 번 정도 차분하게 읽어보기 바란다. http://infolab.stanford.edu/~ullman/mmds/bookL.pdf 2. 아무래도 대학 교재이다 보니, 전개 방식이 연역적이며 딱딱한 편이라서 이해가 어려울 수 있다. 각 절의 앞부분을 이해하지 못했더라도, 일단 빠르게 읽고 넘어간 후 예제를 보기 바란다. 예제를 읽고 나서 다시 앞부분의 이론을 보면 이해가 쉬울 것이다. 통계학자와 엔지니어는 각기 다른 관점으로 데이터 과학이라는 분야에 접근한다. 통계학자들은 신뢰구간과 불확실성 측정에 관심이 많은 반면, 프로그래머들은 머신 러닝을 통한 재빠른 구현과 그 결과에 더 관심을 두는 편이다. 이를 정리하기 위해 조시 윌스(https://twitter.com/josh_wills/)는 이렇게 말했다. "데이터 과학자란 통계학을 남들보다 잘 알고 있는 소프트웨어 공학자, 그리고 소프트웨어 공학을 남들보다 잘 알고 있는 통계학자를 말한다." 하지만 이것만으로 분석가의 자질을 논하기에는 뭔가 부족하다. 현업에서 데이터를 분석하다 보면, 무엇보다도 그 데이터 도메인에 대한 지식과 분석 노하우가 가장 중요하다는 사실을 느끼게 된다. 그리고 해당 도메인을 잘 이해하기 위해서, 때로는 인문학적 소양이 필요한 시점이 오기도 한다. 이론이나 기술보다는 데이터 자체의 품질과 양이 더 중요하며, 그 데이터에서 가치를 만들어내는 것은 결국 분석가의 자질에 달렸다.

가나다별 l l l l l l l l l l l l l l 기타
국내문학상수상자
국내어린이문학상수상자
해외문학상수상자
해외어린이문학상수상자