미리보기
빅데이터 통계 분석과 그래픽용 프로그래밍 언어의 대표 주자! 오픈소스 R
빅데이터 통계 분석의 오픈 소스 언어 R을 통해 과학적 컴퓨팅과 분석 방법을 맣스터한다
ISBN 978-89-315-5401-4
저자 폴 제라드, 라디아 M. 존슨 저/최대우, 정석오 역
발행일 2016-03-11
분량 448p
편집 2도
판형 188x240
개정판정보 2016. 3. 11
정가 28,000원↓
판매가 25,200
(10% off)
적립금 1,400원(5%)
  소득공제
도서소개

책 소개


R로 과학 컴퓨팅 마스터하기


- 개념적이고 과학적이고 실증적인 질문에 대한 R 사용법!


 

책은 빅데이터 시대, 데이터 분석의 중요성이 화두로 떠오른 요즘, 비싼 통계 패키지를 사용하지 않아도 오픈소스로 무료인 프로그래밍 언어 R로 원하는 형태로 통계에 활용할 수 있는 과학적 분석 방법을 총 망라하고 있다.

() Packt publishing Mastering Scientific Computing with R 번역서이며, 기본적인 R 개념으로부터 그룹 간 차이 및 모델의 유의성을 통계학적으로 검정하는 등 과학 데이터 분석에 공통적으로 필요한 업무를 해내는 데 R을 어떻게 활용할 수 있는지를 다룬다. 저자들은 이 책에서 R을 통계 공용어라고 지칭한다. 대량의 데이터를 기반으로 하는 일반 회사의 마케팅 툴 뿐 아니라 보건, 의료 분야에서도 널리 활용되는 것으로 알려진 R의 저자들은 실제 의사이자 의료 연구원이다. 폴 제라드는 의사이자 의료 연구원, 교수이고 라디아 M. 존슨은 면역학 박사이자 연구 과학자로 일하고 있다. 어려운 통계 용어가 다수 등장하는 이 책의 번역은 외대 통계학과 교수이자 데이터시각화연구센터장인 빅데이터 분야의 권위자 최대우 교수와 같은 대학 통계학과 교수인 정석오 교수가 맡았다. 특히 정석오 교수는 이 책의 모든 데이터를 컴파일 해보고 통계학과 교수로서 틀린 부분을 바로 잡기도 했고, 역자 주석을 다는 등 내용 검증에 신경 썼다.

이 책은 쉽지 않은 수준의 통계 용어로 무장되어 있어 각오를 단단히 다지고 입문해야 한다. 물론 R 프로그래밍 경험이 전혀 없는 독자도 입문할 수 있으며, 이 책을 덮을 때쯤이면 통계 용어와 R을 접목하는데 익숙해질 것이다.

이 책에서는 R에서 데이터 관리, 모수적 모형과 비모수적 모형을 이용한 가설 검정, 선형 방법을 사용한 통계 모델링 수행법, 커널 회귀법으로 데이터 비선형 관계 모델링, 코딩 제품성을 향상시키기 위한 행렬 연산, 비관측 변수를 모델링하기 위한 관측 데이터 활용, 다중 대체법을 사용한 결측 데이터 분석, 주성분분석(PCA)/특이값분해(SVD)/요인분석(FA)을 이용한 다차원 자료 축약 등을 공부할 수 있다. 이 책에 나오는 모든 컬러 차트와 소스는 성안당 자료실(www.cyber.co.kr)에서 다운로드 가능하다.

 

0fa810b0d9507afc 

저자 소개


폴 제라드(Paul Gerrard): 폴 제라드(Paul Gerrad)는 미() 메인(Maine) 주 포틀랜드 시에 사는 의사이자 의료 연구원이다. 그는 현재 포틀랜드의 뉴잉글랜드 재활병원에서 심폐의료 재활 프로그램의 의료 실장으로 근무 중이다. 그는 대학에서 비즈니스 경제를 공부했다. 이후 의과 대학(메디컬 스쿨)을 수료한 뒤에는 하버드 메디컬 스쿨과 스폴딩 재활병원에서 물리의학과 재활로 의학 수련을 했는데, 포틀랜드로 이주하기 전까지 하버드에서 수석 레지던트(수련의)이자 교수로 근무했다. 그는 보스턴 지역과 전국의 다른 교육기관에서 연구자와 연구 프로젝트를 공동 진행한다. 그는 외상성 뇌 손상을 비롯, 화상 재활, 건강 조건 해제의 역학 등 광범위한 주제에 대한 출판과 연구를 해왔다.

 

라디아 M. 존슨(Radia M. Johnson): 라디아 M. 존슨(Radia M. Johnson)은 면역학 박사 학위를 가지고 있으며, 현재 캐나다 몬트리올 대학교(Université de Montréal)에서 면역학과 암 연구를 위한 연구소에서 연구 과학자로 일하고 있다. 여기에서 그녀는 암 발전에 기여하는 분자의 변화를 특정하고 인지하기 위해 유전체학과 생물정보학을 이용한다. 그녀는 현재 진행중인 협업 프로젝트로부터 대규모 데이터셋을 분석하기 위해 일상적으로 R과 기타 프로그래밍 언어를 사용한다. 토론토 대학교(University of Toronto)에서 박사 학위를 취득한 후 그녀는 캠브리지 대학교에서 혈액학(Hematology) 분야에서 연구원으로도 일했으며, 여기서 그녀는 혈액암을 연구하는데 시스템 생물학(Biology)이용하는 경험을 쌓았다.

 

 

역자 소개


최대우 daewoo.choi@gmail.com

현직 한국외국어대학교 통계학과 교수·데이터시각화연구센터장·한국통계학회 분류학연구회장

학력 미국 Rutgers University 통계학 박사, 서울대학교 계산통계학과 졸

연구 분야 Probability inequality, classification, credit risk

프로젝트 빅데이터 분석 및 핀테크 관련 프로젝트 다수 수행

저서 데이터과학입문, 장영재·이석호 공저(2015), 한국방송통신대학교 출판문화원

        《베이지안통계학(개정판), 강기훈 외(2005), 자유아카데미

        《데이터마이닝(2004), 한국방송통신대학교 출판부

        《의사결정론, 신민웅 외(1996), 자유아카데미

 

정석오 seokohj@hufs.ac.kr

현직 한국외국어대학교 통계학과 교수·()서스틴베스트 자문위원·한국통계학회 평의원·대한뇌기능학회 대의원

학력 서울대학교 통계학과 박사, 서울대학교 계산통계학과 졸

연구 분야 비모수적 함수추정, 뇌기능매핑, 금융자료분석, 사회책임투자

저서 베이지안통계학(개정판), 강기훈 외(2005), 자유아카데미

 

목차

목차

 

저자 소개 4

이 책의 컬러차트, 강의 자료용 소스 다운로드하는 법 5

저자 서문 / 통계 공용어 오픈소스 R / Paul Gerrad·Radia M. Johnson 12

역자 서문 / R을 분석도구로 하는 문제 해결 안내서 / 정석오·최대우 13

이 책을 읽기 전에 14

 

 

Chapter 1R로 프로그래밍 하기·19

 

R의 자료구조 23 / R로 데이터로드하기 45 / 기본 도표 및 ggplot2 패키지 51 /

제어문 60 / 함수 66 / 프로그래밍 및 디버깅 도구 70 / 요약 74

 

Chapter 2R로 배우는 통계 방법론·75

 

기술통계량 78 / 확률분포 83 / 데이터에 분포를 적합(fit)시키기 88 / 가설 검정 99 / 요약 115

 

Chapter 3선형모형·117

통계 모델링에 대한 개괄 118 / 선형회귀 122 / 군집분석 159 / 요약 162

 

Chapter 4비선형방법·163

 

비모수적 모형과 모수적 모형 164 / 흡착 데이터셋과 체위 데이터셋 166 / 이론에 기반한 비선형회귀 166 / 시각화를 통해 비선형성 탐색하기 168 / 선형 프레임워크 확장하기 171 / 비모수적 비선형 방법론 181 / np 패키지의 비모수적 방법론들 195 / 요약 198

 

Chapter 5선형대수·199

행렬과 선형대수학 200 / 신체기능(physical functioning) 데이터셋 203 / 기본 행렬 연산 204 / 삼각행렬 217 / 행렬의 분해 218 / 응용 예들 226 / 요약 239

 

Chapter 6주성분분석과 요인분석·241

상관 및 공분산 구조 242 / 이 장에서 사용할 데이터셋 242 / 주성분분석과 총분산 243 / PCA를 이용한 형성적 구성개념 259 / 요약 280

 

Chapter 7구조방정식모형과 확인적 요인분석·281

데이터셋 282 / SEM의 기본 아이디어 284 / SEM의 행렬 표현 285 / SEM 모형 적합 및 추정 방법 295 / OpenMxlavaan의 비교 309 / 요약 313

 

Chapter 8모의실험·315

기초적인 샘플링 방법을 이용한 모의실험 316 / 의사난수 317 / 몬테카를로 모의실험 329 / 몬테카를로 적분 352 / 기각샘플링 357 / 중요샘플링 363 / 물리적 시스템 시뮬레이션하기 365 / 요약 367

 

Chapter 9최적화·369

일차원 최적화 371 / 선형계획법 392 / 이차계획법 402 / 일반적인 비선형 최적화 404 / 요약 407

 

Chapter 10고급 데이터 매니지먼트·409

R에서 데이터 정제하기 410 / 문자열 처리 및 패턴 매칭 412 / 부동소수점 연산 및 수치 데이터 타입 418 / R에서 메모리 관리 420 / 결측 데이터 424 / Amelia 패키지 431 / 요약 443

 

 

주요 용어 인덱스 444

주석 인덱스 447

 

 

 

저자
부록/예제소스
정오표
    최근 본 상품 1