미리보기
데이터 사이언스 교과서
파이썬으로 배우는 통계 분석, 패턴 인식, 심층학습, 신호 처리, 시계열 데이터 분석
ISBN 978-89-315-5681-0
eBook ISBN 978-89-315-9718-9
저자 하시모토 히로시, 마키노 코오지 공저/권기태 역
발행일 2020-10-27
eBook 발행일 2020-11-12
분량 384쪽
편집 1도
판형 184x236
정가 25,000원↓
판매가 22,500
(10% off)
적립금 1,250원(5%)
  소득공제
도서소개

6d3e3519e81dbb8a



책 소개

 

파이썬으로 배우는


통계 분석·패턴 인식·딥러닝·신호 처리·시계열 데이터 분석!


데이터 사이언스 교과서 [2021 세종도서 학술 부문 우수 도서 선정] 

 

데이터 사이언스는 데이터를 과학적으로 다루는학문 분야로 데이터를 통해 실제 현상을 이해하고 분석하는데 통계학, 데이터 분석, 기계학습과 연관된 방법론을 통합하는 개념으로 정의되기도 한다. , 데이터를 채굴하듯이 수많은 데이터 가운데 유용한 정보를 추출해 내고 의사결정에 활용하는 데이터 마이닝(Data Mining)과 유사하게 다양한 형태의 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합 분야로 이해되기도 한다. 최근 정보통신 기술의 비약적 발전으로 유무선 인터넷을 통해 얻을 수 있는 데이터의 양이 폭발적으로 증가한 데다 컴퓨터/모바일 기기의 고성능화가 진전되어 지금까지 할 수 없던 빅데이터 처리가 가능해져 한층 더 주목받고 있다.

이 책을 통해 독자는 데이터 사이언스의 의미부터 금융 데이터 분석, 동적 시스템 분석 등의 공학 응용까지를 파이썬으로 실제로 분석하면서 학습할 수 있다. 특히 데이터 처리와 확률·통계 기초와 같은 기본적인 부분부터 회귀분석, 패턴 인식, 딥러닝 등 통계·머신러닝 기법, 금융 데이터 등 시시각각 변하는 시계열 데이터 분석, 센서 데이터 등에 포함된 노이즈나 외란을 판별하는 스펙트럼 분석, 노이즈나 외란을 제거하기 위한 디지털 필터, 이미지 데이터의 분석으로 이미지 처리를 설명함으로써 데이터 과학의 개략적 내용을 한눈에 파악할 수 있다. 무엇보다 파이썬을 예제로 한 설명으로 이론과 실습을 겸비하여 데이터 과학을 학습하여 제 분야에 응용하고 싶은 독자에게 안성맞춤이다.

 

대상 독자


자신의 전문 분야, 공학·경제·인문사회계에서 데이터 과학을 응용하고 싶은 분

센서 데이터 등의 시계열 데이터 분석을 수행하고 싶은 분

파이썬으로 동적 시스템 분석 및 신호 처리·분석을 해보고 싶은 분

 

예제 코드 다운로드! - 성안당 홈페이지(www.cyber.co.kr)=회원가입-로그인 상태에서 [자료실]-[자료실 바로가기]-‘데이터사이언스’ [검색]-(도서 제목명 클릭)-[자료 다운로드 바로가기]

 

 

본문 속에서


이 책은 데이터 과학의 비밀에 도달하는 것이 아니라 기초적인 교양을 습득하는 것을 목적으로 한다. 이를 위해 파이썬을 이용한 분석 기법에 관한 지식과 기술을 배운다. 이 때 확률통계학, 시스템공학, 컴퓨터과학 등의 관점에서 데이터에 대한 가설 발견, 가설 검정을 하고 객관적·정량적 평가를 할 수 있는 자질을 익힐 수 있도록 설명하는데 중점을 두었다.

 

이 책은 데이터 과학자가 되기 위한 문 앞까지 인도한 것에 지나지 않는다. 이 문 앞에는 스포츠, 기상, 사회 문제, 서비스, 사물 인터넷 등의 분야에서 데이터 과학자로서 활약할 수 있는 장이 펼쳐져 있다. 독자 여러분이 이러한 분야에서 활약할 뿐만 아니라 새로운 분야를 개척하기 바란다. 활약하면 할수록 다수의 제약 조건에 가로막힌 방대한 데이터를 마주하게 되고 이와 같은 곤란한 상황 아래에서 데이터 과학자로서의 직감이 요구되는 장면과 마주치게 될 것이다. 이와 같은 장면에 마주치기 전에 다음 문장을 마지막에 들려주고 싶다. 올바른 직관력을 키우기 위해서는 올바른 지식과 다수의 반복 연습이 필요하다.


목차

목차 

 

1장 서론

 

1.1 데이터 과학 개요

1.1.1 읽기 전에

1.1.2 데이터 과학이란

1.1.3 데이터 과학의 영역과 역할

1.1.4 데이터를 보는 안목을 기른다

1.2 파이썬과 패키지

1.2.1 파이썬(Pyhton)의 도입

1.2.2 이 책에서 이용하는 패키지

1.3 몇 가지 약속

1.3.1 노트북(Notebook)과 스크립트

1.3.2 모듈 이름의 생략어

1.3.3 파일명의 생략

1.3.4 패키지 함수 사용법의 조사 방법

1.4 퀵 스타트

1.4.1 설치

1.4.2 주피터 노트북(Jupyter Notebook)·스크립트의 구현과 실행 방법

1.4.3 프로그램과 데이터를 구하는 방법

1.5 파이썬을 이용한 한글 처리

1.5.1 스크립트에 한글을 기술한다

1.5.2 한글을 포함한 데이터 파일 읽기

1.5.3 matplotlib로 한글을 표시한다

1.6 용어의 차이

1.6.1 설명 변수/목적변수, 입력/출력

1.6.2 표본과 데이터

1.6.3 예측과 추정

1.6.4 클래스 분류

1.6.5 트레이닝 데이터, 테스트 데이터

1.6.6 오버피팅

1.6.7 분석

1.6.8 변수

1.6.9 상관과 공분산

1.7 수학, 수치계산, 물리의 시작

1.7.1 수학의 시작

1.7.2 수치계산의 문제

1.7.3 물리의 시작

 

2장 데이터 처리와 가시화

2.1 데이터의 종류

2.2 데이터의 취득

2.3 데이터의 저장

2.3.1 numpy.ndarray

2.3.2 pandas.DataFrame

2.3.3 numpy.ndarraypandas.DataFrame의 변환

2.4 그래프 작성

2.4.1 matplotlib.

2.4.2 복수의 그래프

2.4.3 Titnic(타이타닉호)pandas 그래프 그리기

2.4.4 Iris(아이리스)seaborn 그래프.

2.4.5 Iris 데이터

 

3장 확률의 기초

3.1 확률이란

3.2 기본적인 용어의 설명

3.2.1 이산확률 변수

3.2.2 연속확률 변수

3.2.3 확률밀도 함수, 확률질량 함수와 백분위점55

3.2.4 모집단과 표본

3.2.5 평균, 분산, 그 외의 양.

3.2.6 이산형의 기댓값과 평균.

3.3 정규분포

3.3.1 정규분포의 표현

3.3.2 확률 변수의 생성

3.3.3 중심극한정리

3.4 포아송분포

3.4.1 포아송분포의 표현

3.4.2 포아송분포의 예

3,4,3 포아송 도착 모델의 시뮬레이션

3.4.4 역 함수를 이용한 난수 생성.

3.5 확률분포와 패키지 함수

3.5.1 베르누이분포(Bernoulli distribution)

3.5.2 이항분포(binomial distribution)

3.5.3 포아송분포(Poisson distribution)

3.5.4 카이제곱분포(chi-squared distribution)

3.5.5 지수분포(exponential distribution)

3.5.6 분포( distribution)

3.5.7 정규분포(normal distribution)

3.5.8 분포( distribution)

3.5.9 균일분포(uniform distribution)

 

4장 통계의 기초

4.1 통계란

4.2 추정.

4.2.1 점추정

4.2.2 구간추정

4.2.3 모평균의 신뢰구간

4.2.4 모비율의 신뢰구간

4.3 가설검정

4.3.1 가설검정이란

4.3.1 단측검정과 양측검정

4.3.3 모평균의 검정

4.3.4 모분산의 검정

4.3.5 두 표본의 평균 차이에 대한 검정

4.3.6 상관, 무상관의 검정

 

5장 회귀분석

5.1 회귀분석이란

5.1.1 회귀의 유래

5.1.2 시스템 이론에서 본 회귀분석

5.1.3 statsmodels

5.2 단순회귀분석

5.2.1 단순회귀분석의 의의

5.2.2 단순회귀 모델의 통계적 평가

5.2.3 가계 동향 조사

5.2.4 심슨의 역설

5.2.5 수학적 설명

5.3 다항식회귀분석

5.3.1 다항식 모델

5.3.2 R 데이터 세트 cars

5.4 중회귀분석

5.4.1 검정

5.4.2 다중공선성

5.4.3 전력과 기온의 관계

5.4.4 와인의 품질분석

5.4.5 수학적 설명

5.5 일반화 선형 모델

5.5.1 일반화 선형 모델의 개요

5.5.2 포아송 회귀 모델

5.5.3 z = β0의 예

5.5.4 z = β0 + β0χ1의 예

5.5.5 로지스틱 회귀 모델

5.5.6 수학적 설명

 

6장 패턴 인식

6.1 패턴 인식의 개요

6.1.1 패턴 인식이란

6.1.2 클래스 분류의 성능 평가

6.1.3 홀드아웃과 교차검증

6.1.4 이 장에서 다루는 패턴 인식 방법

 

6.2 서포트 벡터 머신(SVM)

6.2.1 클래스 분류와 마진의 최대화

6.2.2 비선형 분리의 아이디어

6.2.3 선형, 원형 데이터의 하드 마진

6.2.4 소프트웨어 마진과 홀드아웃

6.2.5 교차검증과 그리드 서치

6.2.6 멀티클래스 분류

6.3 SVM의 수학적 설명

6.3.1 마진 최대화

6.3.2 커널 함수의 이용

6.3.3 소프트 마진

6.4 최근접 이웃법(κNN)

6.4.1 알고리즘의 논리

6.4.2 κNN의 기본적 사용법

6.4.3 Iris 데이터

6.4.4 sklearn이 제공하는 거리

6.5 평균법

6.5.1 알고리즘의 논리

6.5.2 make_blobs를 이용한 클러스터링

6.5.3 도매업자의 고객 데이터

6.5.4 수학적 설명

6.6 응집형 계층 클러스터링

6.6.1 알고리즘의 논리

6.6.2 덴드로그램

6.6.3 도야마현의 시읍면별 인구 동태

 

7장 심층학습

7.1 심층학습의 개요와 종류

7.1.1 심층학습이란

7.1.2 심층학습의 활용 예

7.1.3 용어의 설명

7.2 Chainer

7.2.1 개요와 설치

7.2.2. 실행과 평가

7.2.3 κNN용 스크립트의 설명

7.3 NN(신경망)

7.3.1 개요와 계산 방법

7.3.2 κNN 스크립트의 변경

7.4 DNN(심층 신경망)

7.4.1 개요와 실행

7.4.2 파일 데이터의 처리 방법

7.5 CNN(합성곱 신경망)

7.5.1 개요와 계산 방법

7.5.2 학습과 검증

7.5.3 트레이닝 데이터의 작성법

7.6 QL(Q학습)

7.6.1 개요와 계산 방법

7.6.2 실행 방법

7.6.3 병따기 게임

7.7 DQN(심층 Q네트워크)

7.7.1 개요

7.7.2 실행 방법

7.7.3 병따기 게임

 

8장 시계열 데이터 분석

8.1 동적 시스템

8.1.1 인과성과 동적 시스템

8.1.2 동적 시스템의 선형 모델

8.1.3 1차 시스템의 시간응답

8.1.4 2차 시스템의 시간응답

8.2 이산 시간계

8.2.1 이산화

8.2.2 샘플링 시간의 선정

8.2.3 이산 시간계의 차분형식의 해석

8.2.4 지연 연산자

8.2.5 이산 시간 모델 도입의 문제 설정

8.3 ARMA 모델

8.3.1 ARMA 모델의 표현

8.3.2 가식별성과 PE성의 조건

8.3.3 입력 신호 후보와 항의 문제

8.3.4 ARMA 모델의 안전성과 성질

8.3.5 파라미터 추정

8.4 모델의 평가

8.4.1 모델 차수의 선정과 AIC

8.4.2 모델 차수의 선정과 극·영점 소거법

8.4.3 잔차 계열의 검정

8.5 ARMA 모델을 이용한 예측

8.5.1 예측 방법

8.6 ARIMA 모델

8.6.1 트렌드

8.6.2 ARIMA 모델의 표현

8.6.3 트렌드를 가진 시계열 데이터 분석

8.7 SARIMAX 모델

8.7.1 항공사의 승객 수

8.7.2 그 외의 계절성 데이터

8.8 주가 데이터의 시계열 분석

8.8.1 이동평균

8.8.2 볼린저 밴드

8.8.3 캔들 차트

 

9장 스펙트럼 분석

9.1 기본 사항

9.1.1 주파수란 소리를 내는 것

9.1.2 스펙트럼이란

9.2 푸리에 변환

9.2.1 푸리에 변환과 푸리에 역변환

9.2.2 진폭, 에너지, 파워 스펙트럼

9.3 현실의 문제점

9.3.1 샘플링 문제

9.3.2 엘리어싱

9.3.3 유한 장파형의 문제점

9.4 이산 푸리에 변환(DFT)

9.4.1 DFT의 표현

9.4.2 사인파의 DFT

9.4.3 제로 패딩

9.5 윈도우 함수

9.5.1 윈도우 함수의 종류

9.5.2 윈도우 함수의 사용 예

9.5.3 수학적 표현

9.6 랜덤 신호의 파워 스펙트럼 밀도

9.6.1 파워 스펙트럼 밀도의 표현

9.9.2 PSD는 확률 변수

 

10장 디지털 필터

10.1 필터의 개요

10.1.1 필터란

10.1.2 필터 특성

10.1.3 데시벨 [dB]

10.2 아날로그 필터의 설계

10.2.1 버터워스 필터

10.2.2 체비셰프 필터

10.3 디지털 필터의 설계

10.3.1 디지털 필터의 도입

10.3.2 디지털 필터의 구조

10.3.3 FIR 필터

10.3.4 IIR 필터

10.3.5 정규화 각주파수

10.4 FIR 필터의 설계

10.4.1 윈도우 함수를 이용한 설계 방법

10.4.2 설계 예

10.5 IIR 필터의 설계

10.5.1 아날로그 필터에 기초한 방법

10.5.2 설계 예

 

11장 이미지 처리

11.1 이미지 처리의 개요

11.1.1 색 좌표계

11.1.2 수치로서의 표현

11.1.3 표본화와 양자화

11.1.4 이미지 데이터 입수하기

11.1.5 OpenCV의 문서

11.1.6 실행 방법

11.2 이미지 처리의 예

11.2.1 2진화

11.2.2 에지 검출

11.2.3 주파수 필터링

11.2.4 특징점 추출

11.3 기타

11.3.1 카메라에서 이미지 불러오기

11.3.2 광학 흐름

11.3.3 얼굴 인식

 

참고문헌

맺음말

색인

저자

■ 저자 소개

 

하시모토 히로시

1988년 와세다대학교 대학원 이공학연구과 박사 과정

현재 산업기술대학원 대학창조기술연구과 교수

공학박사(와세다대학교)

 

주요 저서

• <도해 컴퓨터 개론 [하드웨어]>(개정 4), 옴사(2017), 공저

• <도해 컴퓨터 개론 [소프트웨어·통신 네트워크]>(개정 4), 옴사(2017), 공저

• 로 배우는 시스템 제어의 기초옴사(2007), 공저

• <전기회로교본옴사(2001), 그 외 저서 다수

 

 

마키노 코오지

2008년 도쿄공업대학 대학원 이공학연구과 제어시스템공학 전공 수료

현재 야마나시대학 대학원 종합연구부 조교

공학박사(도쿄공업대학)

 

주요 저서

• <파이썬에 의한 심층 강화 학습 입문 Chainer와 OpenAI Gym으로 시작하는 강화학습>, 옴사(2018), 공저

• <산수&라즈베리 파이로부터 시작하는 딥러닝>, CQ출판사(2018), 공저

• <쉽게 할 수 있는 Intel Edison 전자공학>, 도쿄전기대학출판국(2017)

• <쉽게 할 수 있는 Arduino 전자제어>, 도쿄전기대학 출판국(2015)

• <쉽게 할 수 있는 Arduino 전자공학>, 도쿄전기대학 출판국(2012)

 

 

■ 역자 소개

 

권기태

서울대학교 계산통계학과 졸업동 대학원에서 전산학 전공으로 이학석사 및 이학박사 학위를 취득했다.

현재 강릉원주대학교 컴퓨터공학과 교수로 재직 중이다.

 

주요 저서 및 역서

• <프로그래밍 언어론>, 홍릉과학출판사(2010)

• <소프트웨어공학(10)>, 한티미디어(2016)

• <엑셀로 배우는 딥러닝>, 성안당(2018)

• <성공과 실패를 결정하는 1%의 프로그래밍 작동 원리>, 성안당(2019)

• <누구나 파이썬 통계분석>, 한빛아카데미(2020)

• <현장에서 사용할 수 있는 앙케트 분석 입문>, 성안당(2020)

• 로 하는 다변량 데이터 분석>, 한빛아카데미(2020)

• <엑셀로 배우는 순환 신경망·강화학습 초()입문>, 성안당(2020)

부록/예제소스
정오표
    최근 본 상품 1