파이썬 - 넘파이

2021-11-18 11 분 소요

PYTHON PROGRAMMING FUNDAMENTALS

다음 토픽을 다룹니다.:

Numpy 기초
Built-in methods and functions
shape, length and type of Numpy arrays
Reshape
Minimum and maximum
Mathematical Operations
Indexing and slicing
Selection

NUMPY BASICS

NumPy는 다차원 배열을 처리할 수 있는 선형대수학(Linear Algebra) 라이브러리입니다.
다음이 실행이 안되면 아나콘다프롬프트에서 conda install numpy 를 실행하여 설치합니다.

#1D array 표현법
#1D array => 벡터.
#2D array => 메트릭스
#(4) = x => 숫자로 표현됨 (4,) 로 표현.
(4, )

(4,)

import numpy as np

a = [1,2,3,4,5]

# 넘파이의 1차원 배열로 만드는 방법 : 리스트를 넣어준다.
# 1차원 어레이의 경우 변수명은 소문자로 대부분 지정.
x = np.array([1,2,3,4,5])

# array( 는, 넘파이 어레이.

# numpy 어레이와 리스트의 차이.

len(a)

len(x)

#속성값 정의 가능
x.size

#shape를 통하여 몇 차원 배열인지 확인가능.
x.shape

(5,)

# dtype을 통하여 몇 비트로 저장하는지 확인가능, 원소의 속성 확인 가능.
x.dtype

dtype('int32')

#넘파이의 어레이를 만드는 방법 : 2차원 행렬 => 2차원 리스트를 넣어준다.

b= [[1,2],[3,4]]

#2차원 어레이의 변수 저장은 대문자로 한다.
X = np.array(b)

array([[1, 2],
       [3, 4]])

# 넘파이 어레이 차이점

X.size

len(b)

X.shape

(2, 2)

X.dtype

dtype('int32')

Save and Load data

array([[1, 2],
       [3, 4]])

#파일 생성
np.save('my_array',X)

#파일 불러오기
Y = np.load('my_array.npy')

array([[1, 2],
       [3, 4]])

my_array.npy 파일이 폴더에 생겼는지 확인하세요.

BUILT-IN METHODS AND FUNCTIONS

# 3행 4열, 0으로 되어있는 행렬

np.zeros( (3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

# 0 7개 짜리 1차원 배열

np.zeros(7)

array([0., 0., 0., 0., 0., 0., 0.])

#1 5개 짜리 1차원 배열

np.ones(5)

array([1., 1., 1., 1., 1.])

# 2행 4열, 0으로 되어있는 행렬

np.ones((2,4))

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

특정 값으로, 행렬 만들기

np.full(10, 5) #첫번쨰는  shape, 두번쨰는 채울 숫자

array([5, 5, 5, 5, 5, 5, 5, 5, 5, 5])

np.full((3,2), 5)

array([[5, 5],
       [5, 5],
       [5, 5]])

정수의 배열을 얻고자 할때

# 0부터 9까지 정수를 만드세요.

list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

range(10)

range(0, 10)

#넘파이에서는 range 개선한 함수 제공

np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

range(4,9+1)

range(4, 10)

np.arange(4, 9+1)

array([4, 5, 6, 7, 8, 9])

np.arange(start,stop,step)

range(1,13+1,2)

range(1, 14, 2)

np.arange(1, 13+1, 2)

array([ 1,  3,  5,  7,  9, 11, 13])

정수 말고 실수를 얻고자 할때

np.linspace(0, 25, 10) # 첫번쨰는 시작, 두번쨰는 끝, 세번째는 갯수

array([ 0.        ,  2.77777778,  5.55555556,  8.33333333, 11.11111111,
       13.88888889, 16.66666667, 19.44444444, 22.22222222, 25.        ])

np.linspace(0, 25, 10, endpoint = False) # endpoint 파라미터 활용

array([ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. , 22.5])

이렇게 1차원 배열을 얻은 후, 우리는 이것을 가지고 여러차원으로 만들 수 있다. reshape 을 이용

x = np.arange(20)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

x.shape

(20,)

X = x.reshape(4,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19]])

X.reshape(2,10) 

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

X.shape # reshape는 메모리에 저장되지 않음

(4, 5)

y = X.reshape(20,1)

y.shape

(20, 1)

x.shape

(20,)

#x와 y는 다른 어레이. y는 2차원 배열이다.

X.ndim # ndim 속성은 몇차원 배열인지 나타낼수 있다.

x.ndim

y.ndim

여러단계를 거치지 말고, 한번에 원하는 다차원 배열로 만들 수 있다.

# 5 부터 시작해서 25개의 순차적인 정수를 만들고, 이를 5X5 행렬로 만든다.

x = np.arange(5,30)

X = x.reshape(5,5)

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

np.arange(5, 30).reshape(5,5) #1줄로도 표현가능.

array([[ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [25, 26, 27, 28, 29]])

랜덤값으로 채워진 배열을 만들 수 있다.

import random

random.random() # import random의 함수. 하나의 값만 가져옴

0.46407897695805767

np.random.random(8) # 넘파이의 랜덤 함수. 여러 값을 가져올수있음.

array([0.49679414, 0.85744989, 0.45252157, 0.5928989 , 0.88568985,
       0.34210529, 0.79953484, 0.83333508])

np.random.random( (2,3) ) # 2차원 배열로도 가져올 수 있다.

array([[0.79672297, 0.5340739 , 0.35224309],
       [0.7860801 , 0.69255879, 0.01927695]])

np.random.randint(start, stop, size = shape)

시작값과 끝값을 줄 수 있다.

np.random.randint(1,7, 10)

array([5, 5, 5, 5, 2, 2, 6, 2, 3, 3])

np.random.randint(1,7,(3,4))

array([[1, 5, 4, 4],
       [5, 5, 4, 3],
       [3, 2, 3, 6]])

정규분포를 만족하는 랜덤값으로 채우기

np.random.normal(mean, standard deviation, size=shape)

정규분포 (가우시안 분포)

대한민국 남자의 키 분포
수능 성적 분포

np.random.normal(170,10, (1000,1000))

array([[171.74563464, 168.65032264, 147.59531894, ..., 197.54557994,
        165.70010392, 172.50617422],
       [157.91360709, 164.14406459, 165.40943725, ..., 175.34133145,
        176.09939889, 180.65524765],
       [165.00257842, 166.17428001, 163.65963314, ..., 165.31274359,
        173.12676402, 164.30649246],
       ...,
       [176.48160234, 160.08945244, 163.8703577 , ..., 183.9927476 ,
        176.80143206, 169.18052439],
       [166.96530112, 163.98870914, 183.84877713, ..., 164.61766375,
        187.63465248, 166.38477577],
       [186.95571402, 159.43561988, 162.06171598, ..., 163.86890134,
        170.01124457, 166.06635992]])

X = np.random.randint(1,100, (4,5))

array([[28, 14,  1, 19,  8],
       [34, 70,  7,  7, 26],
       [26, 14, 46, 66, 73],
       [49, 80, 39, 92, 75]])

X.max() #최대 값

X.min() #최소 값

X.sum() #합

X.mean() #평균

38.7

X.std() #표준 편차

27.71840543754276

array([[28, 14,  1, 19,  8],
       [34, 70,  7,  7, 26],
       [26, 14, 46, 66, 73],
       [49, 80, 39, 92, 75]])

# 각 행별 또는 엻별로 데이터를 분석할때는 축이 필요하다.
# 축 => axis 를 적어줘야 한다.

X.max(axis = 0)

array([49, 80, 46, 92, 75])

X.max(axis = 1)

array([28, 70, 73, 92])

# 각 행별 평균을 구하시오

X.mean(axis = 1)

array([14. , 28.8, 45. , 67. ])

X.sum(axis = 0)

array([137, 178,  93, 184, 182])

# X에 70보다 큰 데이터는 몇개가 있나요?

X > 70

array([[False, False, False, False, False],
       [False, False, False, False, False],
       [False, False, False, False,  True],
       [False,  True, False,  True,  True]])

(X > 70).sum() # False = 0 , True = 1

# X의 데이터중 70보다 큰 데이터만 가져오시오.

X[X>70]

array([73, 80, 92, 75])

실습.

4 x 4 ndarray 만드세요.

단, 2 에서 32 까지의 순차적 짝수로 채워졌습니다.

X =

X = np.arange(2,33,2).reshape(4,4)

SHAPE, LENGTH AND TYPE OF NUMPY ARRAYS

X.dtype

dtype('int32')

X.size

MAX AND MIN VALUES AND THEIR INDEX

X.max()

X.min()

# 최대값이 어디에 있는지? 인덱스!
X.argmax()

# 최소값이 어디에 있는지?
X.argmin()

Accessing, Deleting, and Inserting Elements Into ndarrays

x = np.random.randint(1,20, 7)

array([14,  9, 13, 11, 16,  8,  3])

x[3]

x[-1]

다차원배열의 인덱스 접근

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

# 기존의 리스트에서 데이터 억세스하는 방식
X[1][1]

# 넘파이에서 추가된 방식
# 행 콤마 열로 사용
X[1,1]

항목 삭제

array([14,  9, 13, 11, 16,  8,  3])

np.delete(x,3)

array([14,  9, 13, 16,  8,  3])

array([14,  9, 13, 11, 16,  8,  3])

np.delete( x , [3,5] )

array([14,  9, 13, 16,  3])

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

# 행렬의 포맷이 깨지면서 1차원으로 나옴.
np.delete( X, 1)

array([ 2,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32])

np.delete(X,1,axis=0)

array([[ 2,  4,  6,  8],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

np.delete(X,3,axis=1)

array([[ 2,  4,  6],
       [10, 12, 14],
       [18, 20, 22],
       [26, 28, 30]])

해당 요소만 딱 집어서 삭제

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

np.delete(X,[0,3],axis = 0)

array([[10, 12, 14, 16],
       [18, 20, 22, 24]])

항목을 끝에 추가하기

array([14,  9, 13, 11, 16,  8,  3])

np.append(x,100)

array([ 14,   9,  13,  11,  16,   8,   3, 100])

np.append(x,[100,200,300])

array([ 14,   9,  13,  11,  16,   8,   3, 100, 200, 300])

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

a = np.arange(1,5)

array([1, 2, 3, 4])

a.shape

(4,)

A = a.reshape(1,4)

array([[1, 2, 3, 4]])

np.append(X , A , axis=0)

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32],
       [ 1,  2,  3,  4]])

b = np.arange(4)

array([0, 1, 2, 3])

B = b.reshape(4,1)

array([[0],
       [1],
       [2],
       [3]])

np.append(X,B,axis=1)

array([[ 2,  4,  6,  8,  0],
       [10, 12, 14, 16,  1],
       [18, 20, 22, 24,  2],
       [26, 28, 30, 32,  3]])

항목을 원하는 위치에 추가하기

array([14,  9, 13, 11, 16,  8,  3])

np.insert(x,2,100) # 2번쨰 파라미터는 위치(인덱스), 세번째는 넣고싶은 데이터

array([ 14,   9, 100,  13,  11,  16,   8,   3])

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

array([1, 2, 3, 4])

np.insert(X, 2, A, axis=0)

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [ 1,  2,  3,  4],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

array([[0],
       [1],
       [2],
       [3]])

np.insert(X,2,B,axis=1)

array([[ 2,  4,  0,  1,  2,  3,  6,  8],
       [10, 12,  0,  1,  2,  3, 14, 16],
       [18, 20,  0,  1,  2,  3, 22, 24],
       [26, 28,  0,  1,  2,  3, 30, 32]])

array([0, 1, 2, 3])

np.insert(X,2,b,axis=1)

array([[ 2,  4,  0,  6,  8],
       [10, 12,  1, 14, 16],
       [18, 20,  2, 22, 24],
       [26, 28,  3, 30, 32]])

Slicing - 잘라서 가져오기

ndarray[start:end]
ndarray[start:]
ndarray[:end]

array([14,  9, 13, 11, 16,  8,  3])

# 기존 리스트 슬라이싱과 같음
x[0:4]

array([14,  9, 13, 11])

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

X[:3 ,:2 ]

array([[ 2,  4],
       [10, 12],
       [18, 20]])

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

X[1:,1:]

array([[12, 14, 16],
       [20, 22, 24],
       [28, 30, 32]])

# 두번쨰 행을 가져오세요.

X[1,]

array([10, 12, 14, 16])

# 세번쨰 컬럼을 가져오세요.

X[:,2]

array([ 6, 14, 22, 30])

# 첫번째 컬럼과 네번째 컬럼만 가져오세요
X[:,[0,3]]

array([[ 2,  8],
       [10, 16],
       [18, 24],
       [26, 32]])

Slicing 할때, 주의할 점!!!!

array([[ 2,  4,  6,  8],
       [10, 12, 14, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

X[1,2]= 100

array([[  2,   4,   6,   8],
       [ 10,  12, 100,  16],
       [ 18,  20,  22,  24],
       [ 26,  28,  30,  32]])

Z = X[:3,2:]

array([[  6,   8],
       [100,  16],
       [ 22,  24]])

Z[1,0] = 0

array([[ 6,  8],
       [ 0, 16],
       [22, 24]])

array([[ 2,  4,  6,  8],
       [10, 12,  0, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

# 그냥 슬라이싱해서 Z변수에 담아서 처리하면,
# 원본 X를 공유하게 되므로,
# Z 변수를 통해서 변경한 데이터가 X에도 똑같이 변경된다.

# 따라서 복사해서 사용하는 방법이 있다.

Copy - 2가지 방법

Z = np.copy(X[:3,2:])

Z[0,0] = 10000

array([[10000,     8],
       [    0,    16],
       [   22,    24]])

array([[ 2,  4,  6,  8],
       [10, 12,  0, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

# 2번쨰 방법

Z = X[:3,2:].copy()

Z[0,0] = 10000

array([[ 2,  4,  6,  8],
       [10, 12,  0, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

array([[10000,     8],
       [    0,    16],
       [   22,    24]])

중복된것 제거한 값만 리스트로 가져오기

x = np.random.randint(1, 5,10)

array([4, 3, 2, 2, 4, 1, 2, 3, 4, 3])

np.unique(x)

array([1, 2, 3, 4])

boolean 연산

array([[ 2,  4,  6,  8],
       [10, 12,  0, 16],
       [18, 20, 22, 24],
       [26, 28, 30, 32]])

(X > 16).sum()

# X가 16보다 큰 데이터를 가져오시오

X > 16

array([[False, False, False, False],
       [False, False, False, False],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

X[X>16]

array([18, 20, 22, 24, 26, 28, 30, 32])

# X의 데이터중에서, 10보다 크고 30보다 작은 데이터만 가져오시오.

# 데이터 억세스에서는, 그리고가 and가 아니라, &로 사용!
(X > 10) & (X<30) 

array([[False, False, False, False],
       [False,  True, False,  True],
       [ True,  True,  True,  True],
       [ True,  True, False, False]])

X[(X > 10) & (X < 30)]

array([12, 16, 18, 20, 22, 24, 26, 28])

#X 가 10보다 작거나 20보다 큰 데이터만 가져오시오

# or 연산자가 아니라 | 연산자를 사용해서 ,또는 을 처리한다.
X[(X < 10) | (X > 20)]

array([ 2,  4,  6,  8,  0, 22, 24, 26, 28, 30, 32])

실습 X = 5 x 5 ndarray 를 만드세요.정수 1 부터 25 까지 순차적으로 들어있습니다. Y = Boolean indexing 을 이용해서 홀수만 뽑아서 배열로 만듭니다.

X = np.arange(1,26).reshape(5,5)

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

Y = X[X % 2 == 1]

array([ 1,  3,  5,  7,  9, 11, 13, 15, 17, 19, 21, 23, 25])

Arithmetic operations and Broadcasting

1차원 배열 연산

x = np.random.randint(1,10,4)

y = np.random.randint(10,100,4)

array([39, 80, 71, 24])

array([7, 5, 9, 8])

a = [1,3,4]
b = [6,7,8]

a + b

[1, 3, 4, 6, 7, 8]

x + y

array([46, 85, 80, 32])

x - y

array([-32, -75, -62, -16])

x * y

array([273, 400, 639, 192])

x / y

array([0.17948718, 0.0625    , 0.12676056, 0.33333333])

2차원 배열 연산

X = np.arange(1,5).reshape(2,2)

Y = np.random.randint(10, 20 ,(2,2))

array([[1, 2],
       [3, 4]])

array([[11, 14],
       [14, 11]])

X - Y

array([[-10, -12],
       [-11,  -7]])

X + Y

array([[12, 16],
       [17, 15]])

X * Y

array([[11, 28],
       [42, 44]])

X / Y

array([[0.09090909, 0.14285714],
       [0.21428571, 0.36363636]])

각 요소마다 연산이 수행됨, 브로드캐스팅

score_list = [90,97,35,67,88,24,69]

new_list =[i + 3 for i in score_list]

new_list

[93, 100, 38, 70, 91, 27, 72]

# 리스트를 넘파이로 만들고
score_array = np.array(score_list)

# 그냥 더하면 끝
score_array + 3

array([ 93, 100,  38,  70,  91,  27,  72])

실습 위의 Broadcasting을 이용하여, 다음과 같은 4 x 4 ndarray를 만듭니다. [[1. 2. 3. 4.]

[1. 2. 3. 4.]

[1. 2. 3. 4.]]

X =

X = np.ones((4,4))

np.arange(4)

array([0, 1, 2, 3])

X + np.arange(4)

array([[1., 2., 3., 4.],
       [1., 2., 3., 4.],
       [1., 2., 3., 4.],
       [1., 2., 3., 4.]])

Twitter Facebook LinkedIn