datasample

데이터에서 무작위 복원추출 또는 비복원추출

페이지 내 모두 축소

구문

y = datasample(data,k)

y = datasample(data,k,dim)

y = datasample(___,Name,Value)

y = datasample(s,___)

[y,idx] = datasample(___)

설명

y = datasample(data,k)는 data의 데이터에서 균일하게 무작위 복원추출된 k개 관측값을 반환합니다.

예제

y = datasample(data,k,dim)은 data의 차원 dim에서 추출된 표본을 반환합니다.

예제

y = datasample(___,Name,Value)는 하나 이상의 이름-값 쌍의 인수로 지정된 추가 옵션을 사용하여 위에 열거된 구문의 모든 입력 인수에 대한 표본을 반환합니다. 예를 들어, 'Replace',false는 비복원추출을 지정합니다.

예제

y = datasample(s,___)는 난수 스트림 s를 사용하여 난수를 생성합니다. 옵션 s는 위에 열거된 구문의 입력 인수 앞에 들어갈 수 있습니다.

예제

[y,idx] = datasample(___)은 위에 열거된 구문의 입력 인수를 사용하여 datasample이 data에서 추출한 값을 나타내는 인덱스 벡터도 반환합니다.

예제

모두 축소

벡터에서 고유한 값 추출하기

라이브 스크립트 열기

재현이 가능하도록 난수 스트림을 생성합니다.

s = RandStream('mlfg6331_64');

정수 1과 10 사이에 있는 고유한 값을 5개 추출합니다.

y = datasample(s,1:10,5,'Replace',false)

y = 1×5

     9     8     3     6     2

지정된 확률로 임의 문자 생성하기

라이브 스크립트 열기

재현이 가능하도록 난수 스트림을 생성합니다.

s = RandStream('mlfg6331_64');

지정된 확률에 따라 수열 ACGT에서 48개의 임의 문자를 생성합니다.

seq = datasample(s,'ACGT',48,'Weights',[0.15 0.35 0.35 0.15])

seq = 
'GGCGGCGCAAGGCGCCGGACCTGGCTGCACGCCGTTCCCTGCTACTCG'

행렬 열의 일부를 임의로 선택하기

라이브 스크립트 열기

결과 재현이 가능하도록 난수 시드값을 설정합니다.

rng(10,'twister')

10개의 행과 1000개의 열로 구성된 행렬을 생성합니다.

X = randn(10,1000);

datasample 내에서 재현이 가능하도록 난수 스트림을 생성합니다.

s = RandStream('mlfg6331_64');

X에서 고유한 열 5개를 임의로 선택합니다.

Y = datasample(s,X,5,2,'Replace',false)

Y = 10×5

    0.4317   -0.3327    0.9112   -2.3244    0.9559
    0.6977   -0.7422    0.4578   -1.3745   -0.8634
   -0.8543   -0.3105    0.9836   -0.6434   -0.4457
    0.1686    0.6609   -0.0553   -0.1202   -1.3699
   -1.7649   -1.1607   -0.3513   -1.5533    0.0597
   -0.3821    0.5696   -1.6264   -0.2104   -1.5486
   -1.6844    0.7148   -0.6876   -0.4447   -1.4615
   -0.4170    1.3696    1.1874   -0.9901    0.5875
   -0.2410    1.4703   -2.5003   -1.1321   -1.8451
    0.6212    1.4118   -0.4518    0.8697    0.8093

부트스트랩 반복 실험 데이터 세트 만들기

라이브 스크립트 열기

테이블에서 관측값을 재추출하여 부트스트랩 반복 실험 데이터 세트를 만듭니다. 부트스트랩에 대한 자세한 내용은 Bootstrap Resampling 항목을 참조하십시오.

표본 데이터 세트를 불러옵니다.

load hospital
Tbl = dataset2table(hospital);

hospital 데이터 세트와 크기가 동일하며 hospital 데이터 세트에서 복원추출을 통해 선택된 임의 표본을 포함하는 데이터 세트를 생성합니다.

y = datasample(Tbl,size(Tbl,1));

두 개의 데이터 벡터에서 병렬로 추출하기

라이브 스크립트 열기

다른 벡터에서 선택된 표본의 인덱스를 기준으로 데이터에서 표본을 선택합니다.

두 개의 확률 벡터를 생성합니다.

x1 = randn(100,1);
x2 = randn(100,1);

벡터 x1에서 10개의 요소로 구성된 표본을 선택하고 벡터 idx로 표본의 인덱스를 반환합니다.

[y1,idx] = datasample(x1,10);

벡터 idx의 인덱스를 사용하여 벡터 x2에서 10개의 요소로 구성된 표본을 선택합니다.

y2 = x2(idx);

입력 인수

모두 축소

`data` — 입력 데이터
벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

표본을 추출할 입력 데이터로, 벡터, 행렬, 다차원 배열, 테이블 또는 dataset형 배열로 지정됩니다. 기본적으로 datasample은 data의 첫 번째 비한원소 차원에서 표본을 추출합니다. 예를 들어, data가 행렬인 경우 datasample은 행에서 표본을 추출합니다. 이 동작은 dim 입력 인수를 사용하여 변경할 수 있습니다.

`k` — 표본 개수
양의 정수

표본 개수로, 양의 정수로 지정됩니다.

예: datasample(data,100)은 data에 포함된 데이터에서 균일하게 무작위 추출된 100개의 관측값을 반환합니다.

데이터형: single | double

`dim` — 표본을 추출할 차원
1 (디폴트 값) | 양의 정수

표본을 추출할 차원으로, 양의 정수로 지정됩니다. 예를 들어, data가 행렬이고 dim이 2인 경우, y는 data의 특정 열을 포함합니다. data가 테이블 또는 dataset형 배열이고 dim이 2인 경우, y는 data의 특정 변수를 포함합니다. data가 벡터, 행렬 또는 N차원 배열 여부에 무관하게 특정 차원에서 표본을 추출하려면 dim을 사용하십시오.

데이터형: single | double

`s` — 난수 스트림
전역 스트림 (디폴트 값) | `RandStream`

난수 스트림으로, 전역 스트림 또는 RandStream으로 지정됩니다. 예를 들어, s = RandStream('mlfg6331_64')는 승산식 시차 피보나치 수열(Multiplicative Lagged Fibonacci) 생성기 알고리즘을 사용하는 난수 스트림을 생성합니다. 자세한 내용은 난수 스트림을 만들고 제어하기 항목을 참조하십시오.

rng 함수는 전역 스트림을 제어할 수 있는 간단한 방법을 제공합니다. 예를 들어, rng(seed)는 음이 아닌 정수 시드값을 사용하여 난수 생성기에 시드값을 지정합니다. 자세한 내용은 RandStream을 사용하여 전역 스트림 관리하기 항목을 참조하십시오.

이름-값 인수

모두 축소

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 쉼표를 사용하여 각 이름과 값을 구분하고 Name을 따옴표로 묶으십시오.

예: 'Replace',false,'Weights',ones(datasize,1)은 Weights의 요소에 비례하는 확률로 비복원추출합니다. 여기서 datasize는 표본을 추출하는 차원의 크기입니다.

`Replace` — 복원추출을 나타내는 표시자
true (디폴트 값) | false

복원추출을 나타내는 표시자로, 'Replace'와 함께 true 또는 false가 쉼표로 구분되어 지정됩니다.

'Replace'가 true인 경우 복원추출을 선택하고, 'Replace'가 false인 경우 비복원추출을 선택합니다. 'Replace'가 false인 경우 k는 표본이 추출되는 차원의 크기보다 크지 않아야 합니다. 예를 들어, data = [1 3 Inf; 2 4 5]이고 y = datasample(data,k,'Replace',false)인 경우 k는 2보다 클 수 없습니다.

데이터형: logical

`Weights` — 표본 추출 가중치
`ones(datasize,1)` (디폴트 값) | 음이 아닌 숫자형 값으로 구성된 벡터

표본 추출 가중치로, 'Weights'와 함께 음이 아닌 숫자형 값으로 구성된 벡터가 쉼표로 구분되어 지정됩니다. 벡터의 크기는 datasize이며, 여기서 datasize는 표본이 추출되는 차원의 크기입니다. 벡터는 하나 이상의 양수 값을 가져야 하며 NaN 값을 포함할 수 없습니다. datasample 함수는 'Weights'의 요소에 비례하는 확률로 표본을 추출합니다.

예: 'Weights',[0.1 0.5 0.35 0.46]

데이터형: single | double

출력 인수

모두 축소

`y` — 표본
벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

표본으로, 벡터, 행렬, 다차원 배열, 테이블 또는 dataset형 배열로 반환됩니다.

data가 벡터인 경우, y는 data에서 선택된 k개 요소를 포함하는 벡터입니다.
data가 행렬이고 dim = 1인 경우, y는 data에서 선택된 k개 행을 포함하는 행렬입니다. 또는, dim = 2인 경우, y는 data에서 선택된 k개 열을 포함하는 행렬입니다.
data가 N차원 배열이고 dim = 1인 경우, y는 data의 첫 번째 비한원소 차원을 따라 추출된 표본으로 구성된 N차원 배열입니다. 또는, dim 이름-값 쌍의 인수의 값을 지정할 경우, datasample은 차원 dim에서 표본을 추출합니다.
data가 테이블이고 dim = 1인 경우, y는 data에서 선택된 k개 행을 포함하는 테이블입니다. 또는, dim = 2인 경우, y는 data에서 선택된 k개 변수를 포함하는 테이블입니다.
data가 dataset형 배열이고 dim = 1인 경우, y는 data에서 선택된 k개 행을 포함하는 dataset형 배열입니다. 또는, dim = 2인 경우, y는 data에서 선택된 k개 변수를 포함하는 dataset형 배열입니다.

입력값 data가 NaN 값으로 표현된 누락된 관측값을 포함하는 경우, datasample은 NaN 값을 포함한 전체 입력값에서 표본을 추출합니다. 예를 들어, y = datasample([NaN 6 14],2)는 y = NaN 14를 반환할 수 있습니다.

복원추출을 수행하는 경우(디폴트 값), y는 data의 반복된 관측값을 포함할 수 있습니다. 비복원추출을 수행하려면 Replace 이름-값 쌍의 인수를 false로 설정하십시오.

`idx` — 인덱스
벡터

인덱스로, y를 생성하기 위해 datasample이 data에서 어떤 요소를 선택하는지를 나타내는 벡터로 반환됩니다. 예를 들면 다음과 같습니다.

data가 벡터이면 y = data(idx)입니다.
data가 행렬이고 dim = 1이면 y = data(idx,:)입니다.
data가 행렬이고 dim = 2이면 y = data(:,idx)입니다.

팁

어떠한 범위에서 정수형 난수를 복원추출하려면 randi를 사용하십시오.
정수형 난수를 비복원추출하려면 randperm 또는 datasample을 사용하십시오.
데이터에서 무작위로 복원추출 또는 비복원추출을 수행하려면 datasample을 사용하십시오.

알고리즘

datasample은 randperm, rand 또는 randi를 사용하여 난수 값을 생성합니다. 따라서, datasample은 MATLAB^® 전역 난수 생성기의 상태를 변경합니다. rng를 사용하여 난수 생성기를 제어하십시오.

가중 비복원추출을 선택하는 경우 datasample은 웡(Wong)과 이스턴(Easton)의 알고리즘 [1]을 사용합니다.

대체 기능

randi 또는 randperm을 사용하여 각각 무작위 복원추출 또는 무작위 비복원추출에 대한 인덱스를 생성할 수 있습니다. 그러나, datasample이 데이터에서 직접 표본을 추출하기 때문에 더 편리할 수 있습니다. datasample은 가중 추출도 허용합니다.

참고 문헌

[1] Wong, C. K. and M. C. Easton. "An Efficient Method for Weighted Sampling Without Replacement." SIAM Journal of Computing 9(1), pp. 111–113, 1980.

확장 기능

모두 확장

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

이 함수는 메모리에 담을 수 없는 데이터에 대한 tall형 배열을 지원하지만 다음과 같은 몇 가지 제한 사항이 있습니다.

datasample은 대규모 데이터 세트 중 임의의 서브셋을 플로팅하고 피팅하기 전에 준비 작업으로 사용하기에 유용합니다. 대규모 데이터 세트에서 추출하면 모든 데이터 점을 사용할 필요 없이 데이터의 추세가 유지됩니다. 표본이 메모리에 담을 수 있을 정도로 작으면 tall형 배열을 직접적으로 지원하지 않는 플로팅 함수와 피팅 함수를 적용할 수 있습니다.
datasample은 데이터의 첫 번째 차원에서의 표본 추출만 지원합니다.
tall형 배열에 대해서는 datasample이 복원추출을 지원하지 않습니다. 'Replace',false를 지정해야 합니다(예: datasample(data,k,'Replace',false)).
'Weights'의 값은 data와 같은 높이의 숫자형 tall형 배열이어야 합니다.
구문 [Y,idx] = datasample(___)에서는 출력값 idx가 data와 같은 높이의 tall형 논리형 벡터입니다. 이 벡터는 각 데이터 점이 표본에 포함되는지 여부를 나타냅니다.
난수 스트림을 지정하는 경우 기본 생성기가 다중 스트림과 서브스트림을 지원해야 합니다. 난수 스트림을 지정하지 않는 경우 datasample은 tallrng로 제어되는 스트림을 사용합니다.

자세한 내용은 메모리에 담을 수 없는 큰 데이터를 위한 tall형 배열 항목을 참조하십시오.

버전 내역

R2011b에 개발됨

참고 항목

datasample

구문

설명

예제

벡터에서 고유한 값 추출하기

지정된 확률로 임의 문자 생성하기

행렬 열의 일부를 임의로 선택하기

부트스트랩 반복 실험 데이터 세트 만들기

두 개의 데이터 벡터에서 병렬로 추출하기

입력 인수

data — 입력 데이터 벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

k — 표본 개수 양의 정수

dim — 표본을 추출할 차원 1 (디폴트 값) | 양의 정수

s — 난수 스트림 전역 스트림 (디폴트 값) | RandStream

이름-값 인수

Replace — 복원추출을 나타내는 표시자 true (디폴트 값) | false

Weights — 표본 추출 가중치 ones(datasize,1) (디폴트 값) | 음이 아닌 숫자형 값으로 구성된 벡터

출력 인수

y — 표본 벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

idx — 인덱스 벡터

팁

알고리즘

대체 기능

참고 문헌

확장 기능

tall형 배열 메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

버전 내역

참고 항목

`data` — 입력 데이터
벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

`k` — 표본 개수
양의 정수

`dim` — 표본을 추출할 차원
1 (디폴트 값) | 양의 정수

`s` — 난수 스트림
전역 스트림 (디폴트 값) | `RandStream`

`Replace` — 복원추출을 나타내는 표시자
true (디폴트 값) | false

`Weights` — 표본 추출 가중치
`ones(datasize,1)` (디폴트 값) | 음이 아닌 숫자형 값으로 구성된 벡터

`y` — 표본
벡터 | 행렬 | 다차원 배열 | table형 | dataset형 배열

`idx` — 인덱스
벡터

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.