배출량 계산 방법

작가: Janice Evans
창조 날짜: 23 칠월 2021
업데이트 날짜: 1 칠월 2024
Anonim
[측정HOW] 탄소 배출량으로 알아보는 다양한 사회적 가치 측정법
동영상: [측정HOW] 탄소 배출량으로 알아보는 다양한 사회적 가치 측정법

콘텐츠

통계에서 이상치는 수집된 데이터 세트의 다른 값과 크게 다른 값입니다. 이상치는 데이터 분포의 이상 또는 측정 오류를 나타낼 수 있으므로 이상치는 종종 데이터 세트에서 제외됩니다. 데이터 세트에서 이상값을 제거하면 예상치 못한 또는 더 정확한 결론에 도달할 수 있습니다. 따라서 통계를 제대로 이해하기 위해서는 이상치를 계산하고 추정할 수 있어야 한다.

단계

  1. 1 잠재적인 이상값을 인식하는 방법을 배웁니다. 데이터세트에서 이상치를 제외하기 전에 잠재적 이상치를 식별해야 합니다. 이상치는 데이터세트에 있는 대부분의 값과 매우 다른 값입니다. 즉, 이상값은 대부분의 값의 추세를 벗어납니다. 이것은 값 표 또는 (특히) 그래프에서 쉽게 찾을 수 있습니다. 데이터 세트의 값이 플롯되면 이상값은 대부분의 다른 값에서 멀리 떨어져 있습니다. 예를 들어 대부분의 값이 직선에 있으면 이상값은 이러한 직선의 양쪽에 있습니다.
    • 예를 들어, 방에 있는 12개의 서로 다른 물체의 온도를 나타내는 데이터 세트를 고려하십시오. 11개의 물체가 약 70도이지만 12번째 물체(용광로일 가능성이 있음)가 300도인 경우 값을 간단히 살펴보면 용광로가 폭발 가능성이 있음을 나타낼 수 있습니다.
  2. 2 데이터를 오름차순으로 정렬합니다. 이상값을 결정하는 첫 번째 단계는 데이터 세트의 중앙값을 계산하는 것입니다. 데이터 세트의 값이 오름차순(가장 작은 것부터 큰 것)으로 정렬되면 이 작업이 크게 단순화됩니다.
    • 위의 예를 계속 진행하면서 여러 객체의 온도를 나타내는 다음 데이터 세트를 고려하십시오. {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. 이 세트는 {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}과 같이 주문해야 합니다.
  3. 3 데이터 세트의 중앙값을 계산합니다. 데이터 세트의 중앙값은 데이터 세트의 중간에 있는 값입니다. 데이터 세트에 홀수 개의 값이 포함되어 있는 경우 중앙값은 데이터 세트에 동일한 수의 값이 있는 전후의 값입니다. 그러나 데이터 세트에 짝수의 값이 포함되어 있으면 두 평균의 산술 평균을 찾아야 합니다. 이상값을 계산할 때 중앙값은 일반적으로 Q2라고 하며, 이는 나중에 정의할 하위 사분위수와 상위 사분위수인 Q1과 Q3 사이에 있기 때문입니다.
    • 짝수 개의 값이 있는 데이터 세트로 작업하는 것을 두려워하지 마십시오. 두 평균의 산술 평균은 데이터 세트에 없는 숫자가 됩니다. 이것은 정상입니다. 그러나 두 개의 평균 값이 같은 숫자이면 산술 평균은 이 숫자와 같습니다. 이것은 또한 사물의 순서입니다.
    • 위의 예에서 중간 2개의 값은 70과 71이므로 중앙값은 ((70 + 71) / 2) = 70.5입니다.
  4. 4 최하위 사분위수를 계산합니다. Q1이라고 하는 이 값은 데이터 세트 값의 25%가 그 아래에 있습니다. 즉, 중앙값까지 값의 절반입니다. 데이터셋에서 중앙값 이전에 짝수개의 값이 있는 경우 Q1을 계산하려면 두 평균의 산술 평균을 찾아야 합니다(이는 중앙값 계산과 유사).
    • 이 예에서는 중앙값 뒤에 6개 값이 있고 그 앞에 6개 값이 있습니다. 즉, 하위 사분위수를 계산하려면 중앙값 앞에 있는 6개 값 중 두 개 평균의 산술 평균을 찾아야 합니다. 여기서 평균 값은 70과 70입니다. 따라서 Q1 = ((70 + 70) / 2) = 70입니다.
  5. 5 상위 사분위수를 계산합니다. Q3라고 하는 이 값은 데이터 세트 값의 25% 이상이 있는 것입니다. Q3을 계산하는 과정은 Q1을 계산하는 과정과 비슷하지만 여기서는 중앙값 이후의 값을 고려합니다.
    • 위의 예에서 중앙값 이후 6개의 평균은 71과 72입니다. 따라서 Q3 = ((71 + 72) / 2) = 71.5입니다.
  6. 6 사분위수 범위를 계산합니다. Q1과 Q3을 계산한 후에는 이 값들 사이의 거리를 찾아야 합니다. 이렇게 하려면 Q3에서 Q1을 빼십시오. 사분위수 범위의 값은 이상치가 아닌 값의 경계를 결정하는 데 매우 중요합니다.
    • 이 예에서 Q1 = 70 및 Q3 = 71.5입니다. 사분위수 범위는 71.5 - 70 = 1.5입니다.
    • 이것은 음수 Q1 및 Q3 값에도 적용됩니다. 예를 들어 Q1 = -70이면 사분위수 범위는 71.5 - (-70) = 141.5입니다.
  7. 7 데이터 세트에서 값의 "내부 경계"를 찾으십시오. 이상치는 소위 "내부 경계" 및 "외부 경계"에 속하는지 여부와 같은 값을 분석하여 결정됩니다. "내부 경계"를 벗어난 값은 "사소한 이상값"으로 분류되고, "외부 경계"를 벗어난 값은 "유의한 이상값"으로 분류됩니다. 내부 경계를 찾으려면 사분위수 범위에 1.5를 곱해야 합니다. 결과는 Q3에 더하고 Q1에서 빼야 합니다. 발견된 두 숫자는 데이터 세트의 내부 경계입니다.
    • 이 예에서 사분위수 범위는 (71.5 - 70) = 1.5입니다. 추가: 1.5 * 1.5 = 2.25. 내부 경계를 찾으려면 이 숫자를 Q3에 더하고 Q1에서 빼야 합니다.
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • 따라서 내부 경계는 67.75와 73.75입니다.
    • 이 예에서 화로 온도(300도)만 이러한 한계를 벗어나 있으며 미미한 배출로 간주될 수 있습니다. 그러나 성급하게 결론을 내리지 마십시오. 이 온도가 중요한 이상값인지 확인해야 합니다.
  8. 8 데이터 세트의 "외부 경계"를 찾으십시오. 이는 사분위수 범위에 1.5 대신 3을 곱한 것을 제외하고 내부 경계와 동일한 방식으로 수행됩니다. 결과는 Q3에 더하고 Q1에서 빼야 합니다. 발견된 두 숫자는 데이터 세트의 외부 경계입니다.
    • 이 예에서는 사분위수 범위에 3(1.5 * 3 = 4.5)을 곱합니다. 외부 경계를 계산합니다.
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • 따라서 외부 경계는 65.5와 76입니다.
    • 외부 경계를 벗어나는 모든 값은 상당한 배출량으로 간주됩니다. 이 예에서 300도의 용광로 온도는 상당한 분출로 간주됩니다.
  9. 9 데이터 세트에서 이상치를 제외해야 하는지 여부를 결정하려면 정성적 추정치를 사용하십시오. 위에서 설명한 방법을 사용하면 일부 값이 이상값(사소한지 또는 중요한지)을 확인할 수 있습니다. 하지만 실수하지 마십시오. 이상값으로 분류된 값은 예외의 "후보"일 뿐이므로 제외할 필요가 없습니다. 이상치의 원인은 이상치를 배제하는 결정에 영향을 미치는 주요 요인입니다. 원칙적으로 오차(측정, 기록 등)로 인해 발생하는 이상치는 제외됩니다. 반면에 오류가 아닌 새로운 정보 또는 추세와 관련된 이상치는 일반적으로 데이터 세트에 남습니다.
    • 데이터 세트의 중앙값에 대한 이상값의 영향을 평가하는 것도 똑같이 중요합니다(왜곡 여부). 이는 데이터 세트의 중앙값에서 결론을 도출할 때 특히 중요합니다.
    • 이 예에서 오븐이 300도까지 가열될 가능성은 극히 낮습니다(자연적 이상을 고려하지 않는 한). 따라서 이러한 온도는 데이터 세트에서 제외해야 하는 측정 오류라고 (높은 확실성을 가지고) 결론을 내릴 수 있습니다. 또한 이상값을 배제하지 않으면 데이터 세트의 중앙값은 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89.67도가 됩니다. 그러나 이상값을 제외하면 중앙값은 (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55도가 됩니다.
      • 이상치는 일반적으로 사람의 실수로 인해 발생하므로 데이터 세트에서 이상치를 제외해야 합니다.
  10. 10 데이터 세트에 남아 있는 (때때로) 이상값의 중요성을 이해합니다. 일부 이상치는 오류 및 기술적인 문제로 인해 데이터 세트에서 제외되어야 합니다. 다른 이상치는 데이터세트에 남겨두어야 합니다. 예를 들어 이상치가 오류의 결과가 아니거나 테스트 중인 현상에 대한 새로운 이해를 제공하는 경우 데이터 세트에 남겨두어야 합니다. 과학 실험은 특히 이상값에 민감합니다. 실수로 이상값을 제거하면 새로운 추세나 발견을 놓칠 수 있습니다.
    • 예를 들어, 우리는 어업에서 물고기의 크기를 증가시키는 신약을 개발하고 있습니다. 이전 데이터 세트({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69})를 사용하지만 이번에는 각 값이 물고기의 무게(그램)를 나타냅니다. 실험 약물 섭취 후. 즉, 첫 번째 약물은 최대 71g의 물고기 무게를 증가시키고 두 번째 약물은 최대 70g 등으로 증가합니다. 이 상황에서 300은 중요한 이상값이지만 이를 배제해서는 안 됩니다. 측정 오류가 없다고 가정하면 이러한 이상값은 실험에서 상당한 성공을 거둔 것입니다. 물고기의 무게를 300g으로 늘린 약물은 다른 약물보다 훨씬 잘 작동합니다. 따라서 300은 데이터 세트에서 가장 중요한 값입니다.

  • 이상값이 발견되면 데이터 세트에서 제외하기 전에 이상값의 존재를 설명하십시오. 측정 오류 또는 분포 이상을 나타낼 수 있습니다.

뭐가 필요하세요

  • 계산자