詳解 NumPy 隨機資料分佈與 Seaborn 的視覺化-Python-CodeUp Hub

隨機資料分佈

什麼是資料分佈？

資料分佈是指資料集中所有可能值出現的頻率，並用機率來表示。它描述了資料取值的可能性。

在統計學和資料科學中，資料分佈是分析資料的重要基礎。

NumPy 中的隨機分佈

NumPy 的 random 模組提供了多種方法來生成服從不同分佈的隨機數。

生成離散分佈隨機數

choice(a, p, size)：從陣列 a 中隨機選擇元素，並根據機率 p 進行選擇。
a：源陣列，包含所有可能值。
p：每個值的機率陣列，總和必須為 1。
size：輸出陣列的形狀。

示例：生成 100 個隨機數，其中 3 出現的機率為 0.2，5 出現的機率為 0.4，7 出現的機率為 0.3，9 出現的機率為 0.1：

import numpy as np
 
x = np.random.choice([3, 5, 7, 9], p=[0.2, 0.4, 0.3, 0.1], size=100)
print(x)

生成連續分佈隨機數

NumPy 提供了多種方法來生成服從不同連續分佈的隨機數，例如正態分佈、均勻分佈、指數分佈等。

randn(size)：生成服從標準正態分佈的隨機數。
rand(size)：生成服從均勻分佈的隨機數。
beta(a, b, size)：生成服從 Beta 分佈的隨機數。
gamma(shape, scale, size)：生成服從 Gamma 分佈的隨機數。
poisson(lam, size)：生成服從泊松分佈的隨機整數。

示例：生成 10 個服從標準正態分佈的隨機數：

import numpy as npx = np.random.randn(10)print(x)

隨機排列

洗牌陣列

shuffle(arr)：對陣列 arr 進行隨機洗牌，修改原始陣列。

示例：隨機洗牌陣列 [1, 2, 3, 4, 5]：

import numpy as np
from numpy.random import shuffle
 
arr = np.array([1, 2, 3, 4, 5])
 
shuffle(arr)
print(arr)

生成陣列的隨機排列

permutation(arr)：生成陣列 arr 元素的隨機排列，不修改原始陣列。

示例：生成陣列 [1, 2, 3, 4, 5] 的隨機排列：

import numpy as np
from numpy.random import permutation
 
arr = np.array([1, 2, 3, 4, 5])
 
x = permutation(arr)
print(x)

練習

使用 choice 方法生成 200 個隨機數，其中 1 出現的機率為 0.1，2 出現的機率為 0.2，3 出現的機率為 0.7。
生成 10 個服從指數分佈的隨機數。
對陣列 [10, 20, 30, 40, 50] 進行隨機洗牌。
生成陣列 [6, 7, 8, 9, 10] 元素的隨機排列。

解決方案

import numpy as np
from numpy.random import choice, permutation, expon
 
# 1. 使用 choice 方法生成隨機數
random_numbers = choice([1, 2, 3], p=[0.1, 0.2, 0.7], size=200)
print(random_numbers)
 
# 2. 生成服從指數分佈的隨機數
exponential_randoms = expon(scale=1, size=10)
print(exponential_randoms)
 
# 3. 對陣列進行隨機洗牌
arr = np.array([10, 20, 30, 40, 50])
shuffle(arr)
print(arr)
 
# 4. 生成陣列的隨機排列
random_permutation = permutation([6, 7, 8, 9, 10])
print(random_permutation)

使用 Seaborn 視覺化分佈

簡介

Seaborn 是一個基於 Matplotlib 的 Python 資料視覺化庫，用於建立統計圖表。它提供了一系列高階繪圖函式，可以輕鬆建立美觀且資訊豐富的統計圖形。

安裝 Seaborn

如果您已經安裝了 Python 和 pip，可以使用以下命令安裝 Seaborn：

pip install seaborn

如果您使用的是 Jupyter Notebook，可以使用以下命令安裝 Seaborn：

!pip install seaborn

繪製分佈圖

分佈圖是一種視覺化資料分佈的圖表。它顯示了資料集中每個值的出現頻率。

在 Seaborn 中，可以使用 sns.distplot() 函式繪製分佈圖。該函式接受以下引數：

data：要繪製分佈的資料。可以是陣列、列表或 Pandas 資料框。
hist：如果為 True（預設），則繪製直方圖；如果為 False，則只繪製密度曲線。
kde：如果為 True（預設），則使用核密度估計 (KDE) 來估計資料的分佈；如果為 False，則使用直方圖。
bins：用於建立直方圖的直方圖數量。
norm：用於規範分佈的型別。例如，norm='kde' 將使用 KDE 來規範分佈。

示例：繪製正態分佈

以下示例演示如何使用 Seaborn 繪製正態分佈：

import seaborn as sns
import numpy as np
 
# 生成隨機資料
data = np.random.randn(1000)
 
# 繪製分佈圖
sns.distplot(data)
plt.show()

該程式碼將生成 1000 個服從標準正態分佈的隨機數，並使用 Seaborn 繪製它們的分佈圖。

示例：繪製自定義分佈

以下示例演示如何繪製自定義分佈：

import seaborn as sns
import numpy as np
 
# 生成自定義資料
data = [1, 2, 2, 3, 3, 3, 4, 4, 5, 5, 6, 7, 7, 8, 9]
 
# 繪製分佈圖
sns.distplot(data, hist=False, kde=False)
plt.show()

該程式碼將生成一個包含重複值的自定義資料陣列，並使用 Seaborn 繪製它們的分佈圖，不顯示直方圖或密度曲線。

練習

生成 500 個服從均勻分佈的隨機數，並繪製它們的分佈圖。
生成 1000 個服從指數分佈的隨機數，並繪製它們的分佈圖。
從以下資料中繪製分佈圖：

data = [23, 37, 43, 29, 31, 32, 36, 27, 31, 33, 34, 25, 27, 28, 42, 38, 27, 27, 33, 31, 26, 29, 31, 35, 33, 30, 30, 32, 36, 28, 31, 33, 38, 29, 31, 31, 34, 36, 26, 25, 26, 34, 37, 28, 36, 31, 29, 31, 27, 28, 32, 37, 30, 33, 33, 27, 31, 32, 32, 36, 25, 32, 35, 37, 37, 30, 31, 34, 33, 29, 32, 31, 36, 26, 29, 31, 37, 28, 28, 37, 31, 32, 36, 33, 27, 31, 32, 33, 32, 32, 30, 27, 36, 38, 35, 26, 32, 37, 31, 30, 33, 30, 27,

詳解 NumPy 隨機資料分佈與 Seaborn 的視覺化

隨機資料分佈

什麼是資料分佈？

NumPy 中的隨機分佈

生成離散分佈隨機數

生成連續分佈隨機數

隨機排列

洗牌陣列

生成陣列的隨機排列

練習

解決方案

使用 Seaborn 視覺化分佈

簡介

安裝 Seaborn

繪製分佈圖

示例：繪製正態分佈

示例：繪製自定義分佈

練習

相關推薦

利用 Python 檢測...

【譯】使用「不安全」的P...

分享 10 個 Pyth...

教你在 Windows ...

更新或插入資料到 Mon...

使用 Python D...

0則評論