AI人工智能 預處理數(shù)據(jù)

2021-04-08 11:21 更新

在上一節(jié)中,我們已經學習了監(jiān)督和無監(jiān)督機器學習算法。 這些算法需要格式化數(shù)據(jù)才能開始訓練過程。在這一節(jié)中,我們以某種方式準備或格式化數(shù)據(jù),以便將其作為 ML 算法的輸入提供。

本章重點介紹機器學習算法的數(shù)據(jù)準備。

在我們的日常生活中,需要處理大量數(shù)據(jù),但這些數(shù)據(jù)是原始數(shù)據(jù)。 為了提供數(shù)據(jù)作為機器學習算法的輸入,需要將其轉換為有意義的數(shù)據(jù)。 這就是數(shù)據(jù)預處理進入圖像的地方。 換言之,可以說在將數(shù)據(jù)提供給機器學習算法之前,我們需要對數(shù)據(jù)進行預處理。

數(shù)據(jù)預處理步驟

按照以下步驟在 Python 中預處理數(shù)據(jù) -

第1步 - 導入有用的軟件包 - 如果使用 Python,那么這將成為將數(shù)據(jù)轉換為特定格式(即預處理)的第一步。如下代碼 -

import numpy as np
from sklearn import preprocessing

這里使用了以下兩個軟件包 -

  • NumPy - 基本上 NumPy 是一種通用的數(shù)組處理軟件包,設計用于高效處理任意記錄的大型多維數(shù)組而不犧牲小型多維數(shù)組的速度。
  • sklearn.preprocessing - 此包提供了許多常用的實用函數(shù)和變換器類,用于將原始特征向量更改為更適合機器學習算法的表示形式。

第2步 - 定義樣本數(shù)據(jù) - 導入包后,需要定義一些樣本數(shù)據(jù),以便可以對這些數(shù)據(jù)應用預處理技術?,F(xiàn)在將定義以下樣本數(shù)據(jù) -

input_data = np.array([[2.1, -1.9, 5.5],
                       [-1.5, 2.4, 3.5],
                       [0.5, -7.9, 5.6],
                       [5.9, 2.3, -5.8]])

第3步 - 應用預處理技術 - 在這一步中,我們需要應用預處理技術。

以下部分描述數(shù)據(jù)預處理技術。

以上內容是否對您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號
微信公眾號

編程獅公眾號