SQL - 處理重複資料

Table of content

有時，表或結果集包含重複記錄。在大多數情況下，允許重複記錄，但在某些情況下，需要防止重複記錄並將其從資料庫表中刪除。

為什麼在 SQL 中處理重複資料是必要的？

在 SQL 資料庫中處理重複資料是為了防止以下後果：

本章將介紹如何防止表中出現重複記錄以及如何刪除已存在的重複記錄。

為了防止重複記錄進入表中，我們可以在相關欄位上定義主鍵或唯一索引。這些資料庫約束確保指定列或列集中每個條目的唯一性。

讓我們使用以下查詢建立一個 CUSTOMERS 表：

CREATE TABLE CUSTOMERS (
   FIRST_NAME CHAR(20),
   LAST_NAME CHAR(20),
   SEX CHAR(10)
);

由於我們沒有在表上定義任何約束，因此可以向其中插入重複記錄。為了防止這種情況，請在相關欄位（例如 LAST_NAME 和 FIRST_NAME 組合）上新增主鍵約束：

ALTER TABLE CUSTOMERS 
ADD PRIMARY KEY (LAST_NAME, FIRST_NAME);

使用 INSERT IGNORE 查詢

或者，我們可以使用 INSERT IGNORE 語句插入記錄，而不會為重複項生成錯誤，如下所示：

INSERT IGNORE INTO CUSTOMERS (LAST_NAME, FIRST_NAME) VALUES
( 'Jay', 'Thomas'),
( 'Jay', 'Thomas');

如下所示，表中將只包含一條記錄（忽略重複值）。

FIRST_NAME	LAST_NAME	SEX
Thomas	Jay	NULL

使用 REPLACE 查詢

或者，使用 REPLACE 語句替換重複項，如下面的查詢所示：

REPLACE INTO CUSTOMERS (LAST_NAME, FIRST_NAME) VALUES
( 'Ajay', 'Kumar'),
( 'Ajay', 'Kumar');

表將包含以下記錄：

FIRST_NAME	LAST_NAME	SEX
Kumar	Ajay	NULL
Thomas	Jay	NULL

INSERT IGNORE 和 REPLACE 語句的選擇應根據所需的重複處理行為做出。INSERT IGNORE 語句保留第一組重複記錄並丟棄任何後續重複記錄。相反，REPLACE 語句保留最後一組重複項並擦除任何較早的重複項。

使用 UNIQUE 約束

在表中強制唯一性的另一種方法是新增 UNIQUE 約束而不是 PRIMARY KEY 約束：

CREATE TABLE BUYERS (
   FIRST_NAME CHAR(20) NOT NULL,
   LAST_NAME CHAR(20) NOT NULL,
   SEX CHAR(10),
   UNIQUE (LAST_NAME, FIRST_NAME)
);

要根據特定列計算和識別重複記錄，我們可以使用 COUNT 函式和 GROUP BY 子句。

以下是計算 BUYERS 中 FIRST_NAME 和 LAST_NAME 重複記錄的查詢：

SELECT COUNT(*) as repetitions, LAST_NAME, FIRST_NAME
FROM BUYERS
GROUP BY LAST_NAME, FIRST_NAME
HAVING repetitions > 1;

此查詢將返回 PERSON_TABLE 表中所有重複記錄的列表。要識別重複的值集，請按照以下步驟操作：

我們可以將 DISTINCT 關鍵字與 SELECT 語句一起使用，從表中檢索唯一記錄。

SELECT DISTINCT LAST_NAME, FIRST_NAME
FROM BUYERS
ORDER BY LAST_NAME;

或者，您可以包含一個 GROUP BY 子句，指定您要選擇的列以消除重複項：

SELECT LAST_NAME, FIRST_NAME
FROM BUYERS
GROUP BY LAST_NAME, FIRST_NAME;

列印頁面