找到關於 Pandas 的507 篇文章

如何將 Pandas 轉換為 PySpark DataFrame?

Mukul Latiyan
更新於 2023年4月18日 14:51:05

6000+ 次瀏覽

Pandas 和 PySpark 是 Python 中兩種流行的資料處理工具。Pandas 非常適合處理單機上的小型到中型資料集,而 PySpark 則設計用於跨多臺機器分散式處理大型資料集。當您需要擴充套件資料處理以處理更大的資料集時,可能需要將 pandas DataFrame 轉換為 PySpark DataFrame。在本指南中,我們將探討使用 Python 中的 PySpark 庫將 pandas DataFrame 轉換為 PySpark DataFrame 的過程。我們將介紹安裝和設定 PySpark、將 pandas DataFrame 轉換... 閱讀更多

使用布林模型和向量空間模型進行文件檢索

Mithilesh Pradhan
更新於 2023年3月23日 16:21:37

6000+ 次瀏覽

引言 機器學習中的文件檢索是資訊檢索更大方面的一部分,在該方面,系統嘗試根據使用者的查詢找到與搜尋查詢相關的文件,並按相關性或匹配程度對其進行排序。文件檢索有不同的方法,兩種流行的方法是:布林模型、向量空間模型。讓我們簡要了解上述每種方法。布林模型 它是一種基於集合的檢索模型。使用者查詢採用布林形式。使用 AND、OR、NOT 等連線查詢。文件... 閱讀更多

如何在 Pandas 中將組級彙總統計資訊新增為新列?

Manas Gupta
更新於 2023年3月23日 15:18:07

212 次瀏覽

Pandas 是一個非常流行的資料處理庫,經常用於資料操作和分析。Pandas 庫提供了強大的分析功能,例如分組分析具有某些共同特徵的各種樣本。在本文中,我們將學習如何將透過樣本組獲得的這些彙總統計資訊作為新列新增到我們現有的 Pandas 資料框中。注意 - 本文中的程式碼是在 Jupyter Notebook 上執行的。讓我們從匯入 Pandas 開始。import pandas as pd 示例以下是我們將要處理的樣本資料集。它包含 3 列,儲存... 閱讀更多

如何向 Pandas 資料框新增標題行?

Manas Gupta
更新於 2023年3月23日 15:13:30

7000+ 次瀏覽

Pandas 是 Python 中一個非常流行的資料處理和操作庫,經常用於資料分析和資料預處理。Pandas 庫具有一個強大的資料結構,稱為 Pandas 資料框,用於儲存任何型別的二維資料。在本文中,我們將學習向 Pandas 資料框新增標題行(或簡稱列名)的各種方法。注意 - 本文中的程式碼已在 Jupyter Notebook 上進行了測試。我們將看到如何透過 5 種不同的方式新增標題行 - 建立資料框時新增標題行... 閱讀更多

Pandas Series 與單列 DataFrame

Premansh Sharma
更新於 2023年3月10日 14:09:06

11000+ 次瀏覽

引言 本文比較和對比了 Python 的 Pandas 庫的單列 DataFrame 和 Pandas Series 資料結構。本文的目標是清楚地解釋這兩種資料結構、它們的異同。為了幫助讀者為其特定用例選擇最佳方案,它包含這兩種結構之間的比較以及關於資料型別、索引、切片和效能等方面的實際示例。本文適合已經熟悉 Pandas 並希望更深入地瞭解這兩種關鍵資料結構的初級和中級 Python 程式設計師。什麼是 Pandas?... 閱讀更多

如何從資料集中選擇重要變數?

Parth Shukla
更新於 2023年1月16日 16:07:11

1000+ 次瀏覽

引言 在機器學習中,資料特徵是影響模型效能最主要的因素之一。資料的特徵或變數應該具有資訊量並且足夠好,可以將其饋送到機器學習演算法中,因為據指出,即使提供少量高質量的資料,模型也能獲得最佳效能。傳統的機器學習演算法在提供更多資料時效能更好。儘管如此,在達到某個值或資料數量之後,模型的效能會保持不變,不會再提高。這就是選擇... 閱讀更多

成本函式中使用的目錄資訊

Raunak Jain
更新於 2023年1月16日 15:57:04

697 次瀏覽

引言 在建立成本函式時,目錄資訊是可用於最佳化模型效能的關鍵資料。在本文中,我們將探討如何在成本函式中使用目錄資訊、可用的不同型別的目錄資訊以及如何在程式碼中實現這一點。什麼是目錄資訊?目錄資訊是指描述公司銷售的產品或商品的資料。此資訊可能包括產品名稱、說明、價格和影像等內容。這些資料通常儲存在資料庫中,並且... 閱讀更多

構建資料倉庫

Raunak Jain
更新於 2023年1月10日 18:30:45

488 次瀏覽

資料倉庫是用於報告和分析的整合資料的中心儲存庫。它儲存大量歷史和當前資料,並能夠為分析目的提供快速的查詢效能。資料倉庫可用於支援業務決策、提高運營效率和獲得競爭優勢。在本文中,我們將討論從頭開始構建資料倉庫的過程。瞭解資料倉庫的需求 在開始設計和構建資料倉庫之前,瞭解業務需求和將要處理的資料型別非常重要。... 閱讀更多

使用 Dask 進行平行計算

Prerna Tiwari
更新於 2023年1月9日 16:08:30

493 次瀏覽

Dask 是一個靈活的開源 Python 庫,用於平行計算。在本文中,我們將學習平行計算以及為什麼我們應該為此選擇 Dask。我們將將其與 Spark、Ray 和 Modin 等其他各種庫進行比較。我們還討論了 Dask 的用例。平行計算 一種稱為平行計算的計算型別同時執行多個計算或過程。大型問題通常被分解成可管理的部分,這些部分可以單獨解決。平行計算的四大類是位級、指令級、資料級、作業並行。... 閱讀更多

使用電子表格進行資料分析

Prerna Tiwari
更新於 2023年1月9日 16:30:14

582 次瀏覽

清洗、轉換和分析原始資料是獲得有用、相關資訊的第一步,這些資訊可以幫助企業做出明智的結論。透過提供相關的資料和事實(通常以圖表、圖片、表格和圖形的形式呈現),該策略有助於降低決策相關的風險。資料分析關注的是將未經處理的資料轉換成相關的統計資料、知識和解釋的過程。資料分析是一項重要的技能,可以支援更有效的決策。電子表格是資料分析最常用的工具,內建的透視表是最流行的分析工具。... 閱讀更多

廣告
© . All rights reserved.