Microsoft Excel là phần mềm bảng tính được sử dụng rộng rãi nhất trên thế giới và có lý do chính đáng cho việc đó. Excel có giao diện thân thiện với người dùng và các công cụ tích hợp mạnh mẽ giúp đơn giản hơn khi làm việc với dữ liệu.
Nhưng nếu muốn xử lý dữ liệu nâng cao hơn, bạn sẽ cần phải sử dụng những thứ vượt ra ngoài các khả năng của Excel và bắt đầu dùng một ngôn ngữ lập trình như Python. Thay vì sao chép thủ công dữ liệu vào database, sau đây là hướng dẫn nhanh về cách load dữ liệu Excel vào Python bằng Pandas.
Lưu ý: Nếu chưa từng sử dụng Python trước đây, hướng dẫn này có thể khó khăn. Bạn nên bắt đầu với các trang web để tìm hiểu Python và những ví dụ Python cơ bản mà Quantrimang.com đã gợi ý.
Python Data Analysis Library (Pandas) là một thư viện mã nguồn mở cho ngôn ngữ lập trình Python được sử dụng để phân tích và thao tác dữ liệu.
Pandas load dữ liệu vào các đối tượng Python được gọi là Dataframe, lưu trữ dữ liệu theo hàng và cột giống như cơ sở dữ liệu truyền thống. Khi một Dataframe được tạo, nó có thể được thao tác bằng Python, mở ra vô số khả năng.
Lưu ý: Bạn phải có Python 2.7 trở lên để cài đặt Pandas.
Để bắt đầu làm việc với Pandas trên máy tính, bạn sẽ cần nhập thư viện Pandas. Nếu tìm kiếm một giải pháp nâng cao, bạn có thể tải xuống Anaconda Python Distribution, có tích hợp Pandas. Nếu bạn không sử dụng Anaconda, Pandas rất đơn giản để cài đặt trong terminal.
Pandas là gói PyPI, có nghĩa là bạn có thể cài đặt bằng PIP cho Python thông qua dòng lệnh. Các hệ thống Mac hiện đại đi kèm với PIP. Đối với các hệ thống Windows, Linux và nhiều hệ thống cũ khác, rất dễ dàng để học cách cài đặt PIP cho Python.
Khi bạn đã mở terminal, phiên bản mới nhất của Pandas có thể được cài đặt bằng lệnh:
>> pip install pandas
Pandas cũng yêu cầu thư viện NumPy, hãy cài đặt thư viện này trên dòng lệnh:
>> pip install numpy
Bây giờ, bạn đã cài đặt Pandas và sẵn sàng tạo DataFrame đầu tiên!
Trong ví dụ này, hãy sử dụng một tập dữ liệu mẫu: Một workbook Excel có tên Cars.xlsx.
Tập dữ liệu này hiển thị thương hiệu, kiểu dáng, màu sắc và năm sản xuất của những chiếc ô tô được nhập vào bảng. Bảng được hiển thị dưới dạng phạm vi Excel. Pandas đủ thông minh để đọc dữ liệu một cách phù hợp.
Workbook này được lưu vào thư mục Desktop, đây là đường dẫn file được sử dụng:
/Users/grant/Desktop/Cars.xlsx
Bạn sẽ cần biết đường dẫn file của workbook để sử dụng Pandas. Hãy bắt đầu bằng cách mở Visual Studio Code để viết script. Nếu bạn không có trình soạn thảo văn bản, bài viết khuyên dùng Visual Studio Code hoặc Atom Editor.
Bây giờ, bạn đã có trình soạn thảo văn bản mình cần. Tiếp theo, bài viết sẽ kết hợp Python và workbook Cars để tạo ra một DataFrame Pandas.
Mở trình soạn thảo văn bản và tạo một file Python mới. Hãy gọi cho nó là Script.py.
Để làm việc với Pandas trong script, bạn sẽ cần nhập nó vào code của mình. Điều này được thực hiện với một dòng code:
import pandas as pd
Ở đây, ví dụ đang load thư viện Pandas và đính kèm nó vào một biến “pd”. Bạn có thể sử dụng bất kỳ tên nào mình muốn, còn ví dụ hiện đang sử dụng “pd”, là viết tắt của Pandas.
Để làm việc với Excel bằng Pandas, bạn cần một đối tượng bổ sung có tên ExcelFile. ExcelFile được tích hợp vào hệ sinh thái Pandas, vì vậy bạn có thể nhập trực tiếp từ Pandas:
from pandas import ExcelFile
Để cấp cho Pandas quyền truy cập vào workbook, bạn cần hướng script của mình đến vị trí file. Cách dễ nhất để làm điều này là cung cấp cho script đường dẫn đầy đủ đến workbook.
Nhớ lại đường dẫn trong ví dụ này: /Users/grant/Desktop/Cars.xlsx
Bạn sẽ cần đường dẫn file này được tham chiếu trong script để trích xuất dữ liệu. Thay vì tham chiếu đường dẫn bên trong hàm Read_Excel, hãy giữ “sạch” code bằng cách lưu trữ đường dẫn trong một biến:
Cars_Path = '/Users/grant/Desktop/Cars.xlsx'
Bây giờ, bạn đã sẵn sàng để trích xuất dữ liệu bằng hàm Pandas!
Với Pandas được nhập và bộ biến đường dẫn được đặt, giờ đây, bạn có thể sử dụng các hàm trong đối tượng Pandas để hoàn thành nhiệm vụ.
Hàm bạn sẽ cần sử dụng có tên là Read_Excel. Hàm Read_Excel lấy đường dẫn file của workbook Excel và trả về một đối tượng DataFrame với nội dung của workbook. Pandas đặt chức năng này là:
pandas.read_excel(path)
Đối số “path” là đường dẫn đến workbook Cars.xlsx và bài viết đã đặt chuỗi đường dẫn thành biến Cars_Path.
Bạn đã sẵn sàng để tạo đối tượng DataFrame! Hãy kết hợp tất cả cùng nhau và đặt đối tượng DataFrame thành một biến có tên là DF:
DF = pd.read_excel(Cars_Path)
Cuối cùng, bạn sẽ muốn xem DataFrame, vì vậy hãy in kết quả. Thêm một câu lệnh in vào cuối script, sử dụng biến DataFrame làm đối số:
print(DF)
Đã đến lúc để chạy script trong terminal!
Mở terminal hoặc dòng lệnh và điều hướng đến thư mục chứa script của bạn. Trong trường hợp này, ta có ngay “Script.py” trên desktop. Để thực thi script, sử dụng lệnh python theo sau là file script:
Python sẽ kéo dữ liệu từ “Cars.xlsx” vào DataFrame mới và in DataFrame ra terminal!
Thoạt nhìn, DataFrame trông rất giống với bảng Excel thông thường. Điều này khiến Pandas DataFrame rất dễ hiểu.
Những header được gắn nhãn ở đầu tập dữ liệu và Python đã điền vào các hàng bằng tất cả thông tin đọc được từ workbook Cars.xlsx.
Lưu ý cột ngoài cùng bên trái, một chỉ mục bắt đầu từ 0 và đánh số các cột. Theo mặc định, Pandas sẽ áp dụng chỉ mục này cho DataFrame, có thể hữu ích trong một số trường hợp. Nếu không muốn chỉ mục này được tạo, bạn có thể thêm một đối số bổ sung vào code:
DF = pd.read_excel(Cars_Path, index=False)
Đặt đối số “index” thành False sẽ loại bỏ cột chỉ mục, chỉ còn lại dữ liệu Excel.
Bây giờ, bạn đã có khả năng đọc dữ liệu từ bảng tính Excel. Bạn có thể áp dụng lập trình Python theo bất kỳ cách nào mình chọn. Làm việc với Pandas là một cách đơn giản để các lập trình viên Python có kinh nghiệm làm việc với dữ liệu được lưu trữ trong workbook Excel.
Sự dễ dàng khi sử dụng Python để phân tích và thao tác dữ liệu là một trong nhiều lý do tại sao Python là ngôn ngữ lập trình của tương lai.
Chúc bạn thực hiện thành công!
Nguồn tin: quantrimang.com
Ý kiến bạn đọc
Những tin mới hơn
Những tin cũ hơn