Nguồn mở công cụ dữ liệu lớn

OpenRefine Nguồn mở công cụ dữ liệu lớn

Giải pháp dữ liệu lớn miễn phí để xử lý dữ liệu phức tạp quy mô lớn

Nền tảng dữ liệu lớn miễn phí mạnh mẽ để khám phá, chuyển đổi và điều hòa dữ liệu lộn xộn quy mô lớn. Mở rộng nó với các dịch vụ web và bộ dữ liệu bên ngoài.

Tổng quan

OpenRefine (trước đây Google Refine) là một công cụ dữ liệu lớn nguồn mở để làm việc với các bộ dữ liệu phức tạp. Đó là một nền tảng dữ liệu lớn miễn phí để thao tác dữ liệu. Nó giúp người dùng làm sạch dữ liệu lộn xộn và chuyển đổi nó sang một định dạng khác. Hơn nữa, OpenRefine cho phép mở rộng các bộ dữ liệu với các dịch vụ web khác nhau. OpenRefine có API có thể được sử dụng để tích hợp với các dịch vụ của bên thứ ba và tự động hóa hoạt động. Các tiện ích mở rộng có thể được sử dụng để mở rộng giải pháp dữ liệu lớn này. Người dùng có thể dễ dàng tải xuống và cài đặt các tiện ích mở rộng để cải thiện chức năng của chương trình. Khám phá, các khía cạnh, chuyển đổi, điều hòa, xuất và nhiều tính năng khác có sẵn trong OpenRefine để làm việc với các bộ dữ liệu. Faceting cho phép người dùng tìm kiếm một cột cho các mẫu, xu hướng và biến thể dữ liệu. Tính năng biểu thức trong OpenRefine cho phép người dùng làm sạch và chuyển đổi dữ liệu. Wikidata là một nguồn kiến ​​thức miễn phí và mở mà cả con người và máy móc đều có thể đọc và chỉnh sửa. OpenRefine có một tính năng cho phép người dùng tìm nạp và thêm dữ liệu vào Wikidata. Nó có một công cụ mạnh mẽ để xuất dữ liệu sang nhiều định dạng và nguồn bên ngoài. Người dùng có thể tải dữ liệu lên Google Sheets và thêm nó vào Wikidata. Công cụ dữ liệu lớn nguồn mở này có sẵn cho các hệ điều hành Windows, Mac và Linux. Người dùng có thể tìm thấy các thư viện của bên thứ ba cho các ngôn ngữ lập trình khác nhau như PHP, Java, Python, Ruby và nhiều ngôn ngữ khác để tự động hóa các hoạt động. Openrefine được viết bằng Java và giấy phép cho giải pháp lớn này là BSD-3.

Yêu cầu hệ thống

Để cài đặt OpenRefine, bạn phải có các phần mềm sau:

  • Java 8
  • Apache Maven

Đặc trưng

Sau đây là các tính năng chính của OpenRefine:

  • Nguồn miễn phí và mở
  • Làm sạch và lọc dữ liệu
  • Nhập dữ liệu từ các định dạng khác nhau
  • Hòa giải và phù hợp với dữ liệu
  • Ngôn ngữ truy vấn tùy chỉnh với hỗ trợ Grel và Python
  • Dữ liệu phong phú qua API
  • Chuyển đổi dữ liệu
  • Liên kết dữ liệu
  • Hoạt động dữ liệu nâng cao

Cài đặt

Cài đặt trên Linux

Chạy lệnh bên dưới để tải xuống OpenRefine.

$ wget https://github.com/OpenRefine/OpenRefine/releases/download/3.4.1/openrefine-linux-3.4.1.tar.gz

Trích xuất tệp đã tải xuống bằng cách chạy bên dưới lệnh.

$ tar -xzf openrefine-linux-3.4.1.tar.gz

Bắt đầu Openrefine.

$ ./refine

Tinh chỉnh sau đó sẽ mở trong trình duyệt web của bạn. Nếu nó không tự động bắt đầu, hãy nhập http: // localhost: 3333 để truy cập nó.

Cài đặt trên Mac

Tải về Mac Kit từ httpsopenrefineorgdoadhtml. Mở và kéo biểu tượng vào thư mục ứng dụng. Nhấp đúp chuột vào biểu tượng và tinh chỉnh sẽ mở trong trình duyệt web.

Cài đặt trên Windows

Tải xuống Windows Kit từ httpsopenrefineorgdoadhtml. Giải nén tệp đã tải xuống và nhấp đúp vào tệp Refine.bat. Tinh chỉnh sau đó sẽ mở trong trình duyệt web của bạn. Nếu nó không tự động bắt đầu, hãy nhập http: // localhost: 3333 để truy cập nó.

Khám phá

Bạn có thể tìm thấy các liên kết sau có liên quan:

 Tiếng Việt