オープンソースのビッグデータツール

OpenRefine オープンソースのビッグデータツール

大規模な複雑なデータを処理するための無料のビッグデータソリューション

大規模な乱雑なデータを探索、変換、および調整するための強力な無料ビッグデータプラットフォーム。 Webサービスと外部データセットで拡張します。

概要

OpenRefine(以前はGoogle Refine)は、複雑なデータセットを操作するためのオープンソースのビッグデータツールです。データを操作するための無料のビッグデータプラットフォームです。ユーザーがめちゃくちゃになったデータをクリーンアップし、別の形式に変換するのに役立ちます。さらに、OpenRefineを使用すると、さまざまなWebサービスでデータセットを拡張できます。 OpenRefineには、サードパーティサービスと自動化オペレーションと統合するために使用できるAPIがあります。拡張機能を使用して、このビッグデータソリューションを拡張できます。ユーザーは、拡張機能を簡単にダウンロードしてインストールして、プログラムの機能を改善できます。 探索、ファセット、変換、調整、エクスポートなど、データセットを操作するためのOpenRefineでは、より多くの機能を利用できます。ファセットにより、ユーザーはパターン、トレンド、データのバリエーションを列を検索できます。 OpenRefineの表現機能により、ユーザーはデータをクリーニングおよび変換できます。 Wikidataは、人間と機械の両方が読み、編集できる無料のオープンな知識源です。 OpenRefineには、ユーザーがWikidataにデータを取得して追加できる機能があります。データをさまざまな形式や外部ソースにエクスポートするための堅牢なツールがあります。ユーザーはデータをGoogleシートにアップロードして、Wikidataにも追加できます。 このオープンソースのビッグデータツールは、Windows、Mac、およびLinuxオペレーティングシステムで利用できます。ユーザーは、PHP、Java、Python、Rubyなど、さまざまなプログラミング言語のサードパーティライブラリを見つけることができ、オペレーションを自動化するためにさらに多くを見つけることができます。 OpenRefineはJavaで書かれており、この大きなソリューションのライセンスはBSD-3です。

システム要求

OpenRefineをインストールするには、次のソフトウェアが必要です。 -Java 8 -Apache Maven

特徴

以下は、OpenRefineの重要な機能です。

  • 無料でオープンソース
  • データのクリーニングとフィルタリング
  • さまざまな形式からデータをインポートします
  • データの調整とマッチング
  • グレルとPythonサポートを使用したカスタムクエリ言語 -APIを介してデータを濃縮します
  • データの変換
  • データのリンク
  • 高度なデータ操作

インストール

Linuxにインストールします

以下のコマンドを実行して、OpenRefineをダウンロードします。

$ wget https://github.com/OpenRefine/OpenRefine/releases/download/3.4.1/openrefine-linux-3.4.1.tar.gz

下のコマンドを実行して、ダウンロードしたファイルを抽出します。

$ tar -xzf openrefine-linux-3.4.1.tar.gz

OpenRefineを開始します。

$ ./refine

その後、RefineはWebブラウザで開きます。自動的に起動しない場合は、http:// localhost:3333と入力してアクセスします。

Macにインストールします

httpsopenrefineorgdownloadhtmlからMacキットをダウンロードします。 アイコンを開いてアプリケーションフォルダーにドラッグします。 アイコンをダブルクリックすると、RefineがWebブラウザで開きます。

Windowsにインストールします

httpsopenrefineorgdownloadhtmlからWindowsキットをダウンロードします。 ダウンロードしたファイルを解凍し、refine.batファイルをダブルクリックします。 その後、RefineはWebブラウザで開きます。自動的に起動しない場合は、http:// localhost:3333と入力してアクセスします。

探検

次のリンクが関連する場合があります。

-Hadoop

-アパッチ・ストーム

-アパッチスパーク

-Apache Cassandra

-tdengine

 日本