BLOGブログ
Javaでjsoupを使ってスクレイピングを行う方法-jsoupインストール編
こんにちは。エンジニアの川島です。
前回の記事で、Webページのスクレイピングとjsoupというライブラリについてご紹介しました。
今回はjsoupをインストール手順と確認方法を解説します。
環境は以下の通り。
- IDE : Eclipse 3.7.2 Indigo Eclipseダウンロード
- Java バージョン : Java SE6 JDK6/JRE6ダウンロード
- ライブラリ : jsoup-1.8 jsoupダウンロード
それではjsoupをインストールしていきましょう。10分ほどで終了します。
見出し
インストール手順
1. Eclipseを起動します。Javaのパースペクティブ(デフォルトではない方)が表示されています。
2. Javaのパースペクティブが表示されていない場合は開かれているパースペクティブ部分を右クリックしてその他>Javaを選択してください。
3. 新規Javaプロジェクトを作成します。 ファイル>新規>Javaプロジェクトの順で選択してください。
4. 新規Javaプロジェクトのポップアップが表示されます。「プロジェクト名」の欄に「jsoup」と入力して「完了」ボタンを押してください。
5. 左側の「パッケージ・エクスプローラ」ビューに「jsoup」のプロジェクトが作成されました。
6. プロジェクトの左側の「+」ボタンを押すと、中身が展開されます。
7. jsoupのライブラリをインストールします。ダウンロードしたjsoup1.8のjarファイルをプロジェクトにコピーします。
8. jsoupをビルドパスに追加します。コピーしたjarファイルを右クリック>ビルド・パス>ビルド・パスに追加を選択してください。
9. 「参照ライブラリ」という項目が新しく作成され、jsoupのjarファイルが入っていることを確認してください。
確認方法
1. 適切にインストールされたかのテストを行います。まずはJavaのクラスを入れるパッケージを作成します(srcフォルダーの直下に作成することも可能ですが、推奨されていません)。
srcフォルダーを右クリック>新規>パッケージを選択してください。
2. 新規Javaパッケージのポップアップが表示されます。「名前」の欄にパッケージ名を入力して「完了」ボタンを押してください。今回は仮に「getInfo」としました。
3. 続けて、クラスを作成します。11.で作成した「getInfo」パッケージを右クリック>新規>クラスを選択してください。
4. 新規Javaクラスのポップアップが表示されます。「名前」の欄にクラス名を入力して「完了」ボタンを押してください。今回はパッケージ名に合わせて「GetInfo」としました。
5. 作成したクラスのコードが表示されます。mainメソッドの中に「Element」と記述し、「Ctrl+Space」を押してください。
「Element – org.jsoup.nodes」が補完候補として出てきたらテストは完了です。
次回は、「どのように記述するとHTMLから情報が取れるのか」を解説したいと思います。