Heritrix 웹크롤러 설치 매뉴얼(JDK v1.6 설치 + Heritrix v3.1.1 설치)

아래의 매뉴얼은 리눅스 Ubuntu 운영체제상에서 Heritrix 웹크롤러를 설치하는 방법입니다.
Heritrix 크롤러는 JAVA 기반 환경에서 실행되는 관계로 JAVA 설치 방법부터 안내드립니다.

# JAVA 6 (JDK 1.6) 설치
1. 자바 패키지 설치
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java6-installer

* 주의사항
Heritrix 크롤러의 경우 JDK 1.7 이상부터는 크롤러 실행시 에러가 발생될 수 있습니다.
아래의 링크는 JAVA 8 환경에서 heritrix 크롤러를 운영할 수 있는 방법을 안내한 것인데 꼭 JAVA 8 환경을 써야 되는 경우가 아니면 가급적 JAVA 6(JDK 1.6) 또는 JAVA 5(JDK 1.5) 버젼을 설치해서 사용하시기 바랍니다.
https://kris-sigur.blogspot.kr/2014/10/heritrix-java-8-and-sunsecuritytoolskey.html

2. 자바 환경 설정
운영체제 시스템 환경에 자바 환경 변수 설정
JAVA_HOME="/usr/lib/jvm/java-6-oracle/jre" 
아래의 사용자별 환경설정파일에 위의 변수 삽입 후 저장

Ubuntu Desktop 사용자의 경우 environment 파일 수정
$ nano /etc/environment

Ubuntu Server 사용자의 경우 profile 파일 수정
$ nano /etc/profile

위의 설정 없이 바로 자바 환경 변수를 설정하는 방법은 아래와 같습니다.
export JAVA_HOME=/usr/lib/jvm/java-6-oracle/jre


# Heritrix 크롤러 v3.1.1 설치
1. 크롤러 패키지 다운로드
$ wget http://builds.archive.org:8080/maven2/org/archive/heritrix/heritrix/3.1.1/heritrix-3.1.1-dist.zip

2. 패키지 압축해제

$ unzip heritrix-3.1.1-dist.zip


3. Heritrix 크롤러 테스트용 사이트 설정(Apache 웹서버 기준)
크롤러용 디렉토리 생성
$ mkdir /var/www/crawler

압축해제한 heritrix 패키지 전체를 크롤러용 디렉토리로 복사
$ mv heritrix-3.1.1/*  /var/www/crawler/
위의 /var/www/crawler는 예시용이므로 본인이 원하는 디렉토리를 생성해서 설정해도 됨

운영체제 시스템 환경에 heritrix 디렉토리 위치 환경변수 등록
export HERITRIX_HOME=/var/www/crawler
위와 같이 설정하면 이후 cd $HERITRIX_HOME를 입력시 바로 /var/www/crawler 경로로 이동됨

heritrix 디렉토리의 퍼미션(사용권한) 설정
$ chmod u+x $HERITRIX_HOME/bin/heritrix

heritrix 실행시 시스템 가용 메모리의 크기 설정
$ export JAVA_OPTS=-Xmx1024M
위와 같이 환경변수를 등록하되 1기가 이하로 설정해야 하는 경우엔 그에 맞게 크기 수정

apache 환경 설정 파일을 열고 아래의 입력 예시와 같이 수정
$ nano /etc/apache2/sites-available/000-default.conf

[입력예시]
<VirtualHost *:8443>
ServerAdmin webmaster@localhost
ServerName heritrix.archivelab.co.kr
DocumentRoot /var/www/crawler
</VirtualHost>

ServerName 및 DocumentRoot 디렉토리는 본인 환경에 맞게 수정

4. Heritrix 크롤러 서비스 실행
크롤러 서비스 실행
$ $HERITRIX_HOME/bin/heritrix -a 관리자아이디:암호 -p 8443 -b /
관리자아이디와 암호는 아래의 예시와 같이 원하는 대로 입력하되 영문 또는 숫자로 설정할 것
[입력예시]
$ /var/www/crawler/bin/heritrix -a admin:12345 -p 8443 -b /

상기 예시에서 -p 8443은 사용포트가 8443이라는 뜻으로 크롤러 실행시 특정한 관리용 포트를 통해 실행할 수 있도록 설정하는 것이 보안상 안전함.
포트 뒤의 -b / 는 localhost(127.0.0.1) 이외에 모든 외부 아이피에서 해당 주소로 접속할 수 있도록 하라는 명령어로 이를 설정하지 않으면 로컬호스트를 운영하는 관리자 서버에서만 접속 가능함. 외부에서 해당 크롤러 사이트로 접속하려면 꼭 -b / 를 붙여줘야 함.

5. 크롬 등의 웹브라우져를 열고 Heritrix 크롤러 테스트용 사이트 접속
주소창에 아래의 형식으로 입력
https://서버아이피(또는 도메인주소):8443


[입력예시]
https://heritrix.archivelab.co.kr:8443

로그인창이 뜨면 관리자 아이디와 암호 입력하고 로그인하면 크롤러 테스트 사이트로 접속됨.
크롬이나 IE 브라우져 접속시 에러가 나는 경우 첨부한 동영상을 확인하세요.



* 참고자료
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide
http://crawler.archive.org/articles/user_manual/install.html#java_opts 

Comments

  • 감사합니다~
  • 크롤링이 안됩니다.
    대상 사이트를 설정해도 긁어오지 못하네요.
    WGet과 HTTrack은 성공했는데, Heritrix는 사용이 쉽지 않네요.
  • 헤리트릭스 최신버전 3.2.0을 설치하려면 위 매뉴얼의 3.1.1 부분을 모두 3.2.0 으로 변경하면 됩니다.
  • Heritrix 설치하기 전에 apache2도 설치해야 합니다.
    $ sudo apt-get install apache2
Sign In or Register to comment.