Heritrix 웹크롤러 설치 매뉴얼(JDK v1.6 설치 + Heritrix v3.1.1 설치)
아래의 매뉴얼은 리눅스 Ubuntu 운영체제상에서 Heritrix 웹크롤러를 설치하는 방법입니다.
Heritrix 크롤러는 JAVA 기반 환경에서 실행되는 관계로 JAVA 설치 방법부터 안내드립니다.
2. 자바 환경 설정
운영체제 시스템 환경에 자바 환경 변수 설정
$ nano /etc/environment
Ubuntu Server 사용자의 경우 profile 파일 수정
2. 패키지 압축해제
$ unzip heritrix-3.1.1-dist.zip
3. Heritrix 크롤러 테스트용 사이트 설정(Apache 웹서버 기준)
크롤러용 디렉토리 생성
$ mkdir /var/www/crawler
압축해제한 heritrix 패키지 전체를 크롤러용 디렉토리로 복사
$ mv heritrix-3.1.1/* /var/www/crawler/
위의 /var/www/crawler는 예시용이므로 본인이 원하는 디렉토리를 생성해서 설정해도 됨
운영체제 시스템 환경에 heritrix 디렉토리 위치 환경변수 등록
export HERITRIX_HOME=/var/www/crawler
위와 같이 설정하면 이후 cd $HERITRIX_HOME를 입력시 바로 /var/www/crawler 경로로 이동됨
heritrix 디렉토리의 퍼미션(사용권한) 설정
$ chmod u+x $HERITRIX_HOME/bin/heritrix
heritrix 실행시 시스템 가용 메모리의 크기 설정
$ export JAVA_OPTS=-Xmx1024M
위와 같이 환경변수를 등록하되 1기가 이하로 설정해야 하는 경우엔 그에 맞게 크기 수정
apache 환경 설정 파일을 열고 아래의 입력 예시와 같이 수정
$ nano /etc/apache2/sites-available/000-default.conf
[입력예시]
<VirtualHost *:8443>
ServerName 및 DocumentRoot 디렉토리는 본인 환경에 맞게 수정
4. Heritrix 크롤러 서비스 실행
크롤러 서비스 실행
$ $HERITRIX_HOME/bin/heritrix -a 관리자아이디:암호 -p 8443 -b /
관리자아이디와 암호는 아래의 예시와 같이 원하는 대로 입력하되 영문 또는 숫자로 설정할 것
[입력예시]
$ /var/www/crawler/bin/heritrix -a admin:12345 -p 8443 -b /
상기 예시에서 -p 8443은 사용포트가 8443이라는 뜻으로 크롤러 실행시 특정한 관리용 포트를 통해 실행할 수 있도록 설정하는 것이 보안상 안전함.
포트 뒤의 -b / 는 localhost(127.0.0.1) 이외에 모든 외부 아이피에서 해당 주소로 접속할 수 있도록 하라는 명령어로 이를 설정하지 않으면 로컬호스트를 운영하는 관리자 서버에서만 접속 가능함. 외부에서 해당 크롤러 사이트로 접속하려면 꼭 -b / 를 붙여줘야 함.
5. 크롬 등의 웹브라우져를 열고 Heritrix 크롤러 테스트용 사이트 접속
주소창에 아래의 형식으로 입력
https://서버아이피(또는 도메인주소):8443
[입력예시]
https://heritrix.archivelab.co.kr:8443
로그인창이 뜨면 관리자 아이디와 암호 입력하고 로그인하면 크롤러 테스트 사이트로 접속됨.
크롬이나 IE 브라우져 접속시 에러가 나는 경우 첨부한 동영상을 확인하세요.
* 참고자료
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide
http://crawler.archive.org/articles/user_manual/install.html#java_opts
Heritrix 크롤러는 JAVA 기반 환경에서 실행되는 관계로 JAVA 설치 방법부터 안내드립니다.
# JAVA 6 (JDK 1.6) 설치
1. 자바 패키지 설치
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java6-installer
* 주의사항
Heritrix 크롤러의 경우 JDK 1.7 이상부터는 크롤러 실행시 에러가 발생될 수 있습니다.
아래의 링크는 JAVA 8 환경에서 heritrix 크롤러를 운영할 수 있는 방법을 안내한 것인데 꼭 JAVA 8 환경을 써야 되는 경우가 아니면 가급적 JAVA 6(JDK 1.6) 또는 JAVA 5(JDK 1.5) 버젼을 설치해서 사용하시기 바랍니다.
https://kris-sigur.blogspot. kr/2014/10/heritrix-java-8- and-sunsecuritytoolskey.html
1. 자바 패키지 설치
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java6-installer
* 주의사항
Heritrix 크롤러의 경우 JDK 1.7 이상부터는 크롤러 실행시 에러가 발생될 수 있습니다.
아래의 링크는 JAVA 8 환경에서 heritrix 크롤러를 운영할 수 있는 방법을 안내한 것인데 꼭 JAVA 8 환경을 써야 되는 경우가 아니면 가급적 JAVA 6(JDK 1.6) 또는 JAVA 5(JDK 1.5) 버젼을 설치해서 사용하시기 바랍니다.
https://kris-sigur.blogspot.
2. 자바 환경 설정
운영체제 시스템 환경에 자바 환경 변수 설정
JAVA_HOME="/usr/lib/jvm/java-6-oracle/jre"
아래의 사용자별 환경설정파일에 위의 변수 삽입 후 저장
Ubuntu Desktop 사용자의 경우 environment 파일 수정$ nano /etc/environment
Ubuntu Server 사용자의 경우 profile 파일 수정
$ nano /etc/profile
위의 설정 없이 바로 자바 환경 변수를 설정하는 방법은 아래와 같습니다.
export JAVA_HOME=/usr/lib/jvm/java-6-oracle/jre
# Heritrix 크롤러 v3.1.1 설치
1. 크롤러 패키지 다운로드
$ wget http://builds.archive.org:8080/maven2/org/archive/heritrix/heritrix/3.1.1/heritrix-3.1.1-dist.zip
위의 설정 없이 바로 자바 환경 변수를 설정하는 방법은 아래와 같습니다.
export JAVA_HOME=/usr/lib/jvm/java-6-oracle/jre
# Heritrix 크롤러 v3.1.1 설치
1. 크롤러 패키지 다운로드
$ wget http://builds.archive.org:8080/maven2/org/archive/heritrix/heritrix/3.1.1/heritrix-3.1.1-dist.zip
2. 패키지 압축해제
$ unzip heritrix-3.1.1-dist.zip
3. Heritrix 크롤러 테스트용 사이트 설정(Apache 웹서버 기준)
크롤러용 디렉토리 생성
$ mkdir /var/www/crawler
압축해제한 heritrix 패키지 전체를 크롤러용 디렉토리로 복사
$ mv heritrix-3.1.1/* /var/www/crawler/
위의 /var/www/crawler는 예시용이므로 본인이 원하는 디렉토리를 생성해서 설정해도 됨
운영체제 시스템 환경에 heritrix 디렉토리 위치 환경변수 등록
export HERITRIX_HOME=/var/www/crawler
위와 같이 설정하면 이후 cd $HERITRIX_HOME를 입력시 바로 /var/www/crawler 경로로 이동됨
heritrix 디렉토리의 퍼미션(사용권한) 설정
$ chmod u+x $HERITRIX_HOME/bin/heritrix
heritrix 실행시 시스템 가용 메모리의 크기 설정
$ export JAVA_OPTS=-Xmx1024M
위와 같이 환경변수를 등록하되 1기가 이하로 설정해야 하는 경우엔 그에 맞게 크기 수정
apache 환경 설정 파일을 열고 아래의 입력 예시와 같이 수정
$ nano /etc/apache2/sites-available/000-default.conf
[입력예시]
<VirtualHost *:8443>
ServerAdmin webmaster@localhost
ServerName heritrix.archivelab.co.kr
DocumentRoot /var/www/crawler
</VirtualHost>
ServerName 및 DocumentRoot 디렉토리는 본인 환경에 맞게 수정
4. Heritrix 크롤러 서비스 실행
크롤러 서비스 실행
$ $HERITRIX_HOME/bin/heritrix -a 관리자아이디:암호 -p 8443 -b /
관리자아이디와 암호는 아래의 예시와 같이 원하는 대로 입력하되 영문 또는 숫자로 설정할 것
[입력예시]
$ /var/www/crawler/bin/heritrix -a admin:12345 -p 8443 -b /
상기 예시에서 -p 8443은 사용포트가 8443이라는 뜻으로 크롤러 실행시 특정한 관리용 포트를 통해 실행할 수 있도록 설정하는 것이 보안상 안전함.
포트 뒤의 -b / 는 localhost(127.0.0.1) 이외에 모든 외부 아이피에서 해당 주소로 접속할 수 있도록 하라는 명령어로 이를 설정하지 않으면 로컬호스트를 운영하는 관리자 서버에서만 접속 가능함. 외부에서 해당 크롤러 사이트로 접속하려면 꼭 -b / 를 붙여줘야 함.
5. 크롬 등의 웹브라우져를 열고 Heritrix 크롤러 테스트용 사이트 접속
주소창에 아래의 형식으로 입력
https://서버아이피(또는 도메인주소):8443
[입력예시]
https://heritrix.archivelab.co.kr:8443
로그인창이 뜨면 관리자 아이디와 암호 입력하고 로그인하면 크롤러 테스트 사이트로 접속됨.
크롬이나 IE 브라우져 접속시 에러가 나는 경우 첨부한 동영상을 확인하세요.
* 참고자료
https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide
http://crawler.archive.org/articles/user_manual/install.html#java_opts
Comments