Heritrix 3.2.0 이용 매뉴얼

edited August 2016 in 기타 오픈소스



헤리트릭스가 설치된 주소에 접속 - http://서버아이피(또는 도메인 주소):8443

로그인

잡 디렉토리를 생성(Add Job Directory)하여 작업을 시작

생성된 Job 이름을 클릭 > 상단 Configuration 클릭

41번 라인의 metadata.operatorContactURL=크롤링할 웹사이트 주소 입력 (예. http://ica2016.com)









하단 Save 클릭하여 저장

웹 브라우저 뒤로가기 클릭하여 헤리트릭스 Engine 으로 복귀

여기까지 기본 설정을 마친 후 상단의 “build” 버튼을 클릭하여 작업 설정을 완료

“launch” 버튼을 클릭하여 크롤링 준비를 마침

크롤링을 실행하려면 “unpause” 버튼을 클릭하여 수집 대상으로 설정한 ICA 2016 홈페이지의 시드(seeds)를 생성

이 때 크롤링 작업의 상태가 “Running”으로 바뀌고 “Refresh” 버튼을 클릭하여 작업 진행상황 통계를 업데이트할 수 있음

상세한 크롤링 옵션은 헤리트릭스 홈페이지를 참고하여 설정할 수 있음 

https://webarchive.jira.com/wiki/display/Heritrix/Heritrix+3.0+and+3.1+User+Guide


만약 Crawl Log 에 아무런 로그가 생성되지 않는다면

해당 작업을 종료(terminate) 및 완결(teardown)한 뒤

추가한 잡 디렉토리의 하위에 seeds.txt 파일을 생성한다 

seeds.txt 파일을 편집하여 크롤링할 사이트의 URL을 입력한 후 저장한다 (예. http://ica2016.com)

여러 사이트를  한꺼번에  크롤링할 경우 한 줄에 한 개의 URL씩 반복하여 입력한다.

seeds.txt 파일을 저장한 후 build와 launch 버튼을 클릭하면 Crawl log 에 크롤링한 결과가 업데이트된다.









“Terminate”와 “Teardown”을 클릭하여 한 개의 크롤링 작업을 종료하면 Job 디렉토리 하위에 작업 리포트 파일과 웹 아카이빙 포맷(WARC)이 생성된다. 

헤리트릭스 엔진 하단의 Java를 종료해야만 웹서버의 크롤링 작업이 완전히 종료된다. 

Java를 종료한 이후에는 헤리트릭스 또한 종료되어 웹페이지 URL에 접속해도 Hertirix 이용자 인터페이스가 나타나지 않는다.

Java 엔진을 재시작(restart)하여 새로운 크롤링 작업을 수행할 수 있다.


Youtube 동영상을 통해 방법을 참고해도 좋다



FTP로 var/www/crawler>Jobs>ica2016>20160702190546>warcs 폴더에 접근하여 OOOOOOO.warc.gz 파일을 다운로드할 수 있다.

OpenWayback 이나 WARC Viewer 등의 웹 아카이빙 재현 툴을 이용하여 아카이빙 결과물을 렌더링할 수 있다.

Sign In or Register to comment.