AtoM 전거레코드 Google 검색엔진 노출 메커니즘

edited April 2014 in AtoM
오늘 Archeion의 아키비스트인 Amanda Hill의 워크숍 발표자료를 보던 중 놀라운 사실을 알게 되었습니다.
AtoM시스템에 전거레코드 (Authority records)를 등록하면 'draft'상태로 두어도 Google 검색엔진에 노출된다는 것입니다.

스크린샷 2014-04-16 오전 3.05.11
AtoM에서는 기록물이나 출처, 기능, 기록관 등을 기술한 뒤 임시(draft)로 두거나 발행(publish)할 수 있습니다.
임시(draft) 상태의 기술정보는 로그인하지 않은 사용자에게 노출되지 않습니다.
그런데 전거레코드(ISAAR(CPF))의 경우에는 draft로 두어도 검색엔진 노출이 되었습니다.
AtoM에서 테스트해 보니 전거레코드를 draft로 두어도 일반 사용자에게 노출이 되었습니다.


구글에서 인간과기억아카이브의 전거레코드를 검색해 보니 아래처럼 검색이 잘 되었습니다.

1. 인간과 기억아카이브에서 draft상태인 전거레코드 선정

스크린샷 2014-04-16 오전 3.28.47



2. Google 검색결과

스크린샷 2014-04-16 오전 3.29.08




*참고 - Archeion 소개
Archeion은 캐나다 온타리오주의 아카이브 네트웍입니다.
이 곳 AtoM시스템에는 160여 개의 기관과 2천여개의 fonds이 등록되어 있습니다.


Comments

  • edited April 2014
    현재 인간과기억아카이브 AtoM의 robots.txt의 내용은 다음과 같습니다.

    #User-agent: *
    #Disallow:

    위와 같은 설정은 google 등의 웹 로봇이 사이트의 내용을 검색/수집하는 것을 전체 허용한다는 설정입니다.

    만약 보안이 걱정되어서 모두 막으려고 한다면 아래와 같이 설정하면 됩니다.

    User-agent: *
    Disallow: /

    일단은 전거레코드를 제외하고는 draft 된 기록들은 검색 대상에서 제외되기 때문에 그것은 다행이지만 전거레코드를 draft 처리했는데도 나타나는 것은 문제점인 것 같습니다. 보완이 필요한 부분으로 보입니다.

    아래의 robots.txt는 우리 OSASF 포럼에 적용한 웹로봇 검색/수집 규칙입니다.
    보시면 아시겠지만 개인 프로필이나 활동 등의 개인 정보가 들어가는 부분에 대해서는 접근을 못하도록 설정을 해놓았습니다.

    User-agent: *       (-> 모든 웹로봇의 접근을 허용함을 의미)
    Crawl-delay: 5
    Disallow: /discussions/tagged/   (-> 해당 디렉토리들은 개인 정보가 있으므로 접근 금지)
    Disallow: /profile/
    Disallow: /entry/
    Disallow: /activity

    # for google adsense
    User-agent: Mediapartners-Google        (-> 구글 adsense 형님을 위한 추가 설정)
    Disallow: /categories                           (-> 구글 형님은 이들 디렉토리에 접근하지 마세요!)
    Disallow: /discussions/tagged/
    Disallow: /profile/
    Disallow: /entry/
    Disallow: /activity
    Disallow: /discussions/popular
    Disallow: /discussions/unanswered

    만약 AtoM도 시스템상에서 스스로 제어할 수 없다면 이렇게 인위적으로 규칙을 만들어서 특정 파트는 로봇이 들어오지 못하도록 막을 순 있습니다.
    이에 대해서는 더 논의를 해봐야 할 것 같습니다.

    좋은 정보 감사드립니다.
  • 전거레코드가 검색되는 것은 접근점 제공 면에서 좋다고 생각합니다.
    draft 항목이라 하더라도요.

    다만 우리가 전거레코드를 기술할 때 전화번호 등 개인정보를 포함하지 않도록 조심해야겠어요.
  • 전거레코드에는 publish기능 자체가 없네요.
    전거레코드에서는 디스크립션 상태를 나타내는 draft/revised/completed 의 세가지 중 하나를 선택하는 기능만 있습니다.
    isad처럼 draft/publish를 선택하도록 해달라는 요청이 개발자포럼에 있습니다.
    현재 atom개발일정에 포함되어 있지는 않고 atom의 프레임워크인 qubit 개발일정에만 등록되어 있습니다.
  • v2.2부터는 ISAD, RAD, 디지털 객체, 보존서가 등의 정보를 선택적으로 숨길 수 있습니다.
    향후 전거레코드도 선택적으로 숨기는 기능이 추가되면 좋겠습니다.
    구체적으로 개발계획이 확정되지는 않았습니다.

    임시방편으로 anonymous 그룹의 전거레코드에 대한 접근권한을 Deny로 설정해 놓을 수 있다.
    근본적인 문제해결을 위해서는 기능개발이 필요하며 참고자료는 다음과 같다

Sign In or Register to comment.