[Notion] Sitemap.xml & robots.txt 알아보기 | Oopy, 가비아, AdSense

Table of contents
site.xml과 robots.txt의 정체 알아보기

sitemap.xmlrobots.txt

위 두 파일은 검색엔진이 웹사이트를 효율적으로 크롤링하고 색인할 수 있도록 돕는 파일로, 웹사이트 SEO(검색엔진 최적화) 및 색인 작업을 관리하는데 중요한 파일이다.
위 파일들의 역할과, Notion 블로그를 운영하면서 사용하는 Oopy, 가비아 도메인, 구글 애드센스와의 연관성을 알아보고자 한다.

sitemap.xml

웹 사이트의 구조를 검색 엔진 로봇에게 알려주는 XML파일로, 검색 엔진이 중요한 페이지를 빠르게 색인 할 수 있도록 도와주는 파일
모든 중요한 URL을 포함하고 있다.
sitemap.xml 형식
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://yourdomain.com/page1</loc> <lastmod>2024-12-14</lastmod> <changefreq>daily</changefreq> <priority>0.8</priority> </url> <url> <loc>https://yourdomain.com/page2</loc> <lastmod>2024-12-13</lastmod> <changefreq>weekly</changefreq> <priority>0.5</priority> </url> </urlset>
XML
복사
sitemap.xml 형식
<loc>: 페이지 URL
<lastmod>: 마지막 수정 날짜
<changefreq>: 페이지 변경 빈도 (daily, weekly 등)
<priority>: 페이지 중요도 (0.1~1.0)

robots.txt

검색엔진이 웹 사이트에 접근할 때, 가장 먼저 도달하는 곳으로, sitemap.xml 경로를 검색 엔진에게 알려주는 파일이기도 하다.
검색 엔진의 크롤링 범위를 설정하는 텍스트 파일로, 크롤링을 허용하거나 차단할 URL을 지정하는 파일이다.
파일이 등록되어 있다면, 주소창에 도메인/robots.txt를 검색하여 누구나 접근가능
robots.txt 형식
User-agent: * Disallow: /admin/ Allow: / Sitemap: https://yourdomain.com/sitemap.xml
Plain Text
복사
robots.txt 형식
User-agent: 크롤링하는 봇(Googlebot, Bingbot..)을 지정, *는 모든 봇을 의미
Disallow: 크롤링 차단할 경로
Allow: 크롤링 허용할 경로
Sitemap: sitemap.xml 위치 명시

Notion, Oopy, Gabia(domain), AdSense와의 연관성

Notion

노션은 기본적으로 sitemap.xmlrobots.txt를 지원하지 않는다.
따라서 외부 도메인(ex, Gabia)과 호스팅 서버(ex, Gabia hosting 또는 Github Pages)를 사용하지 않는 경우, 외부 호스팅 서버에 직접 업로드 해야 한다.
1.
Notion페이지의 URL을 수동으로 수집하여 sitemap.xml파일을 작성해야 하고,
2.
robots.txt도 작성하여..
3.
직접 외부 호스팅 서버에 sitemap.xmlrobots.txt 파일들을 직접 업로드해야 한다.

Oopy

Oopy는 기본적으로 Sitemap 자동 생성기능이 없다고 함… 따라서 수동으로 Oopy의 페이지 URL을 기반으로 XML을 작성 후, 호스팅 서버에 업로드 해야한다.
robots.txt또한 Oopy 자체에서 관리가 불가능한 것으로 보여서 경우, 커스텀 도메인을 사용하는 환경에서 서버에 업로드 해야한다.

Gabia(domain)

가비아에서 웹 호스팅이나 DNS관리를 설정 한 경우 FTP로 파일을 업로드 할 수 있다.
public_html 또는 기본 루트 디렉터리에 업로드 하면 되는데, 내 경우 가비아에서 도메인만 구매하고 GitHub Pages를 호스팅 서버로 사용중이다.

Google AdSense

sitemap.xml은 검색엔진에게 웹 페이지를 빠르게 색인하도록 도와주고, 이를 통해 애드센스 수익화 페이지가 더 빨리 검색에 노출되게 한다.
robots.txt는 애드센스 광고용 페이지를 크롤링 허용 설정하여 광고 게재를 막지 않도록 한다.