Файл robots.txt для вашего форума

Список разделов phpBBex 1.x (поддерживается) Мастерская 1.x

Описание: Только готовые решения! Статьи, заметки, моды и другие полезности для phpBBex 1.x и phpBB 3.0.x.
Модератор: Поддержка

Сообщение #1 VEG » 10.10.2012, 12:01

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. Подробнее...

По умолчанию в комплекте с phpBBex нет файла robots.txt. Причины две:
1. Этот файл должен отличаться на разных хостах как минимум директивой Host
2. Форум не всегда устанавливается в корень, а во вложенных директориях с этого файла толку нет

В целом phpBBex неплохо дружит с поисковиками и без robots.txt, но правильно созданный robots.txt поможет поисковым роботам разобраться, по каким адресам они не найдут ничего полезного. Это должно немного сократить количество запросов к серверу и общая нагрузка на сервер немного уменьшится. Также в robots.txt вы можете явно указать, какое доменное имя у вас является основным (с www или без). При этом рекомендуется дополнительно настроить постоянные редиректы с не основного домена на основной, чтобы у вас все ссылки были либо строго с www, либо без.

Предлагается следующий robots.txt, который используется на phpbbex.com:
Код: Выделить всё
User-Agent: *
Host: example.com
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Внимание! Перед использованием вы должны:
1. Заменить адрес в директиве Host, причём важно указать основную форму домена (с www или без)
2. Заменить путь «/forum/» на ваш, если у вас форум в корне — замените просто на «/»
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #2 Vadzik » 18.11.2012, 01:10

Есть вопрос, по поводу файла robots.txt. Мой сайт работает на на движке wordpress с интегрированным форумом phpbbex. Почитал инфу, слепил robots.txt (смотрите в низу), так вот вопрос не по запрещал ли к индексации лишнего?
Код: Выделить всё
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Sitemap: http://мой сайт/sitemap.xml.gz
Sitemap: http://мой сайт/sitemap.xml
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Host: мой сайт
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Vadzik M
Откуда: Киев
Репутация: 3
С нами: 11 лет 5 месяцев

Сообщение #3 VEG » 18.11.2012, 01:14

Vadzik, вроде всё ок, только нет смысла дублировать два раза одно и то же для Яндекса и для остальных. Остальные уже включают Яндекс, плюс остальные не понимают специфичные для Яндекса параметры типа Clean-param и Crawl-delay (они их игнорируют, поэтому можно обойтись одним общим набором правил).
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #4 Vadzik » 18.11.2012, 01:22

Хорошо когда ок, оставлю дублирования на всякий случай.
Vadzik M
Откуда: Киев
Репутация: 3
С нами: 11 лет 5 месяцев

Сообщение #5 VEG » 18.11.2012, 02:04

Vadzik, воспользуйтесь анализатором, если не уверены. Реально смысла в дублировании нет, только лишнее усложнение без необходимости.
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #6 Vadzik » 27.11.2012, 09:56

Что то не то с файлом robots.txt , сегодня зашел в "яндекс вебмастер" и увидел форум выкинуло с индекса...
Vadzik M
Откуда: Киев
Репутация: 3
С нами: 11 лет 5 месяцев

Сообщение #7 VEG » 27.11.2012, 11:43

Vadzik, воспользуйтесь анализатором для проверки корректности файла.

Добавлено спустя 3 минуты 19 секунд:
Vadzik:Disallow: /*?*
А вот и виновник торжества. Я не знаю где вы взяли это правило — в этой теме его никогда не было. Это правило запрещает индиксацию страниц с GET параметрами. А в phpBB все страницы кроме главной попадают под это правило.
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #8 Vadzik » 22.12.2012, 18:40

Собирал с нескольких источников, хотел соединить для сайта (на Wordpress) и форума (phpbbex). Удалил зловещий Disallow: /*?*. Начали возвращаться страницы.
Vadzik M
Откуда: Киев
Репутация: 3
С нами: 11 лет 5 месяцев

Сообщение #9 Валентин » 11.01.2013, 14:51

Могу предложить добавить в robots.txt строчку для simemap и мод для генерации sitemap:
Код: Выделить всё
Sitemap: http://example.com/forum/sitemap.php
Валентин
Репутация: 21
С нами: 11 лет 2 месяца

Сообщение #10 biomexanik » 24.01.2013, 00:15

Вот мой


Код: Выделить всё
User-agent: *
Crawl-delay: 2
Host: pcfixinfo.ru
Sitemap: http://pcfixinfo.ru/sitemap.php
Disallow: /go.php
Disallow: /webstat
Disallow: /umil
Disallow: /stk
Disallow: /download
Disallow: /cgi-bin
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewtopic.php?f=*&t=*&view=print
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?p=*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=12&t=*
biomexanik
Репутация: 5
С нами: 11 лет 10 месяцев

Сообщение #11 rvszap » 16.06.2013, 23:11

Проблема с индексацией страниц, роботы,особенно Яндекс, продолжают читать страницы и сбрасывать их в исключенные, по причине неканонического контента.
Если поступить таким образом в файле robot.txt
Allow: /viewtopic.php?f=*&t=*
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Это решит проблему?
rvszap
Репутация: 6
С нами: 11 лет

Сообщение #12 VEG » 17.06.2013, 11:51

Это не проблема. Так и должно быть. Canonical URL и указывается для того, чтобы Яндекс не рассматривал страницы с неканоничным URL.

Ваш вариант robots.txt спрячет эти сообщения, но при этом он запретит Яндексу индексировать ссылки на конкретные сообщения. Если кто-то из пользователей поделится такой ссылкой где-то, её вес не будет передан каноничному URL.
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #13 malkin » 13.10.2013, 13:45

Код: Выделить всё
Clean-param: f&hilit /viewtopic.php
Что это значит? :smile:
malkin
Репутация: 1
С нами: 10 лет 5 месяцев

Сообщение #14 Sumanai » 13.10.2013, 21:20

malkin:Что это значит?

Удалять параметр hilit у файла viewtopic.php как ненужный. Он отвечает за подсветку слов в результатах поиска по форуму, а для ПС это ненужные дубли.
Sumanai M
Аватара
Репутация: 1677
С нами: 11 лет 1 месяц

Сообщение #15 VEG » 13.10.2013, 21:36

Угу, помимо hilit ещё параметр f должен игнорироваться.
VEG M
Автор темы, Администратор
Аватара
Откуда: Finland
Репутация: 1653
С нами: 11 лет 11 месяцев

Сообщение #16 nikulinlg » 10.11.2013, 12:15

Здравствуйте, моему форуму уже месяц, но в выдаче пока висит всего-лишь одна страница:index.php .
Вот мой robots.txt
Код: Выделить всё
User-Agent: *
Host: forumspeak.ru
Sitemap: http://forumspeak.ru/sitemap.php
Disallow: /adm
Disallow: /cache
Disallow: /classes
Disallow: /docs
Disallow: /download
Allow:    /download/file.php
Disallow: /files
Disallow: /includes
Disallow: /install
Disallow: /language
Disallow: /modules
Disallow: /stk
Disallow: /store
Disallow: /styles
Disallow: /umil
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /style.php
Disallow: /viewtopic.php?*&view=print
Disallow: /memberlist.php
Disallow: /portal.php
Clean-param: sid /
Clean-param: f&hilit /viewtopic.php
Crawl-delay: 10
nikulinlg M
Аватара
Откуда: Воронеж
Репутация: 1
С нами: 10 лет 5 месяцев

Сообщение #17 Sumanai » 10.11.2013, 12:32

Гугл с вами не согласен, запрос site:forumspeak.ru выдаёт
Результатов: примерно 11 300 (0,21 сек.)
То есть всё он проиндексировал.
Почему у яндекса одна страница- спросите у него. Регистрируйтесь в инструментах вебмастера и смотрите, что не так. Или в техподдержку, вдруг ответят.

Добавлено спустя 2 минуты 11 секунд:
Советую так же настроить удаление www из адреса сайта.
Sumanai M
Аватара
Репутация: 1677
С нами: 11 лет 1 месяц

Сообщение #18 nikulinlg » 10.11.2013, 14:42

спасибо за ссылку.
nikulinlg M
Аватара
Откуда: Воронеж
Репутация: 1
С нами: 10 лет 5 месяцев

Сообщение #19 Andreyka » 03.06.2014, 15:55

Ребят, подскажите пожалуйста: российская поисковая система "Спутник" никак не хочет индексировать сайт. Хотя с Гуглом и Яндексом таких проблем нет. Может быть дело в том, что нужно что-то прописать в Robots.txt или sitemap?
Andreyka
Репутация: 0
С нами: 9 лет 9 месяцев

Сообщение #20 Sumanai » 03.06.2014, 15:56

Andreyka:поисковая система "Спутник"

Не нужна тчк

Добавлено спустя 7 минут 46 секунд:
Ладно, дам развёрнутый ответ. У этой поисковой системы на данный момент нету ни кабинета вебмастера, ни сервиса addurl, ни вообще ничего. Вся информация для вебмастеров ограничивается вот этой скромной страницей. Поэтому нет никакой возможности добавить свой сайт в эту ПС иначе, чем разместив ссылку на ресурсе, который этой ПС активно индексируется.
Единственное, что можно сделать, это добавить его в качестве бота в админке, юзерагент SputnikBot/, имя по вкусу, айпи можно оставить пустым.
Sumanai M
Аватара
Репутация: 1677
С нами: 11 лет 1 месяц

След.

Вернуться в Мастерская 1.x