Файл robots.txt для вашего форума

Список разделов phpBBex 1.x Мастерская 1.x

Описание: Только готовые решения! Статьи, заметки, моды и другие полезности для phpBBex 1.x и phpBB 3.0.x.
Модератор: Поддержка

Сообщение #1 VEG » 10.10.2012, 12:01

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. Подробнее...

По умолчанию в комплекте с phpBBex нет файла robots.txt. Причины две:
1. Этот файл должен отличаться на разных хостах как минимум директивой Host
2. Форум не всегда устанавливается в корень, а во вложенных директориях с этого файла толку нет

В целом phpBBex неплохо дружит с поисковиками и без robots.txt, но правильно созданный robots.txt поможет поисковым роботам разобраться, по каким адресам они не найдут ничего полезного. Это должно немного сократить количество запросов к серверу и общая нагрузка на сервер немного уменьшится. Также в robots.txt вы можете явно указать, какое доменное имя у вас является основным (с www или без). При этом рекомендуется дополнительно настроить постоянные редиректы с не основного домена на основной, чтобы у вас все ссылки были либо строго с www, либо без.

Предлагается следующий robots.txt, который используется на phpbbex.com:
Код: Выделить всё
User-Agent: *
Host: example.com
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Внимание! Перед использованием вы должны:
1. Заменить адрес в директиве Host, причём важно указать основную форму домена (с www или без)
2. Заменить путь «/forum/» на ваш, если у вас форум в корне — замените просто на «/»

Файл robots.txt для phpBBex 2.x и новее можно найти здесь.
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #2 Vadzik » 18.11.2012, 01:10

Есть вопрос, по поводу файла robots.txt. Мой сайт работает на на движке wordpress с интегрированным форумом phpbbex. Почитал инфу, слепил robots.txt (смотрите в низу), так вот вопрос не по запрещал ли к индексации лишнего?
Код: Выделить всё
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Sitemap: http://мой сайт/sitemap.xml.gz
Sitemap: http://мой сайт/sitemap.xml
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Host: мой сайт
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Vadzik M
Новичок
Возраст: 40
Откуда: Киев
Репутация: 3
С нами: 9 лет 2 месяца

Сообщение #3 VEG » 18.11.2012, 01:14

Vadzik, вроде всё ок, только нет смысла дублировать два раза одно и то же для Яндекса и для остальных. Остальные уже включают Яндекс, плюс остальные не понимают специфичные для Яндекса параметры типа Clean-param и Crawl-delay (они их игнорируют, поэтому можно обойтись одним общим набором правил).
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #4 Vadzik » 18.11.2012, 01:22

Хорошо когда ок, оставлю дублирования на всякий случай.
Vadzik M
Новичок
Возраст: 40
Откуда: Киев
Репутация: 3
С нами: 9 лет 2 месяца

Сообщение #5 VEG » 18.11.2012, 02:04

Vadzik, воспользуйтесь анализатором, если не уверены. Реально смысла в дублировании нет, только лишнее усложнение без необходимости.
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #6 Vadzik » 27.11.2012, 09:56

Что то не то с файлом robots.txt , сегодня зашел в "яндекс вебмастер" и увидел форум выкинуло с индекса...
Vadzik M
Новичок
Возраст: 40
Откуда: Киев
Репутация: 3
С нами: 9 лет 2 месяца

Сообщение #7 VEG » 27.11.2012, 11:43

Vadzik, воспользуйтесь анализатором для проверки корректности файла.

Добавлено спустя 3 минуты 19 секунд:
Vadzik:Disallow: /*?*
А вот и виновник торжества. Я не знаю где вы взяли это правило — в этой теме его никогда не было. Это правило запрещает индиксацию страниц с GET параметрами. А в phpBB все страницы кроме главной попадают под это правило.
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #8 Vadzik » 22.12.2012, 18:40

Собирал с нескольких источников, хотел соединить для сайта (на Wordpress) и форума (phpbbex). Удалил зловещий Disallow: /*?*. Начали возвращаться страницы.
Vadzik M
Новичок
Возраст: 40
Откуда: Киев
Репутация: 3
С нами: 9 лет 2 месяца

Сообщение #9 Валентин » 11.01.2013, 14:51

Могу предложить добавить в robots.txt строчку для simemap и мод для генерации sitemap:
Код: Выделить всё
Sitemap: http://example.com/forum/sitemap.php
Валентин
Новичок
Репутация: 21
С нами: 8 лет 11 месяцев

Сообщение #10 biomexanik » 24.01.2013, 00:15

Вот мой


Код: Выделить всё
User-agent: *
Crawl-delay: 2
Host: pcfixinfo.ru
Sitemap: http://pcfixinfo.ru/sitemap.php
Disallow: /go.php
Disallow: /webstat
Disallow: /umil
Disallow: /stk
Disallow: /download
Disallow: /cgi-bin
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewtopic.php?f=*&t=*&view=print
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?p=*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=12&t=*
http://pcfixinfo.ru - Форум о ремонте и обслуживании персональных компьютеров.
biomexanik
Новичок
Репутация: 5
С нами: 9 лет 7 месяцев

Сообщение #11 rvszap » 16.06.2013, 23:11

Проблема с индексацией страниц, роботы,особенно Яндекс, продолжают читать страницы и сбрасывать их в исключенные, по причине неканонического контента.
Если поступить таким образом в файле robot.txt
Allow: /viewtopic.php?f=*&t=*
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Это решит проблему?
rvszap
Мастер
Репутация: 6
С нами: 8 лет 9 месяцев

Сообщение #12 VEG » 17.06.2013, 11:51

Это не проблема. Так и должно быть. Canonical URL и указывается для того, чтобы Яндекс не рассматривал страницы с неканоничным URL.

Ваш вариант robots.txt спрячет эти сообщения, но при этом он запретит Яндексу индексировать ссылки на конкретные сообщения. Если кто-то из пользователей поделится такой ссылкой где-то, её вес не будет передан каноничному URL.
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #13 malkin » 13.10.2013, 13:45

Код: Выделить всё
Clean-param: f&hilit /viewtopic.php
Что это значит? :smile:
malkin
Бывалый
Репутация: 1
С нами: 8 лет 1 месяц

Сообщение #14 Sumanai » 13.10.2013, 21:20

malkin:Что это значит?

Удалять параметр hilit у файла viewtopic.php как ненужный. Он отвечает за подсветку слов в результатах поиска по форуму, а для ПС это ненужные дубли.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Аватара
Репутация: 1677
С нами: 8 лет 10 месяцев

Сообщение #15 VEG » 13.10.2013, 21:36

Угу, помимо hilit ещё параметр f должен игнорироваться.
С наилучшими пожеланиями, Евгений
VEG M
Автор темы, Администратор
Аватара
Возраст: 34
Откуда: Минск, Беларусь
Репутация: 1635
С нами: 9 лет 7 месяцев

Сообщение #16 nikulinlg » 10.11.2013, 12:15

Здравствуйте, моему форуму уже месяц, но в выдаче пока висит всего-лишь одна страница:index.php .
Вот мой robots.txt
Код: Выделить всё
User-Agent: *
Host: forumspeak.ru
Sitemap: http://forumspeak.ru/sitemap.php
Disallow: /adm
Disallow: /cache
Disallow: /classes
Disallow: /docs
Disallow: /download
Allow:    /download/file.php
Disallow: /files
Disallow: /includes
Disallow: /install
Disallow: /language
Disallow: /modules
Disallow: /stk
Disallow: /store
Disallow: /styles
Disallow: /umil
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /style.php
Disallow: /viewtopic.php?*&view=print
Disallow: /memberlist.php
Disallow: /portal.php
Clean-param: sid /
Clean-param: f&hilit /viewtopic.php
Crawl-delay: 10
nikulinlg M
Бывалый
Аватара
Возраст: 35
Откуда: Воронеж
Репутация: 1
С нами: 8 лет 1 месяц

Сообщение #17 Sumanai » 10.11.2013, 12:32

Гугл с вами не согласен, запрос site:forumspeak.ru выдаёт
Результатов: примерно 11 300 (0,21 сек.)
То есть всё он проиндексировал.
Почему у яндекса одна страница- спросите у него. Регистрируйтесь в инструментах вебмастера и смотрите, что не так. Или в техподдержку, вдруг ответят.

Добавлено спустя 2 минуты 11 секунд:
Советую так же настроить удаление www из адреса сайта.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Аватара
Репутация: 1677
С нами: 8 лет 10 месяцев

Сообщение #18 nikulinlg » 10.11.2013, 14:42

спасибо за ссылку.
nikulinlg M
Бывалый
Аватара
Возраст: 35
Откуда: Воронеж
Репутация: 1
С нами: 8 лет 1 месяц

Сообщение #19 Andreyka » 03.06.2014, 15:55

Ребят, подскажите пожалуйста: российская поисковая система "Спутник" никак не хочет индексировать сайт. Хотя с Гуглом и Яндексом таких проблем нет. Может быть дело в том, что нужно что-то прописать в Robots.txt или sitemap?
Andreyka
Новичок
Репутация: 0
С нами: 7 лет 6 месяцев

Сообщение #20 Sumanai » 03.06.2014, 15:56

Andreyka:поисковая система "Спутник"

Не нужна тчк

Добавлено спустя 7 минут 46 секунд:
Ладно, дам развёрнутый ответ. У этой поисковой системы на данный момент нету ни кабинета вебмастера, ни сервиса addurl, ни вообще ничего. Вся информация для вебмастеров ограничивается вот этой скромной страницей. Поэтому нет никакой возможности добавить свой сайт в эту ПС иначе, чем разместив ссылку на ресурсе, который этой ПС активно индексируется.
Единственное, что можно сделать, это добавить его в качестве бота в админке, юзерагент SputnikBot/, имя по вкусу, айпи можно оставить пустым.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Аватара
Репутация: 1677
С нами: 8 лет 10 месяцев

След.

Вернуться в Мастерская 1.x