Файл robots.txt для вашего форума

Board index phpBBex 1.x Мастерская

Description: Только готовые решения! Статьи, заметки, моды и другие полезности для phpBBex 1.x и phpBB 3.0.x.
Moderator: Поддержка

Post #1by VEG » 10.10.2012, 12:01

Robots.txt — текстовый файл, расположенный на сайте, который предназначен для роботов поисковых систем. В этом файле вебмастер может указать параметры индексирования своего сайта как для всех роботов сразу, так и для каждой поисковой системы по отдельности. Подробнее...

По умолчанию в комплекте с phpBBex нет файла robots.txt. Причины две:
1. Этот файл должен отличаться на разных хостах как минимум директивой Host
2. Форум не всегда устанавливается в корень, а во вложенных директориях с этого файла толку нет

В целом phpBBex неплохо дружит с поисковиками и без robots.txt, но правильно созданный robots.txt поможет поисковым роботам разобраться, по каким адресам они не найдут ничего полезного. Это должно немного сократить количество запросов к серверу и общая нагрузка на сервер немного уменьшится. Также в robots.txt вы можете явно указать, какое доменное имя у вас является основным (с www или без). При этом рекомендуется дополнительно настроить постоянные редиректы с не основного домена на основной, чтобы у вас все ссылки были либо строго с www, либо без.

Предлагается следующий robots.txt, который используется на phpbbex.com:
Code: Select all
User-Agent: *
Host: example.com
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Внимание! Перед использованием вы должны:
1. Заменить адрес в директиве Host, причём важно указать основную форму домена (с www или без)
2. Заменить путь «/forum/» на ваш, если у вас форум в корне — замените просто на «/»

Файл robots.txt для phpBBex 2.x и новее можно найти здесь.
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #2by Vadzik » 18.11.2012, 01:10

Есть вопрос, по поводу файла robots.txt. Мой сайт работает на на движке wordpress с интегрированным форумом phpbbex. Почитал инфу, слепил robots.txt (смотрите в низу), так вот вопрос не по запрещал ли к индексации лишнего?
Code: Select all
User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /tag/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Sitemap: http://мой сайт/sitemap.xml.gz
Sitemap: http://мой сайт/sitemap.xml
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback/
Disallow: /page/*
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /?feed=
Disallow: /*?*
Disallow: /?s=
Disallow: /forum/adm
Disallow: /forum/cache
Disallow: /forum/classes
Disallow: /forum/docs
Disallow: /forum/download
Allow:    /forum/download/file.php
Disallow: /forum/files
Disallow: /forum/includes
Disallow: /forum/install
Disallow: /forum/language
Disallow: /forum/modules
Disallow: /forum/stk
Disallow: /forum/store
Disallow: /forum/styles
Disallow: /forum/umil
Disallow: /forum/mcp.php
Disallow: /forum/posting.php
Disallow: /forum/report.php
Disallow: /forum/style.php
Disallow: /forum/faq.php
Disallow: /forum/viewtopic.php?*&view=print
Disallow: /forum/memberlist.php
Host: мой сайт
Clean-param: sid /forum/
Clean-param: f&hilit /forum/viewtopic.php
Crawl-delay: 10

Vadzik M
Новичок
Age: 36
Location: Киев
Reputation: 3
With us: 4 yaers 8 months

Post #3by VEG » 18.11.2012, 01:14

Vadzik, вроде всё ок, только нет смысла дублировать два раза одно и то же для Яндекса и для остальных. Остальные уже включают Яндекс, плюс остальные не понимают специфичные для Яндекса параметры типа Clean-param и Crawl-delay (они их игнорируют, поэтому можно обойтись одним общим набором правил).
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #4by Vadzik » 18.11.2012, 01:22

Хорошо когда ок, оставлю дублирования на всякий случай.
Vadzik M
Новичок
Age: 36
Location: Киев
Reputation: 3
With us: 4 yaers 8 months

Post #5by VEG » 18.11.2012, 02:04

Vadzik, воспользуйтесь анализатором, если не уверены. Реально смысла в дублировании нет, только лишнее усложнение без необходимости.
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #6by Vadzik » 27.11.2012, 09:56

Что то не то с файлом robots.txt , сегодня зашел в "яндекс вебмастер" и увидел форум выкинуло с индекса...
Vadzik M
Новичок
Age: 36
Location: Киев
Reputation: 3
With us: 4 yaers 8 months

Post #7by VEG » 27.11.2012, 11:43

Vadzik, воспользуйтесь анализатором для проверки корректности файла.

Добавлено спустя 3 минуты 19 секунд:
Vadzik wrote:Disallow: /*?*
А вот и виновник торжества. Я не знаю где вы взяли это правило — в этой теме его никогда не было. Это правило запрещает индиксацию страниц с GET параметрами. А в phpBB все страницы кроме главной попадают под это правило.
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #8by Vadzik » 22.12.2012, 18:40

Собирал с нескольких источников, хотел соединить для сайта (на Wordpress) и форума (phpbbex). Удалил зловещий Disallow: /*?*. Начали возвращаться страницы.
Vadzik M
Новичок
Age: 36
Location: Киев
Reputation: 3
With us: 4 yaers 8 months

Post #9by Валентин » 11.01.2013, 14:51

Могу предложить добавить в robots.txt строчку для simemap и мод для генерации sitemap:
Code: Select all
Sitemap: http://example.com/forum/sitemap.php
Валентин
Новичок
Reputation: 21
With us: 4 yaers 5 months

Post #10by biomexanik » 24.01.2013, 00:15

Вот мой


Code: Select all
User-agent: *
Crawl-delay: 2
Host: pcfixinfo.ru
Sitemap: http://pcfixinfo.ru/sitemap.php
Disallow: /go.php
Disallow: /webstat
Disallow: /umil
Disallow: /stk
Disallow: /download
Disallow: /cgi-bin
Disallow: /mcp.php
Disallow: /memberlist.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /search.php
Disallow: /style.php
Disallow: /ucp.php
Disallow: /viewtopic.php?f=*&t=*&view=print
Disallow: /viewtopic.php?t=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?p=*
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=12&t=*
http://pcfixinfo.ru - Форум о ремонте и обслуживании персональных компьютеров.
biomexanik
Новичок
Reputation: 5
With us: 5 years 1 month

Post #11by rvszap » 16.06.2013, 23:11

Проблема с индексацией страниц, роботы,особенно Яндекс, продолжают читать страницы и сбрасывать их в исключенные, по причине неканонического контента.
Если поступить таким образом в файле robot.txt
Allow: /viewtopic.php?f=*&t=*
Disallow: /viewtopic.php?p=*
Disallow: /viewtopic.php?t=*&p=*
Disallow: /viewtopic.php?f=*&p=*
Disallow: /viewtopic.php?f=*&t=*&p=*
Disallow: /viewtopic.php?f=*&t=*&start=0$
Disallow: /viewforum.php?f=*&start=0$
Disallow: /viewtopic.php?f=*&t=*&view=next
Disallow: /viewtopic.php?f=*&t=*&view=previous
Это решит проблему?
rvszap
Мастер
Reputation: 6
With us: 4 yaers 3 months

Post #12by VEG » 17.06.2013, 11:51

Это не проблема. Так и должно быть. Canonical URL и указывается для того, чтобы Яндекс не рассматривал страницы с неканоничным URL.

Ваш вариант robots.txt спрячет эти сообщения, но при этом он запретит Яндексу индексировать ссылки на конкретные сообщения. Если кто-то из пользователей поделится такой ссылкой где-то, её вес не будет передан каноничному URL.
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #13by malkin » 13.10.2013, 13:45

Code: Select all
Clean-param: f&hilit /viewtopic.php
Что это значит? :smile:
malkin
Бывалый
Reputation: 1
With us: 3 yaers 8 months

Post #14by Sumanai » 13.10.2013, 21:20

malkin wrote:Что это значит?

Удалять параметр hilit у файла viewtopic.php как ненужный. Он отвечает за подсветку слов в результатах поиска по форуму, а для ПС это ненужные дубли.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Avatar
Reputation: 1578
With us: 4 yaers 4 months

Post #15by VEG » 13.10.2013, 21:36

Угу, помимо hilit ещё параметр f должен игнорироваться.
С наилучшими пожеланиями, Евгений
VEG M
Topic author, Администратор
Avatar
Age: 29
Location: Минск, Беларусь
Reputation: 1573
With us: 5 years 2 months

Post #16by nikulinlg » 10.11.2013, 12:15

Здравствуйте, моему форуму уже месяц, но в выдаче пока висит всего-лишь одна страница:index.php .
Вот мой robots.txt
Code: Select all
User-Agent: *
Host: forumspeak.ru
Sitemap: http://forumspeak.ru/sitemap.php
Disallow: /adm
Disallow: /cache
Disallow: /classes
Disallow: /docs
Disallow: /download
Allow:    /download/file.php
Disallow: /files
Disallow: /includes
Disallow: /install
Disallow: /language
Disallow: /modules
Disallow: /stk
Disallow: /store
Disallow: /styles
Disallow: /umil
Disallow: /mcp.php
Disallow: /posting.php
Disallow: /report.php
Disallow: /style.php
Disallow: /viewtopic.php?*&view=print
Disallow: /memberlist.php
Disallow: /portal.php
Clean-param: sid /
Clean-param: f&hilit /viewtopic.php
Crawl-delay: 10
nikulinlg M
Бывалый
Avatar
Age: 31
Location: Воронеж
Reputation: 1
With us: 3 yaers 8 months

Post #17by Sumanai » 10.11.2013, 12:32

Гугл с вами не согласен, запрос site:forumspeak.ru выдаёт
Результатов: примерно 11 300 (0,21 сек.)
То есть всё он проиндексировал.
Почему у яндекса одна страница- спросите у него. Регистрируйтесь в инструментах вебмастера и смотрите, что не так. Или в техподдержку, вдруг ответят.

Added after 2 minutes 11 seconds:
Советую так же настроить удаление www из адреса сайта.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Avatar
Reputation: 1578
With us: 4 yaers 4 months

Post #18by nikulinlg » 10.11.2013, 14:42

спасибо за ссылку.
nikulinlg M
Бывалый
Avatar
Age: 31
Location: Воронеж
Reputation: 1
With us: 3 yaers 8 months

Post #19by Andreyka » 03.06.2014, 15:55

Ребят, подскажите пожалуйста: российская поисковая система "Спутник" никак не хочет индексировать сайт. Хотя с Гуглом и Яндексом таких проблем нет. Может быть дело в том, что нужно что-то прописать в Robots.txt или sitemap?
Andreyka
Новичок
Reputation: 0
With us: 3 yaers

Post #20by Sumanai » 03.06.2014, 15:56

Andreyka wrote:поисковая система "Спутник"

Не нужна тчк

Added after 7 minutes 46 seconds:
Ладно, дам развёрнутый ответ. У этой поисковой системы на данный момент нету ни кабинета вебмастера, ни сервиса addurl, ни вообще ничего. Вся информация для вебмастеров ограничивается вот этой скромной страницей. Поэтому нет никакой возможности добавить свой сайт в эту ПС иначе, чем разместив ссылку на ресурсе, который этой ПС активно индексируется.
Единственное, что можно сделать, это добавить его в качестве бота в админке, юзерагент SputnikBot/, имя по вкусу, айпи можно оставить пустым.
Использование поиска продлевает жизнь.
Это форум поддержки форка phpBBex. Поддержка по phpBB осуществляется в других местах.
Sumanai M
Гуру
Avatar
Reputation: 1578
With us: 4 yaers 4 months

Next

Return to Мастерская