@basuser123 said in Большой размер профилей:
то будет заметная экономия в хранении.
А еще заметна нагрузка на диск, особенно если цикл работы профиля короткий. Хочется удалять, удаляй. Это не значит что это всегда хорошо и всем будет полезно
@agility потому что метрики присваивают уникальный номер пользователя, даже без регистрации в сети. И если получить такой без кук, скорее всего в дальнейшем будут определяться как роботы
@potya said in Прогрев профилей:
@agility Несколько вопросов.
Где взять такую выборку из нескольких тысяч сайтов?
Не понял насчёт второго этапа :( Гуглить/яндексить ботом определенные запросы и заходить на сайты, выданные по ним?
Как найти и определить что сайт без метрики?
Рейтинги mail.ru, рейтинги liveinternet, radar.yandex.ru, alexa top, парсить выдачи yandex/google
Второй этап – верно написал
Как определить сайт без метрики – проверить наличие кода метрики в html
@very0big0g said in Прогрев профилей:
@agility потому что метрики присваивают уникальный номер пользователя, даже без регистрации в сети. И если получить такой без кук, скорее всего в дальнейшем будут определяться как роботы
Блин, все равно не понял!
Метрика присваивает уникальный номер пользователя. Если без кук – то скорее робот.
А как метрики получают куки других сайтов? Яндексу/Гуглу доступны куки только сайта yandex.ru/google.ru, они никак не узнают про другие куки браузера из соображений безопасности – так сделаны браузеры.
@agility said in Прогрев профилей:
А как метрики получают куки других сайтов? Яндексу/Гуглу доступны куки только сайта yandex.ru/google.ru, они никак не узнают про другие куки браузера из соображений безопасности – так сделаны браузеры.
Метрика делает запрос на свой домен и куки устанавливаются для ее домена, соответственно, когда с какого-то сайт скрипт метрики отсылает информацию о посетителе, то используются эти куки
@agility Если там нет нужных метрик(помимо гугла и яши бывают и другие метрики), то думаю его нет.
@agility said in Прогрев профилей:
@usertrue Именно, в этом и вопрос. Я от нескольких опытных людей слышал, что стоит профилировать на 1-ом этапе без метрик. Но почему я не смог узнать.
Еще надо бабу с пустыми ведрами в полнолуние дождаться. Не спрашивай почему. Так надо!
@usertrue said in Прогрев профилей:
@agility said in Прогрев профилей:
@usertrue Именно, в этом и вопрос. Я от нескольких опытных людей слышал, что стоит профилировать на 1-ом этапе без метрик. Но почему я не смог узнать.
Еще надо бабу с пустыми ведрами в полнолуние дождаться. Не спрашивай почему. Так надо!
Дать глупый совет и отбить конкурентов - так надо? ))
Если я правильно понял, то нет смысла бегать по сайтам где нет метрик. Куки важны только для почты, перед тем как где-то регаться надо обязательно быть авторизованным в нее и никаких IMAP протоколов.
P.S в моем шаблоне 25 авторегов. Бот регаеться где только можно (на торентах сайтах, на порно сайтах, сайты знакомств и т.д.)
@agility said in Прогрев профилей:
Делайте прогрев этапами.
На первом этапе создаете новые профили и гуляете их по сайтам с яндекс метрикой или google analytics (зависит на какую поисковую систему будете ориентироваться).
Лучше брать выборки из тысячи сайтов для максимального разнообразия, профилировать по 1-5 сайтам прямыми заходами по 1-3 страниц просмотра.
Дальше второй этап делать нагуливание через поисковые системы со скликом на случайные сайты.Для больше естественности:
- максимально зарандомить технические характеристики ботов (UA, отпечатки) и перемещения по страницам
- добавить прямые заходы на сайты с referrer/эмуляцией социальных сетей
- делать % возврата на уже посещаемые ранее сайты
- искать по высокочастотным запросам
- прогревать не менее недели, повторять этапы
- прогревать по минимум двум поисковым системам
- прогревать ботов по тематикам (если целевой сайт о недвижимости, то преимущественно использовать фразы по этой теме)
- особые фишки ботов (регистрация в соц. сетях, яндекс/google почте, заполнение форм, выделение отдельных фрагментов текстов (телефоны, email), просмотры видео и ...)
Дополнение:
P.S про фрагменты текста спасибо, полезно :D
@fastspace said in Прогрев профилей:
Дать глупый совет и отбить конкурентов - так надо? ))
Это не совет, а сарказм.
@agility said in Прогрев профилей:
@fastspace said in Прогрев профилей:
Использовать только свежий User Agent и обновлять его в те моменты когда выходит новая версия браузера (у меня перед началом потока на Post/Get парсить версию браузеров и если она обновилась, то применяет новый агент). У баса хронический недостаток с этим, у зенки есть ползунок где можно выбирать всегда свежие.
Я правильно понял, что ты собрал базу fingerprint'ов по тегу Desktop, а потом просто меняешь User Agent на свой через "Сменить заголовок"?
Через ZP собираешь базу UA?
Проверяешь свежую версию UA через whatismybrowser.com?
У меня ТДС с трафиком на дейтинг. Оттуда собираю юзер агенты новые, когда вышла новая версия браузера у меня в базу mycql спарсит этот новый юзер агент и я его 1 раз применю через то самое действие.
Да и собирать их не сложно даже руками. Всего 4 браузера юзаю (Хром, опера, Edge, Firefox)
@agility said in Прогрев профилей:
Ты делаешь просто действие сон, или какие-нибудь дополнительные действия типа убрать мышь с экрана?
А что за действие такое "убрать мышь с экрана"? Не делал такого, но читал как-то что при закрытии вкладки можно определить координаты мыши и если они не будут 0x0... Хз как метрика это чекает.
Сон делаю, но тоже изредка.
А про сессию я имел ввиду, что бот серфить по сайтам может целых пол часа (с небольшими перерывами). В общем полный рандом.