делаете базу, или список, в зависимости от надежности - парсите ссылки в базу/список - и сравниваете два списка или базы, все чего нет в старом списке - новые ссылки.
Получить ссылки типа domen.ru/domen/domen
-
Добрый день.Возникла необходимость на любом сайте получить ссылки формата: domen.ru/domen/domen. Ссылки формата domen.ru/domen и domen.ru не нужны.
Как получить такие ссылки быстро и без геморроя?Через XPath или регуляркой? -
@gena19 said in Получить ссылки типа domen.ru/domen/domen:
Добрый день.Возникла необходимость на любом сайте получить ссылки формата: domen.ru/domen/domen. Ссылки формата domen.ru/domen и domen.ru не нужны.
Как получить такие ссылки быстро и без геморроя?Через XPath или регуляркой?Ещё раз?
У вас есть ссылка с доменом?
[[DOMEN]] = "google.ru" [[NEED_URL]] = [[DOMEN]] + "/" + [[DOMEN]].split(".")[0] + "/" + [[DOMEN]].split(".")[0] -
@gena19 said in Получить ссылки типа domen.ru/domen/domen:
@fox Только url домена есть.
Нужно получить ссылки domen.ru/(здесь английские буквы и цифры)/(здесь английские буквы и цифры)
Ссылки типа domen.ru и domen.ru/(здесь английские буквы и цифры) не нужны.Чегось? Походу у меня мана закончилась.. Приведите конкретный пример с существующим доменом.
-
@gena19 said in Получить ссылки типа domen.ru/domen/domen:
@fox вот пример:
Есть страница сайта : https://lady.today/moda/kak-i-s-chem-nosit-poncho-etoi-osenu-foto/
На ней нужно получить ссылки :
https://lady.today/moda/kak-i-s-chem-nosit-iskysstvennyu-shybky-foto/
https://lady.today/moda/chto-nadet-v-ofis-foto/
https://lady.today/moda/viazanye-jenskie-shapki-na-zimy-2018-2019-foto/А вот есть ссылки,которые не нужны и их нужно отфильтровать:
https://lady.today/krasota/
https://lady.today/moda/
https://lady.today/lady/
https://lady.today/Можно либо сразу получать нужные ссылки через xpath, либо потом фильтровать любым удобным способом. Подойдёт даже простое условие if
[[URL]].split("/").length > 5