Ну никак не получается собрать все ссылки на станице



  • Господа, бьюсь уже пол дня.

    1. Загружаю страницу
    2. Код страницы
    3. Регулярные выражения - извлечь все данные.
      Туда пихаю такую регулярку: <a\ href="+([\s\S]+)"+
      Регулярку составлял через онлайн конструктор.
      На выходе получаю SCAN RESULT LIST с кучей мусора.

    Как грамотно выпарсить только ссылочки со страницы?



  • Как обычно сразу спрашиваю потом ищу ответ на форуме. Разобрался как через хпатч вытащить все ссылки через получить каждый xml/
    Помогите теперь как изменить регулярку //a/@href
    что бы парсились только те ссылки, в которых в урл есть вхождение "page"


  • Banned

    @kodak составить xpath с page но вот так телепатически трудно, вы бы хоть показали из чего дергать.



  • @kodak said in Ну никак не получается собрать все ссылки на станице:

    Помогите теперь как изменить регулярку //a/@href

    Как вариант Xpath запрос

    //a[contains(@href, 'page')]/@href
    

Log in to reply