Вот наглядный пример. Вот сайт - http://vstup.info/2017/i2017i217.html
Через Get запрос получаю его код.
И пытаюсь регуляркой получить все ссылки из блоков, где есть слово ПЗСО.
Регулярка вот - " >ПЗСО<+.href="./(.).html">.* "
Мне выдаёт только один ответ - "217/i2017i217p416634". Кстати, возможно это важно! Я получаю только каталог и код специально, мне оно не нужно с расширением .html в дальнейшем
Ну а как же например - "217/i2017i217p393297.html"!?
Вот этот тестовый проект по проще:
0_1501527120859_BASPR1.xml
UPD. Даже когда я пытаюсь найти все ссылки на этой странице, то их количество равно всего 3.
Вот этот проект:
0_1501528480390_BASPR1.xml
В первом примере города и названия вузов получаются все без исключения, но специальности почему-то не находятся полностью