@aleksandermesher как то так примерно(подгонять под себя, чисто шаблон)
0320871a-0e12-4ee1-9f41-019bae6469f6-image.png
@woodenfart А код <a href="profile" есть на странице?
Да, есть ссылки профилей на странице такого вида: http://www.istochnik.com/profile.asp?id=NICKNAME
@woodenfart Спарсить все ссылки очень легко с помощью "Xpath получить каждый элемент" с параметром //a/@href
Но все равно, вы не могли бы приложить проект, чтоб я разобрался в ситуации с match
Не хочу палить источник)
Можно поподробнее? Вижу только такие команды: Xpath получить xml Xpath получить каждый xml Xpath получить текст Xpath получить каждый текст Xpath получить количество элементов Xpath проверить существование
И куда нужно вписывать параметр? Я не разбираюсь)
Xpath получить каждый xml
К примеру, мне нужно спарсить все ссылки которые содержат "profile" с помощью xpath. Как заполнить поля? То что я нагуглил не работает)
@woodenfart нажмите на елементе и выбирете Изучить, а в исходном коде на ссылке можете скопировать как xpath
Спасибо, разобрался с xpath. Сохраняет в файле все в одну строку, при том что стоит "Добавить символ окончание строки". Нужно что бы в столбик записывало. Как решить? И еще, на выходе получаются вот такие ссылки: /profile-example . Возможно ли получить полные ссылки?
@woodenfart said in Как спарсить?:
Спасибо, разобрался с xpath. Сохраняет в файле все в одну строку, при том что стоит "Добавить символ окончание строки". Нужно что бы в столбик записывало. Как решить? И еще, на выходе получаются вот такие ссылки: /profile-example . Возможно ли получить полные ссылки?
Это называется относительные ссылки. На сайтах редко пишут полные. В коде страницы такие ссылки, поэтому и на выходе они такие. Вывод - дописывать начало ссылки вручную. Оно везде будет одинаковое.
Накатал скрипт) Спасибо за помощь! Разработчики молодцы)
@karpekin said in Как спарсить?:
Парсю сайты с помощью Datacol.
Рекламировать свой/чужой софт можно только в "Off topic".