Берем код страницы



  • Ребята, подскажите плиз, задача - нужно собрать данные из кода страницы (код элемента), страниц много, как это можно реализовать?

    1. Есть-ли какая-то функция, которая парсит определенное слово из кода каждой страницы?
    2. Как лучше организовать парсинг страниц - сначала спарсить список (ссылки на страницы) а потом парсить код ?

    Сорри за нуб вопросы, начинающий в этом деле



  • @ogurchiki
    Со списком удобно работать действием Foreach. вбиваешь туда переменную со списком сайтов, на каждую итерацию (сиречь проход) она будет отдавать в переменной (что-то с foreach в названии, в Инспекторе переменных посмотри) нужный адрес.
    Страничку можно получить get-запросом.Просто адрес туда вбиваешь, потом экшен "содержание ответа". Дальше получай нужное слово регуляркой. Экшен первое вхождение, аргументы: переменная с кодом страницы, регулярное выражение.
    По регуляркам: кури теорию вот тут http://vdasus.com/2010/06/15/regulyarnye-vyrazheniya-dlya-samyh-nachinayuschih/
    Практика: прямо в экшене "первое вхождение" будет "конструктор регулярных выражений". Упростит написание и тестирование.
    Удачи.



  • @Viktor спасибо!


  • administrators

    @ogurchiki Есть действие "Код страницы", оно получает хтмл. Его можно обрабатывать голым javascript, регулярными выражениями и xpath, намного лучше последним.