Проблема с поиском ссылок, кликом и регуляркой



  • Добрый день, делаю скрипт для нахождения всех УРЛОВ на заданной мною странице и рандомного проклика этих ссылок, как это реализовал покажу ниже.
    0_1570512690605_513e6de9-f941-41bf-9cbb-9fbb475169e2-image.png
    То есть я получаю код страницы, достаю оттуда ссылки с помощью //@href и функции "получить каждый xml", потом фильтрую эти ссылки (оставляю только те, в которых присутствует мой урл, таким образом исключая рекламные ссылки и прочее).

    1. В этом моменте проблема, иногда не фильтрует ссылки по типу google рекламы (в ссылке на клик рекламы зачастую присутствует адрес сайта).
    2. Вторая проблема на скриншоте, хоть я и удаляю из списка получившихся ссылок дубликаты, при поиске этой ссылке через МАТЧ, он находит её в нескольких местах и банально не кликает ни на одну из найденных. Как можно исправить?
    3. Третья проблема не относится к поиску ссылок. Я так же на найденном сайте пытаюсь имитировать действия реального пользователя, который просматривает страницу, но когда я использую "эмитацию бездействия", она очень медленно скролит страницу вниз, можно сказать почти не скролит. Просто двигает мышкой в шапке сайта. А мне хотелось бы, чтобы скрипт "гулял" по всей странице. Пробовал играться с настройками, но скролл все такой же медленный.


  • Неужели никто не знает как помочь?) Еще подскажите, если не сложно, при поиске части кода с помощью match, как кликнуть на первый найденный по счету элемент? Например, MATCH>[[peremennaya]] > [2] (где 2 номер элемента), запись неправильная, но как правильно не получается нагуглить) вообще по запросу match селекторы шибурду какую-то выдает)



  • @naineten said in Проблема с поиском ссылок, кликом и регуляркой:

    как кликнуть на первый найденный по счету элемент? Например, MATCH>[[peremennaya]] > [2] (где 2 номер элемента), запись неправильная, но как правильно не получается нагуглить) вообще по запросу match селекторы шибурду какую-то выдает)

    Используйте >AT> префикс:

    >MATCH>match1>AT>0
    

    Вот мануал по селекторам.



  • @naineten said in Проблема с поиском ссылок, кликом и регуляркой:

    Добрый день, делаю скрипт для нахождения всех УРЛОВ на заданной мною странице и рандомного проклика этих ссылок, как это реализовал покажу ниже.
    0_1570512690605_513e6de9-f941-41bf-9cbb-9fbb475169e2-image.png
    То есть я получаю код страницы, достаю оттуда ссылки с помощью //@href и функции "получить каждый xml", потом фильтрую эти ссылки (оставляю только те, в которых присутствует мой урл, таким образом исключая рекламные ссылки и прочее).

    1. В этом моменте проблема, иногда не фильтрует ссылки по типу google рекламы (в ссылке на клик рекламы зачастую присутствует адрес сайта).
    2. Вторая проблема на скриншоте, хоть я и удаляю из списка получившихся ссылок дубликаты, при поиске этой ссылке через МАТЧ, он находит её в нескольких местах и банально не кликает ни на одну из найденных. Как можно исправить?
    3. Третья проблема не относится к поиску ссылок. Я так же на найденном сайте пытаюсь имитировать действия реального пользователя, который просматривает страницу, но когда я использую "эмитацию бездействия", она очень медленно скролит страницу вниз, можно сказать почти не скролит. Просто двигает мышкой в шапке сайта. А мне хотелось бы, чтобы скрипт "гулял" по всей странице. Пробовал играться с настройками, но скролл все такой же медленный.
    1. Делай черный список общих символов в Гугл рекламе, по другому никак
    2. Проверка на существует элемент плюс галка что его видно, если тру, то клик. Однако это всю равно не сбережёт от всех случаев, ибо действие виден ли элемент иногда отдает ложное значение.
    3. Скорость скрола пробуй менять через актион настройка мыши.

Log in to reply
 

  • 2
  • 4
  • 8
  • 7
  • 5
  • 7
  • 8
  • 14