Подскажите пожалуйста как убрать лишнее



  • Подскажите пожалуйста как сделать так когда парсишь сайты, чтобы скрипт убирал лишнии строки... Вот так скрипт сейчас парсит и сохраняет в файл
    https://ibb.co/crMp3o

    Можно как-то сделать чтобы скрипт сохранял так ссылки
    https://ibb.co/dyVz3o
    ????



  • @pro100sata
    javascript split



  • @pro100sata
    Можно
    alt text

    ([\s\S]+//[\s\S]+?/) даже так можно. хватит и этой



  • @allive А поподробней можно? Я новичек в бас еще....



  • @pro100sata Можно. Данное регулярное выражение возьмет из строки все символы до // и после до / слеша
    Что значит выберет из ссылки только главный домен и один слеш остальное отрежет. Я делал регулярку смотря на скрин. Теперь берем полученный список и пропускаем через эту регулярку. Если вы используете вот это
    alt text
    То получите массив ссылок обрезанных в [[SCAN_RESULT_LIST]] ну или как вы назовете переменную.
    А если это
    alt text
    то в [[ALL_MATCH]]
    Дальше делайте с ними что вам надо

    P/S Регулярные выражения за это говорите спасибо @Fox он в свое время поделился



  • @allive А как быть с точками "..." оно ссылки с ... не берет



  • @allive Сейчас скрин скину как сохраняет в файл





  • @pro100sata Составлять регулярку и под точки тоже. Мануал выше в помощь или вот контруктор для баса он есть в в самом басе. ну переход



  • @allive У вас такой разнобой ссылок что есть смутное подорзение что это не парсинг) Но не суть
    Создайте три я вижу ажна три разных варианта. Хз сколько их на самом деле и пускайте массив через [[STRING_EXIST]] если подходит под выражение то вперед. Второй [[STRING_EXIST]] со второй регуляркой если подходит вперед и так далее под все ваши варианты)) там и www у вас и http и просто обрез и точки.
    з/ы Но если вам надо будет сохранить последовательность то пропускать надо не массив весь, а по элементам массива. Взяли пропустили, взяли следующий и так далее. Это будет дольше. Но последовательность сохранится. Весь массив при запуске порубит на части подходящие под регулярку. Т.е. в каком порядке они у вас. Если первая под http то первым будет http



  • @allive Не получается сделать через https://bablosoft.github.io/RegexpConstructor/


  • administrators

    @Pro100Sata Вот что то мне подсказывает, что проблема в изначальном получении этого списка ссылок. Вы как его получаете? Что у вас такой разношёрстный результат?


    На будущие, скриншоты конечно хорошо, но данные всё же лучше. Как я буду проверять регулярку по скриншоту? Или самому перепечатывать все данные?


    Попробуйте такую регулярку:

    ((?:^https?:\/\/|^)[^\/]*)
    

    Вот ссылка для проверки



  • @fox said in Подскажите пожалуйста как убрать лишнее:

    ((?:^https?://|^)[^/]*)

    Отлично! Работает)) спасибо больше))