@alex117815 на форуме неоднократно поднимался этот вопрос. я даже готовый софт публиковал специально под гитхаб.
Однако..
Оскорбление других участников форума запрещено, первое предупреждение
Подскажите пожалуйста как сделать так когда парсишь сайты, чтобы скрипт убирал лишнии строки... Вот так скрипт сейчас парсит и сохраняет в файл
https://ibb.co/crMp3o
Можно как-то сделать чтобы скрипт сохранял так ссылки
https://ibb.co/dyVz3o
????
@pro100sata
javascript split
@pro100sata
Можно

([\s\S]+//[\s\S]+?/) даже так можно. хватит и этой
@pro100sata Можно. Данное регулярное выражение возьмет из строки все символы до // и после до / слеша
Что значит выберет из ссылки только главный домен и один слеш остальное отрежет. Я делал регулярку смотря на скрин. Теперь берем полученный список и пропускаем через эту регулярку. Если вы используете вот это

То получите массив ссылок обрезанных в [[SCAN_RESULT_LIST]] ну или как вы назовете переменную.
А если это

то в [[ALL_MATCH]]
Дальше делайте с ними что вам надо
P/S Регулярные выражения за это говорите спасибо @Fox он в свое время поделился
@pro100sata Составлять регулярку и под точки тоже. Мануал выше в помощь или вот контруктор для баса он есть в в самом басе. ну переход
@allive У вас такой разнобой ссылок что есть смутное подорзение что это не парсинг) Но не суть
Создайте три я вижу ажна три разных варианта. Хз сколько их на самом деле и пускайте массив через [[STRING_EXIST]] если подходит под выражение то вперед. Второй [[STRING_EXIST]] со второй регуляркой если подходит вперед и так далее под все ваши варианты)) там и www у вас и http и просто обрез и точки.
з/ы Но если вам надо будет сохранить последовательность то пропускать надо не массив весь, а по элементам массива. Взяли пропустили, взяли следующий и так далее. Это будет дольше. Но последовательность сохранится. Весь массив при запуске порубит на части подходящие под регулярку. Т.е. в каком порядке они у вас. Если первая под http то первым будет http
@allive Не получается сделать через https://bablosoft.github.io/RegexpConstructor/
@Pro100Sata Вот что то мне подсказывает, что проблема в изначальном получении этого списка ссылок. Вы как его получаете? Что у вас такой разношёрстный результат?
На будущие, скриншоты конечно хорошо, но данные всё же лучше. Как я буду проверять регулярку по скриншоту? Или самому перепечатывать все данные?
Попробуйте такую регулярку:
((?:^https?:\/\/|^)[^\/]*)
Вот ссылка для проверки
@fox said in Подскажите пожалуйста как убрать лишнее:
((?:^https?://|^)[^/]*)
Отлично! Работает)) спасибо больше))