Подскажите пожалуйста как убрать лишнее

Pro100Sata

Подскажите пожалуйста как сделать так когда парсишь сайты, чтобы скрипт убирал лишнии строки... Вот так скрипт сейчас парсит и сохраняет в файл
https://ibb.co/crMp3o

Можно как-то сделать чтобы скрипт сохранял так ссылки
https://ibb.co/dyVz3o
????

000

@pro100sata
javascript split

allive

@pro100sata
Можно
alt text

([\s\S]+//[\s\S]+?/) даже так можно. хватит и этой

Pro100Sata

@allive А поподробней можно? Я новичек в бас еще....

allive

@pro100sata Можно. Данное регулярное выражение возьмет из строки все символы до // и после до / слеша
Что значит выберет из ссылки только главный домен и один слеш остальное отрежет. Я делал регулярку смотря на скрин. Теперь берем полученный список и пропускаем через эту регулярку. Если вы используете вот это
alt text
То получите массив ссылок обрезанных в [[SCAN_RESULT_LIST]] ну или как вы назовете переменную.
А если это

то в [[ALL_MATCH]]
Дальше делайте с ними что вам надо

P/S Регулярные выражения за это говорите спасибо @Fox он в свое время поделился

Pro100Sata

@allive А как быть с точками "..." оно ссылки с ... не берет

Pro100Sata

@allive Сейчас скрин скину как сохраняет в файл

Pro100Sata

@allive alt text

allive

@pro100sata Составлять регулярку и под точки тоже. Мануал выше в помощь или вот контруктор для баса он есть в в самом басе. ну переход

allive

@allive У вас такой разнобой ссылок что есть смутное подорзение что это не парсинг) Но не суть
Создайте три я вижу ажна три разных варианта. Хз сколько их на самом деле и пускайте массив через [[STRING_EXIST]] если подходит под выражение то вперед. Второй [[STRING_EXIST]] со второй регуляркой если подходит вперед и так далее под все ваши варианты)) там и www у вас и http и просто обрез и точки.
з/ы Но если вам надо будет сохранить последовательность то пропускать надо не массив весь, а по элементам массива. Взяли пропустили, взяли следующий и так далее. Это будет дольше. Но последовательность сохранится. Весь массив при запуске порубит на части подходящие под регулярку. Т.е. в каком порядке они у вас. Если первая под http то первым будет http

Pro100Sata

@allive Не получается сделать через https://bablosoft.github.io/RegexpConstructor/

Fox

@Pro100Sata Вот что то мне подсказывает, что проблема в изначальном получении этого списка ссылок. Вы как его получаете? Что у вас такой разношёрстный результат?

На будущие, скриншоты конечно хорошо, но данные всё же лучше. Как я буду проверять регулярку по скриншоту? Или самому перепечатывать все данные?

Попробуйте такую регулярку:

((?:^https?:\/\/|^)[^\/]*)

Вот ссылка для проверки

Pro100Sata

@fox said in Подскажите пожалуйста как убрать лишнее:

((?:^https?://|^)[^/]*)

Отлично! Работает)) спасибо больше))

Bablosoft

Подскажите пожалуйста как убрать лишнее

как правильно останавливать BAS

как решить такую капчу

Как удалить лишнее?

Модальные окна, как их обрабатывать

Как убрать пробелы в базе данных.