@UserTrue
Когда искал по форуму, часто встречал ответы этого пользователя. Если найдется минутка, поделитесь опытом. Пока выделил два возможных решения замены curl http. Может есть еще варианты? Какой вариант для вас лучше?
Помогите с регуляркой
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )но не работает в Басе такой код :(
тоже xpath курить придется я думаю, у меня таже байда когда в регулярки прописываю самое короткое совпадение это не катит не фига хотя в зенки все на ура
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
-
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
-
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
//h3[@class="r"]/a/@href
лишнего зацепляет
/url?q=https://www.1und1.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggUMAA&usg=AFQjCNFR960Lmvc8lkENINwAoOLRlyWjHw /url?q=http://www.kicker.de/news/fussball/bundesliga/spieltag/1-bundesliga/2016-17/spieltag.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggeMAE&usg=AFQjCNE7IdQ5qsd455s6o61kR0LGdDLwPw /url?q=https://de.wikipedia.org/wiki/1&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFggoMAI&usg=AFQjCNHEf-h216SqyBzeZkowBDzlv5TVBQ /url?q=https://www.zdf.de/filme/herzkino/honigfrauen-100.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgguMAM&usg=AFQjCNEPRjr35K28Cl4JFyu84vnPP59UNw /url?q=https://www.gesetze-im-internet.de/agg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg0MAQ&usg=AFQjCNGHEI_OtfzlMeQ5X1YPggHs3rD4uw /url?q=https://www.gesetze-im-internet.de/pauswg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg5MAU&usg=AFQjCNFOy54zi6jqgQhTarWoI3tf-Lsyug /url?q=https://www.gesetze-im-internet.de/ustg_1980/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFgg_MAY&usg=AFQjCNFCifMQ23ND-Ccl53NOGz_-W7SP0A /url?q=https://www.gesetze-im-internet.de/gewschg/__1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghEMAc&usg=AFQjCNESfh6onCe5NWnRqKAwJGp7d9MxPQ /url?q=https://www.kabeleins.de/&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghKMAg&usg=AFQjCNFBMdyA_LjiVFHFTzbLn9lDiMssCA /url?q=https://dejure.org/gesetze/KSchG/1.html&sa=U&ved=0ahUKEwjS8Lu14qPUAhVCVhQKHXCIDCkQFghPMAk&usg=AFQjCNFPanhB7IuumcWHMhiPMj6vZLUPSAПеред get запросом ты установил юзер агент?)
да сори, с ним все нормально пошло, сеенкс = )
кстати) можешь попробовать применить свою регулярку, может она теперь нормально будет ссылки парсить, без лишнего мусора) только перед get запросом также установи заголовок)
врядли работать будет, в конструкторе то неробит )
получаться что без агента гугл выдает другую разметку? так что ли понимать разницу в xpath?да, разметка чуть другая) без юзер агента, из за этого 2 xpath запрос парсил ссылки с мусором), а 1 запрос //cite он изначально не очень подходил) в нем не всегда полные адреса
благодарка огромное тебе друже, какой раз уже выручил.
Да без проблем, мне сложно помочь, если это в моих силах
гугл не победить ска )
дичь выдает, иногда зацепает кроме ссылок левый текст
russisch.urz.uni-leipzig.de/online-woerterbuch/ruw.htm?...падла%20(о%20человеке) https://slovar.cc › ... › Словарь воровского жаргона www.russki-mat.net/page.php?l=RuDe&a=падла,%20падло https://sozdik.kz/ru/dictionary/translate/ru/kk/падла/ os.colta.ru/music_modern/projects/8468/details/9827/ www.morfologija.ru/словоформа/падлаhttps://ok.ru/video/11453531413 mp3.cc/m/43026-art/50948413-zaebali-suki/ www.pizdec.net/viewtopic.php?forum_id=4&topic_id... https://zf.fm/song/4542411 https://otvet.mail.ru › Компьютеры, Связь › Интернет www.diary.ru/~you-all-must-die www.graduss.com/m.php?todo=forum_trd&id=2646 forum.wowcircle.com › Форум › Корзина https://muzofond.com/.../napalm%20death%20армия%20извращ... www.jooov.net/.../Napalm_Death-Section_armiya_izvraschentsev...https://www.youtube.com/watch?v=7etu4PqpGdY https://www.youtube.com/watch?v=xpz5SxjBvb4 https://www.youtube.com/watch?v=2zrOzqoM3zo https://www.youtube.com/watch?v=r2hScZc34js https://www.youtube.com/watch?v=plK6sjgti9M https://www.youtube.com/watch?v=SkmUx42oIlc https://de.langenscheidt.com/russisch-deutsch/сука dictionary.reverso.net/russian-english/сука context.reverso.net/translation/russian-english/сука www.russki-mat.net/page.php?l=RuDe&a=сукаlurkmore.to/Копипаста:Зелёный_слоник www.vsebudetzae.biz/ru/diary/?tag=песня&sort=2&offset... nikitich.livejournal.com/1194367.htmlхм) гугл хитрожопый, не дает спокойно себя парсить, я даже не знаю что сделать( регулярку я тебе не подскажу, так как особо не шарю в них, может другие ребята подскажут
Хах придется брать запросом текст, отдавать зенке на корм
зенка парсит складывает в урлы
профит
))
но такой костыль не камельфо
ждем помоши...сделал многопоток через циклы норма все с урлами, но хочется все ж по реше парсить без бразера
Это да) на гет запросах парсер нужно делать, так как потребления ресурсов в разы меньше)
-
@bigorat said in Помогите с регуляркой:
@santilo, увы, все то же самое :( Хотя Зеннопостеровский регексер прекрасно все вытягивает такой конструкцией
(?<=<a\ target="_blank"\ href=").*?(?=">) и (?<=<img\ border="0"\ src=").*?(?="\ )но не работает в Басе такой код :(
слушай а такие регулярки если попробовать
<img\ border="0"\ src="(.*?)" и <a\ target="_blank"\ href="(.*?)"> -
-
@santilo said in Помогите с регуляркой:
кароче мой косяк, у меня 2 запроса, в одном прописан //h3[@class="r"]/a/@href, а втором запросе был первый //cite/text() вот он туда и при выполнении накидал в список кривых урлов ска
фак еах теперь все робит так как доктор прописал, расходимся пасаны )
xpatch - крутая фича жаль что прикручивается к определенному сайту
если парсить с рандомных сайтов то тут только регулярка выручит
-
@Zenodrot said in Помогите с регуляркой:
xpatch - крутая фича жаль что прикручивается к определенному сайту
Да) я лично парсю сайты только через xpath, с ним проще) он для этого и создавался что бы парсить дом дерево и его элементы
Например:
<div class="one">1</div>
<div class="one">2</div>
<div class="one">3</div>
Как регуляркой вытянуть из 2 дива цифру 2? скорее всего можно) но мне проще через xpath это решить
с помощью xpath это сделать элементарно : //div[@class="one"][2]/text() -
@santilo said in Помогите с регуляркой:
@Zenodrot хорошо что заметил), а то бы еще больше простоя было))
я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)
теперь с чистой душой пойду зенку в мусорку снесу, более не требуется)
Создателю BAS нужно памятник при жизни ставить, ИМХО -
@Zenodrot said in Помогите с регуляркой:
@santilo said in Помогите с регуляркой:
@Zenodrot хорошо что заметил), а то бы еще больше простоя было))
я когда полез мануал курить сразу заюзал плагин в мазиле там все норм было, ссылочки как родные там получаются, сразу понял что в скрипте где-то неладное =)
Правильно сделал) что в мануал заглянул) осталось его весь прочитать) и работать с xpath по необходимости
-
@bigorat said in Помогите с регуляркой:
@santilo, а.... ясно, жаль, если бы была совместимость было бы круто, ну или какой конвертор из одного в другое :)
я сам думал про конвертор, потом в зинке начал всматриваться что да как и почем регулярка там строиться и смотрел на басовсом конструкторе сравнивал синтаксис, и там наглядно понятно где поправить нужно. Теперь от зиновского отвык, нормально освоил басовский.
с BAS вожусь 3й день, уже как родной стал, отвык от зинки.
перенес сложные проекты все нормально летает.
Все проекты в многопотоке, сильно заметна разница по нагрузке железа, BAS шустрее шерстит.
пока с BAS возился за всю своею жизнь понял как строиться регулярка, раньше на это внимание не обращал в зенке тык тык и готово ) а теперь более гибкие регулярки делаю.
правда для гугла не смог победить(время жмет ипстись с ним), а так уже штук 20 наклепал разных.если бы не местные ребята, я бы наверно плюнул на BAS в первый день, первый день было тяжко привыкнуть и понять логику. В итоге еще недельку и я стану мастером по басу )
зинку юзал 3 года... по этму более легко пересел на бас. -
Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу. -
@Fox said in Помогите с регуляркой:
Регулярки вроде как кросплатформенные должны быть, как отдельный мини язык программирования.
Проверять их лучше на regex101.com.
Если нужна помощь по регуляркам, дайте кусок кода и что нужно в итоге. Помогу чем смогу.кусок кода любой с поиска гугла, нужно изъять ссылки сайтов выдаваемые гуглом
Я поипался, разобрался,настроил регулярку для гугла, синтаксис регулярки отличается незначительно но все же, вот наглядно на скрине
http://prntscr.com/fg2cn1

