@IvanG said in Кодировка не UTF-8:
Текст не читаемый получается. Не так делаю?
Эм, он и не будит читаемым, это же бинарный файл. Я как-то находил парсеры doc в html на node. Поищите на github
в одном чате хочу чс скопировать создал цыкл получил текст и выдает так
а мне нужно чтоб только ник был без всего лишнего может кто подскажет как реализовать??
Парси регуляркой
[.*]
или так если без скобок надо
(?<=[).*(?=])
@Bigma said in не пойму как урезать полученный текст:
Парси регуляркой
[.*]или так если без скобок надо
(?<=[).*(?=])
Вы бы хоть разобрались как работают регулярные выражения, прежде чем их советовать..
В первой регулярке вы используете диапазон из символов точки и звёздочки
[.*]
такая регулярка может найти только точки и только звёздочки

https://regex101.com/r/XEpwrT/1
Если в коде регулярки был слеш, но форум его не отобразил
\[.*]
то такая регулярка ищет открывающуюся квадратную скобку и самую последнюю закрывающуюся квадратную скобку (из за жадного алгоритма), с любыми символами внутри

https://regex101.com/r/JkDnTs/1
@kolepchenko14 said in не пойму как урезать полученный текст:
в одном чате хочу чс скопировать создал цыкл получил текст и выдает так а мне нужно чтоб только ник был без всего лишнего может кто подскажет как реализовать??
Используйте xpath для определения только ника, у него должен быть свой селектор. Либо примените регулярное выражение к каждой строке во время парсинга. Действие "первое вхождение":
(.*?)Добав
в тексте нет .* но можно добавить жадности и все будет прекрасно работать

@DoctorKrolic никакой пропаганды, да и тут и так все знают, половина юзеров от туда здесь.
@DoctorKrolic said in не пойму как урезать полученный текст:
@Fox Хм... А за беспалевную пропаганду конкурентов банят)? Скрины от @Bigma в студию!
Кстати да, банят на неделю, за откровенную пропаганду
@Bigma said in не пойму как урезать полученный текст:
в тексте нет .* но можно добавить жадности и все будет прекрасно работать
В скриншоте пользователя нет квадратных скобок
@Bigma said in не пойму как урезать полученный текст:
@Fox первый вариант тоже жадности не хватает
Мне очень нравятся регулярки, я раньше их использовал просто везде, даже html парсил регулярками. Но лучше не использовать генераторы, а изучить регулярки самому, что бы знать как они работают. Это не сложно.
Я сам периодически возвращаюсь к шпаргалке, чтобы уточнить какой нибудь момент:
https://www.exlab.net/tools/sheets/regexp.html
А темы "в зенке работает, а в BAS нет" я буду закрывать
@Fox said in не пойму как урезать полученный текст:
В скриншоте пользователя нет квадратных скобок
Честно говоря есть [AcademeG]
Собственно это первое что бросается в глаза, я за это и зацепился.
@GameBot said in не пойму как урезать полученный текст:
Пока нет правильных вариантов.
Там вообще 2 варианта: первый - "Добавил(а)", второй - "Добавлен(а)"
Получается вообще нужно получить 2 списка и потом их объединить
Это смотря какую часть текста нужно получить. Для получения ника в начале строки я скинул выше регулярку. Но думаю задачу можно решить проще, получив текст необходимого html элемента, а не всё в кучу
@GameBot https://regex101.com/r/Yxs6AY/1
.*?(?=Добав)
Пустые строки удалить.
У Фокса в группе 1 все правильно
@Bigma said in не пойму как урезать полученный текст:
@GameBot https://regex101.com/r/Yxs6AY/1
.*?(?=Добав)Пустые строки удалить.

