Как извлечь почтовые идентификаторы из документа с помощью Word или Устройства записи

У меня есть документ (.doc) с сотнями почтового идентификатора в помещенном случайным образом в текст. Как я изолирую почтовые идентификаторы, так, чтобы я мог экспортировать их в свои Контакты Gmail?

Я хотел бы решение этого использования регулярные выражения на Устройстве записи или использовании функции поиска на Word или любым другим методом.

2
задан 23.09.2010, 10:37

1 ответ

Полным, полным решением для этого была бы огромная проблема с любой regex-поддерживаемой-средой, Word/Устройством записи больше. См. это сообщение для того, почему regexes не являются панацеей для всех text/email-matching проблем, которые подходят. Та правовая оговорка из пути, давайте посмотрим, находится ли практическое решение в досягаемости...

Для меня практическое решение, вероятно, включило бы использование regexes в какой-то момент в процессе, но не, сначала не беспокоясь о существовании таких возможностей в данных: bob@company.organica@yahoo.com... Если бы электронные письма действительно были случайным образом распределены в текстовом файле, то нужно было бы объяснить тот случай - возможность нахождения 2 электронных писем друг рядом с другом без очевидного разделителя. Это bob@company и organica@yahoo.com или это company.organica@yahoo.com с первоначальным текстом bob@ просто мусор? Я предполагаю, что подобные убедительные примеры могут быть найдены.

Разумный первый удар в проблеме мог бы где-нибудь приехать эти строки:

  1. найдите соответствие электронной почты regex, я могу жить с (никакая такая вещь как идеальная!)
  2. найдите все электронные письма в текстовом файле с помощью этого regex и разместите их в новые строки, добавив некоторый текст маркера как 'w00t' вначале
  3. закажите файл (использующий: закажите команду), разделяя все 'w00t' строки, тех с электронными письмами, которые мы нашли от остальной части несопоставленного спама
  4. пройдите несопоставленные строки один за другим, чтобы гарантировать, что Вы не пропускаете реальные данные там. Если Вы находите, что Вы, возвратитесь и измените regex в № 1 или вручную извлеките те электронные письма прежде, чем продолжить шаг № 2. Иначе существует опасность, что Вы разделяете электронное письмо (который не соответствовал regex) в части, сохраняя одну часть и выбрасывая другой.
1
ответ дан 12.12.2019, 00:23

Теги

Похожие вопросы