Я обычно получаю файлы, обычно электронные таблицы Excel, которые содержат вручную вводимые данные, которые переросли утилиту электронных таблиц. Я затем очищаю эти файлы для импорта в базу данных.
это иногда легко, иногда кропотливо, в зависимости от того, насколько "чистый" данные.
например, что-то как:
Name Age Phone #
J Smith 31 yo 8019219210
Smith, Mary Alice 43 (203) 456-7788
Я перевожу в:
First_Name Middle_Name Last_Name Age Phone_Number
J NULL Smith 31 801-921-9210
Mary Alice Smith 43 203-456-7788
Я действительно любил бы некоторое программное обеспечение, которое помогает мне установить параметры для того, на что каждый столбец "должен быть похожим", автоматически флаговые значения, которые являются подозреваемым, и разрешают мне циклически повторяться через них для создания редактирований по мере необходимости.
Кто-либо знает, существует ли программное обеспечение как это? Я должен предположить, что это делает, но я понятия не имею, как начать находить его.
Я также открыт для стандартных рабочих процедур, что справка достигает того же вида задачи эффективно.
Спасибо!
вскоре после того, как я отправил это, Google выпустил Google Refine, который, кажется, имеет все функции, которые я воображал, и затем некоторые.
http://code.google.com/p/google-refine/
Я разобрался в новом задании, когда я узнал о, совершенствовали, или я, конечно, испытал бы его на некоторых реальных данных. в данный момент я не использовал его сам, таким образом, я не могу прокомментировать его качество - но то демонстрационное видео сдуло меня, и это, конечно, кажется, утилита, которую я искал, когда я отправил этот вопрос.
если Вы использовали его, и это полезно, проголосуйте за этот ответ. если это получит пару голосов, то я выберу этот ответ.
Если Ваше расположение столбца в файлах, которые Вы получаете, полупоследовательно, Вы могли бы, вероятно, записать макрос, чтобы сделать больше всего все. Разделите имя (с правилами для идентификации В последний раз сопровождаемого запятой и т.д.), сделайте Возраст числом, отформатируйте телефон.
У Вас мог даже быть он цикл через и когда в сомнении условно форматируют строку для дальнейшего внимания.