Есть ли какое-либо программное обеспечение (или псевдокод), который может автоматически просканировать часть текста (или вставляемый в инструмент или считанный из .doc/.pdf) и определить данные цитаты с помощью стандартных форматов? Данные были бы затем разделены на свои составляющие поля и экспортированы в XML, CSV или некотором другом формате структурированных данных. Я посмотрел на cb2Bib, но он только смог извлечь год из ссылок стиля Гарварда, который недостаточен.
Попробуйте инструмент, такой как Regex Buddy или Экспресс.
Если Вы не программист, Регулярные выражения могут быть немного пугающими, но они действительно не что трудно, особенно с достойным инструментом как одно из вышеупомянутого.
Вот пример кого-то использующего Регулярные выражения для извлечения цитат:
Mendeley должен смочь сделать это. Это может импортировать PDFs и затем экспортировать метаданные в BibTeX, RIS и EndNote XML. Это является свободным загрузить и является межплатформенным.
Править: Я протестировал это на нескольких документах. Импорт PDF, действительно кажется, работает хорошо на ссылки, которые отформатированы правильно. Для документа я создал ЛАТЕКС использования, все ссылки с автором в форме "Smith, J." или "J. Smith", и т.д., был импортирован прекрасный. Если автор является компанией (отдельное слово), или ссылка является неполной, она не работает также. Извлеченные ссылки могут легко быть отредактированы и экспортированы в BibTeX и т.д.
Я видел, что программа Westlaw делает это для легальных цитат, но это, вероятно, не, что Вы ищете. Ссылочный менеджер мог бы сделать что-то как этот для академических форматов, но я никогда не использовал его.
Это, вероятно, принадлежит больше как комментарий к @Abhinav, но zotero определенно только обрабатывает структурированные данные, поскольку Вы нашли бы описанным здесь:
Интересный взлом мог бы быть должен попытаться записать программу, которая использует каждую цитату в качестве поискового запроса в Вашей любимой базе данных, затем использует что-то как zotero для генерации касательно информации. Вы могли также загрузить структурированную информацию с сервисов как citeUlike. Сообщите мне, заканчиваете ли Вы события что-то как этот! (поднимите его на GitHub, если Вы делаете ;).