Автоматический парсинг текста цитаты в академических ссылках

Есть ли какое-либо программное обеспечение (или псевдокод), который может автоматически просканировать часть текста (или вставляемый в инструмент или считанный из .doc/.pdf) и определить данные цитаты с помощью стандартных форматов? Данные были бы затем разделены на свои составляющие поля и экспортированы в XML, CSV или некотором другом формате структурированных данных. Я посмотрел на cb2Bib, но он только смог извлечь год из ссылок стиля Гарварда, который недостаточен.

18
задан 18.08.2009, 11:56

4 ответа

Попробуйте инструмент, такой как Regex Buddy или Экспресс.

Если Вы не программист, Регулярные выражения могут быть немного пугающими, но они действительно не что трудно, особенно с достойным инструментом как одно из вышеупомянутого.

Вот пример кого-то использующего Регулярные выражения для извлечения цитат:

Цитата, анализирующая регулярное выражение

2
ответ дан 07.12.2019, 10:30

Zotero является плагином для Firefox, который делает это для веб-контента. Не уверенный, если существует подобный инструмент для documents/pdfs

0
ответ дан 07.12.2019, 10:30

Mendeley должен смочь сделать это. Это может импортировать PDFs и затем экспортировать метаданные в BibTeX, RIS и EndNote XML. Это является свободным загрузить и является межплатформенным.

Править: Я протестировал это на нескольких документах. Импорт PDF, действительно кажется, работает хорошо на ссылки, которые отформатированы правильно. Для документа я создал ЛАТЕКС использования, все ссылки с автором в форме "Smith, J." или "J. Smith", и т.д., был импортирован прекрасный. Если автор является компанией (отдельное слово), или ссылка является неполной, она не работает также. Извлеченные ссылки могут легко быть отредактированы и экспортированы в BibTeX и т.д.

1
ответ дан 07.12.2019, 10:30

Я видел, что программа Westlaw делает это для легальных цитат, но это, вероятно, не, что Вы ищете. Ссылочный менеджер мог бы сделать что-то как этот для академических форматов, но я никогда не использовал его.

1
ответ дан 07.12.2019, 10:30

Это, вероятно, принадлежит больше как комментарий к @Abhinav, но zotero определенно только обрабатывает структурированные данные, поскольку Вы нашли бы описанным здесь:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Интересный взлом мог бы быть должен попытаться записать программу, которая использует каждую цитату в качестве поискового запроса в Вашей любимой базе данных, затем использует что-то как zotero для генерации касательно информации. Вы могли также загрузить структурированную информацию с сервисов как citeUlike. Сообщите мне, заканчиваете ли Вы события что-то как этот! (поднимите его на GitHub, если Вы делаете ;).

0
ответ дан 07.12.2019, 10:30

Теги

Похожие вопросы