EsempioscriptintermediateEseguibileresearch-brief
Estrazione
Esempio rieseguibile intermediate di tipo script che usa docling, ipykernel.
Fatti chiave
- Livello
- intermediate
- Runtime
- Python • API OpenAI
- Pattern
- Ricerca supportata dal contesto con evidenza esplicita
- Interazione
- Sandbox live • Script
- Aggiornato
- 14 marzo 2026
Naviga questo esempio
Libreria
Sfoglia gli esempiRiapri la libreria completa per confrontare pattern vicini e percorsi collegati.Interazione
Esegui ora nel sandboxProva l'interazione direttamente nella superficie guidata di questo esempio.Sorgente
Apri codice completoLeggi l'implementazione reale, i punti evidenziati e i requisiti runtime.MCP
Chiama via MCPUsa la stessa risorsa dentro agenti, export deterministici e setup MCP.
Principi collegati
1-extraction.py
python
from docling.document_converter import DocumentConverter
from utils.sitemap import get_sitemap_urls
converter = DocumentConverter()
# --------------------------------------------------------------
# Basic PDF extraction
# --------------------------------------------------------------
result = converter.convert("https://arxiv.org/pdf/2408.09869")
document = result.document
markdown_output = document.export_to_markdown()
json_output = document.export_to_dict()
print(markdown_output)
# --------------------------------------------------------------
# Basic HTML extraction
# --------------------------------------------------------------
result = converter.convert("https://ds4sd.github.io/docling/")
document = result.document
markdown_output = document.export_to_markdown()
print(markdown_output)
# --------------------------------------------------------------
# Scrape multiple pages using the sitemap
# --------------------------------------------------------------
sitemap_urls = get_sitemap_urls("https://ds4sd.github.io/docling/")
conv_results_iter = converter.convert_all(sitemap_urls)
docs = []
for result in conv_results_iter:
if result.document:
document = result.document
docs.append(document)
Principi correlati
- P4trustApplicare la divulgazione progressiva all'agenzia del sistemaFornire per impostazione predefinita le informazioni minime necessarie, consentendo agli utenti di ispezionare ulteriori dettagli quando è richiesta fiducia, comprensione o intervento.Apri il principio →
- P6visibilityEsporre uno stato operativo significativo, non la complessità internaPresentare lo stato del sistema in linguaggio e strutture rilevanti per l'utente, piuttosto che esporre dettagli interni di basso livello che non supportano l'azione o la comprensione.Apri il principio →
- P7trustStabilire fiducia attraverso l'ispezionabilitàGli utenti dovrebbero essere in grado di esaminare come è stato prodotto un risultato quando la fiducia, la responsabilità o la qualità della decisione sono importanti.Apri il principio →