Web scrapping is a major part of collating data. Often data is written and read by humans. Machine learning allows us to process the data so that it and be standaized and placed in a table.

In this example

We collate, translate and download Romainian Press-releases on COVID Deaths which spans over 183 webpages and table the results


  • Selenium Web driver
  • Python: lxml, Pandas, NLP, Spacy
  • Googlw Sheets


  • Collate data by crewlling website, translating and downloading Press-releases.
  • Use Machine Learning identiify layout and terms.
  • Process data in to table
  • Write output to CSV file

Data in

Example of the data to process from stirioficiale.ro .

Deces 104

Femeie, 54 ani, jud Arad. Internată în SCJU Arad -ATI în 28.03.2020 cu Insuficiență respiratorie acuta.Bronhopneumonie bilaterala. Recoltat pentru COVID-19 în 28.03.2020. Confirmat în 30.03.2020. Decedat in 30.03.2020. Comorbiditati:HTA

Deces 105

Bărbat, 59 ani, jud Ilfov. Face parte dintre pacienții dializați la clinica privata din București, care a fost contact cu alt caz pozitiv. A fost investigat în și confirmat pentru COVID -19 în 26.03.2020. Internat în 27.03.2020 în INBI Matei Bals din 29.03. 2020 in ATI. Decedat în 2.04.2020.
Comorbiditati: Insuficiență renală cronica –dializa, diabet zaharat, Boala cardiovasculara

Deces 106

Bărbat, 61 ani, jud Arad. Internat în SCJU- ATI Arad in 25.03.2020, cu Insuficiență respiratorie acută, recoltat pentru COVID-19 in 25.03.2020, confirmat în 27.03.2020, decedat în 29.03.2020. Comorbiditati: Diabet zaharat tip II, HTA, Insuficienta Renala Cronica Std III.

Python process

Using scripts written in python we can translate then anaylise the text and process this into a simple table output.

Data out

Here is an extract of the output

case gender age death_date place admission_date admission_to comorbity
106 Male 61 29/03/2020 Arad 25/03/2020 ATI Type II diabetes, hypertension, Chronic Kidney Failure Std III.
105 Male 59 02/04/2020 Ilfov county 28/03/2020 ATI Chronic renal failure - dialysis, diabetes, Cardiovascular disease
104 Female 54 30/03/2020 Arad 28/03/2020 ATI bronchopneumonia, hypertension

A copy of the data out is availible on Google Sheets

