1

Scraping Data

Web scrapping is a major part of collating data. Often data is written and read by humans. Machine learning allows us to process the data so that it and be standaized and placed in a table.

In this example

We collate, translate and download Romainian Press-releases on COVID Deaths which spans over 183 webpages and table the results

Tools

  • Selenium Web driver
  • Python: lxml, Pandas, NLP, Spacy
  • Googlw Sheets

Process

  • Collate data by crewlling website, translating and downloading Press-releases.
  • Use Machine Learning identiify layout and terms.
  • Process data in to table
  • Write output to CSV file

Data in

Example of the data to process from stirioficiale.ro .

Deces 104

Femeie, 54 ani, jud Arad. Internată în SCJU Arad -ATI în 28.03.2020 cu Insuficiență respiratorie acuta.Bronhopneumonie bilaterala. Recoltat pentru COVID-19 în 28.03.2020. Confirmat în 30.03.2020. Decedat in 30.03.2020. Comorbiditati:HTA

Deces 105

Bărbat, 59 ani, jud Ilfov. Face parte dintre pacienții dializați la clinica privata din București, care a fost contact cu alt caz pozitiv. A fost investigat în 25.03.03.2020 și confirmat pentru COVID -19 în 26.03.2020. Internat în 27.03.2020 în INBI Matei Bals din 29.03. 2020 in ATI. Decedat în 2.04.2020.
Comorbiditati: Insuficiență renală cronica –dializa, diabet zaharat, Boala cardiovasculara

Deces 106

Bărbat, 61 ani, jud Arad. Internat în SCJU- ATI Arad in 25.03.2020, cu Insuficiență respiratorie acută, recoltat pentru COVID-19 in 25.03.2020, confirmat în 27.03.2020, decedat în 29.03.2020. Comorbiditati: Diabet zaharat tip II, HTA, Insuficienta Renala Cronica Std III.

Python process

Using scripts written in python we can translate then anaylise the text and process this into a simple table output.

Data out

Here is an extract of the output

case gender age death_date place admission_date admission_to comorbity
106 Male 61 29/03/2020 Arad 25/03/2020 ATI Type II diabetes, hypertension, Chronic Kidney Failure Std III.
105 Male 59 02/04/2020 Ilfov county 28/03/2020 ATI Chronic renal failure - dialysis, diabetes, Cardiovascular disease
104 Female 54 30/03/2020 Arad 28/03/2020 ATI bronchopneumonia, hypertension

A copy of the data out is availible on Google Sheets

Contact us

If you want Doug to Collate and process data for you then ask for a quote. Basic cost is £20 ph, the time it take varies on the complexity of task but we can talk about capping the cost.
Just let contact me and we can discuss your needs over email or the phone.