Quantitative Text Analysis and Textual Similarity in R

von
Coursera Project Network
In diesem angeleitetes Projekt werden Sie:

Tokenize the dataset and convert the data into a document feature matrix Calculate cosine similarity across documents and plot the output

Clock1 hour
BeginnerAnfänger
CloudKein Download erforderlich
VideoVideo auf geteiltem Bildschirm
Comment DotsEnglisch
LaptopNur Desktop

By the end of this project, you will learn about the concept of document similarity in textual analysis in R. You will know how to load and pre-process a data set of text documents by converting the data set into a corpus and document feature matrix. You will know how to calculate the cosine similarity between documents and explore and plot the output of your calculation.

Kompetenzen, die Sie erwerben werden

  • cosine similarity
  • Text Analysis
  • Document Similarity
  • Data Visualization (DataViz)
  • Text Corpus

Schritt für Schritt lernen

In einem Video, das auf einer Hälfte Ihres Arbeitsbereichs abgespielt wird, führt Sie Ihr Dozent durch diese Schritte:

  1. Load textual data into R and turn it into a corpus object and understand the concept of calculating document similarity in textual analysis

  2. Extract meta-data from text document filenames and subset the data frame to exclude unwanted data

  3. Tokenize and clean the dataset and convert the data into a document feature matrix

  4. Calculate cosine similarity across documents and plot the output

Ablauf angeleiteter Projekte

Ihr Arbeitsbereich ist ein Cloud-Desktop direkt in Ihrem Browser, kein Download erforderlich

Ihr Dozent leitet Sie in einem Video mit geteiltem Bildschirm Schritt für Schritt an.

Häufig gestellte Fragen

Häufig gestellte Fragen

Haben Sie weitere Fragen? Besuchen Sie das Learner Help Center.