Principles of Machine Learning for Bioinformatics

This four-day course introduces a selection of machine learning methods used in bioinformatic analyses with a focus on RNA-seq gene expression data. Topics covered include: unsupervised learning, dimensionality reduction and clustering; feature selection and extraction; and supervised learning methods for classification (e.g., random forests, SVM, LDA, kNN, etc.) and regression (with an emphasis on regularization methods appropriate for high-dimensional problems). Participants have the opportunity to apply these methods as implemented in R and python to publicly available data.

Lecture notes are provided in the four slide decks:

The directories microarray, pcr, and rnaseq contain example data sets. Most of the remaining files in the repository are R or python scripts (most scripts are available in essentially equivalent form in both languages).

Suggested prerequisites

Recommended for students with some prior knowledge of either R or python. Participants are expected to provide their own laptops with recent versions of R and/or python installed. Students will be instructed to download several free software packages (including R packages and/or python libraries such as including pandas and sklearn).

R packages

from CRAN

The command below can be run within an R session to install most of the required packages from CRAN; some of these may take a while to install, recommend installation prior to class if you intend to run the R scripts.

install.packages(c('ada', 'caret', 'devtools', 'e1071', 'ggplot2',
                   'ggrepel', 'GGally', 'glmnet', 'MASS', 'matrixStats',
                   'pheatmap', 'randomForest', 'rpart', 'Rtsne', 'tidyr'))

from Bioconductor

The package genefilter can be installed from Bioconductor using the following code again run within an R session.

install.packages('BiocManager')
BiocManager::install('genefilter')

from github

The package sparsediscrim can be installed from github using the following code again run within an R session.

devtools::install_github('ramhiser/sparsediscrim')

Python modules

The following Python modules are used in the included scripts; again I would recommend installing prior to class if you intend to run the Python scripts:

numpy
scipy
pandas
scikit-learn
matplotlib
plotnine
seaborn

Scripts to study by day

Day 1: loading data, normalization, clustering

R	Python	Notes
LoadData.R	LoadData.py
NormalizeData.R	NormalizedData.py	RLE- and mean-center-normalization
Clustering.R	Clustering.py	k-means and hierarchical clustering

Day 2: pca, knn classification, overfitting, cross-validation, feature selection

R	Python	Notes
PCA_intro.R
PCA.R	PCA.py
KnnSim.R	KnnSim.py	compare resub vs. test performance on simulated data
KnnSimCV.R	KnnSimCV.py	show cross-validation (cv) removes resub bias
BadFeatSel.R	BadFeatSel.py	supervised feature selection must be done under cv
KnnGrid.R	KnnGrid.py	compare cv acc for varying k parameter on real data
KnnReal.R	KnnReal.py	t-test feature selection/extraction + knn on real data

Day 3: linear models, regularization, naive bayes

R	Python	Notes
TTesting.R	TTesting.py
PredictingGeneExpression.R	PredictionGeneExpression.py
WhyRegularize.R	WhyRegularize.py
LogisticReal.R	LogisticReal.py
LdaIsLikeLogistic.R

Day 4: svm, bootstrap, trees, random forests, boosting

R	Python	Notes
SvmReal.R	SvmReal.py
bootstrap_examples.R		mostly taken from package bootstrap examples
KnnSimBoot.R
RandomForestReal.R	RandomForestReal.py
AdaBoostReal.R	AdaBoostReal.py
CompareModelStrats.R	CompareModelStrats.py

Name		Name	Last commit message	Last commit date
Latest commit History 43 Commits
microarray/Hess		microarray/Hess
pcr/GSE60946		pcr/GSE60946
rnaseq		rnaseq
AdaBoostReal.R		AdaBoostReal.R
AdaBoostReal.py		AdaBoostReal.py
AdaBoostReal_R.ipynb		AdaBoostReal_R.ipynb
AdaBoostReal_python.ipynb		AdaBoostReal_python.ipynb
BadFeatSel.R		BadFeatSel.R
BadFeatSel.py		BadFeatSel.py
BadFeatSel_R.ipynb		BadFeatSel_R.ipynb
BadFeatSel_python.ipynb		BadFeatSel_python.ipynb
Clustering.R		Clustering.R
Clustering.py		Clustering.py
Clustering_R.ipynb		Clustering_R.ipynb
Clustering_python.ipynb		Clustering_python.ipynb
CompareModelStrats.R		CompareModelStrats.R
CompareModelStrats.py		CompareModelStrats.py
CompareModelStrats_R.ipynb		CompareModelStrats_R.ipynb
CompareModelStrats_python.ipynb		CompareModelStrats_python.ipynb
ExtractYs.R		ExtractYs.R
KnnGrid.R		KnnGrid.R
KnnGrid.py		KnnGrid.py
KnnGrid_R.ipynb		KnnGrid_R.ipynb
KnnGrid_python.ipynb		KnnGrid_python.ipynb
KnnReal.R		KnnReal.R
KnnReal.py		KnnReal.py
KnnRealAccuracyByNFeat.tsv		KnnRealAccuracyByNFeat.tsv
KnnRealAccuracyByNFeat_R.tsv		KnnRealAccuracyByNFeat_R.tsv
KnnRealAccuracyByNPcs_R.tsv		KnnRealAccuracyByNPcs_R.tsv
KnnReal_R.ipynb		KnnReal_R.ipynb
KnnReal_python.ipynb		KnnReal_python.ipynb
KnnSim.R		KnnSim.R
KnnSim.py		KnnSim.py
KnnSimBoot.R		KnnSimBoot.R
KnnSimCV.R		KnnSimCV.R
KnnSimCV.py		KnnSimCV.py
KnnSimCV_R.ipynb		KnnSimCV_R.ipynb
KnnSimCV_python.ipynb		KnnSimCV_python.ipynb
KnnSim_R.ipynb		KnnSim_R.ipynb
KnnSim_python.ipynb		KnnSim_python.ipynb
L1LogisticRealAccuracyByNFeat_R.tsv		L1LogisticRealAccuracyByNFeat_R.tsv
L2LogisticRealAccuracyByNFeat_R.tsv		L2LogisticRealAccuracyByNFeat_R.tsv
LdaIsLikeLogistic.R		LdaIsLikeLogistic.R
LoadData.R		LoadData.R
LoadData.py		LoadData.py
LogisticReal.R		LogisticReal.R
LogisticReal.py		LogisticReal.py
LogisticRealAccuracyByNFeat_R.tsv		LogisticRealAccuracyByNFeat_R.tsv
LogisticReal_R.ipynb		LogisticReal_R.ipynb
LogisticReal_python.ipynb		LogisticReal_python.ipynb
MaclearnUtilities.R		MaclearnUtilities.R
MaclearnUtilities.py		MaclearnUtilities.py
NormalizeData.R		NormalizeData.R
NormalizedData.py		NormalizedData.py
PCA.R		PCA.R
PCA.py		PCA.py
PCA_R.ipynb		PCA_R.ipynb
PCA_intro.R		PCA_intro.R
PCA_python.ipynb		PCA_python.ipynb
PredictingGeneExpression.R		PredictingGeneExpression.R
PredictingGeneExpression.py		PredictingGeneExpression.py
PredictingGeneExpression_R.ipynb		PredictingGeneExpression_R.ipynb
PredictingGeneExpression_python.ipynb		PredictingGeneExpression_python.ipynb
README.md		README.md
RandomForestReal.R		RandomForestReal.R
RandomForestReal.py		RandomForestReal.py
RandomForestReal_R.ipynb		RandomForestReal_R.ipynb
RandomForestReal_python.ipynb		RandomForestReal_python.ipynb
RestrictData.R		RestrictData.R
RestrictedData.py		RestrictedData.py
ScriptsToStudyByDay.org		ScriptsToStudyByDay.org
SimData.R		SimData.R
SimData.py		SimData.py
SvmReal.R		SvmReal.R
SvmReal.py		SvmReal.py
SvmReal_R.ipynb		SvmReal_R.ipynb
SvmReal_python.ipynb		SvmReal_python.ipynb
TTesting.R		TTesting.R
TTesting.py		TTesting.py
TTesting_R.ipynb		TTesting_R.ipynb
TTesting_python.ipynb		TTesting_python.ipynb
U133A.tsv		U133A.tsv
WhyRegularize.R		WhyRegularize.R
WhyRegularize.py		WhyRegularize.py
WhyRegularize_R.ipynb		WhyRegularize_R.ipynb
WhyRegularize_python.ipynb		WhyRegularize_python.ipynb
bootstrap_examples.R		bootstrap_examples.R
bottomlyGeneSyms.RData		bottomlyGeneSyms.RData
fitModelWithNFeat.R		fitModelWithNFeat.R
maclearn-1.pdf		maclearn-1.pdf
maclearn-2.pdf		maclearn-2.pdf
maclearn-3.pdf		maclearn-3.pdf
maclearn-4.pdf		maclearn-4.pdf
modelFits10Accs.tsv		modelFits10Accs.tsv
modelFits50Accs.tsv		modelFits50Accs.tsv
modelpipe.R		modelpipe.R
pcaextractor.py		pcaextractor.py
prepared_datasets.RData		prepared_datasets.RData
shenGeneAnnot.RData		shenGeneAnnot.RData
tsne_shen.R		tsne_shen.R

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Principles of Machine Learning for Bioinformatics

Suggested prerequisites

R packages

from CRAN

from Bioconductor

from github

Python modules

Scripts to study by day

Day 1: loading data, normalization, clustering

Day 2: pca, knn classification, overfitting, cross-validation, feature selection

Day 3: linear models, regularization, naive bayes

Day 4: svm, bootstrap, trees, random forests, boosting

About

Releases

Packages

Languages

Tahmin/maclearn

Folders and files

Latest commit

History

Repository files navigation

Principles of Machine Learning for Bioinformatics

Suggested prerequisites

R packages

from CRAN

from Bioconductor

from github

Python modules

Scripts to study by day

Day 1: loading data, normalization, clustering

Day 2: pca, knn classification, overfitting, cross-validation, feature selection

Day 3: linear models, regularization, naive bayes

Day 4: svm, bootstrap, trees, random forests, boosting

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages