Merge pull request #236 from MannLabs/linting_IV

Linting iv
MannLabs · Jan 9, 2025 · 9e0e1eb · 9e0e1eb
2 parents 4e2b51f + 68e9571
commit 9e0e1eb
Show file tree

Hide file tree

Showing 12 changed files with 147 additions and 123 deletions.
diff --git a/alphabase/peptide/precursor.py b/alphabase/peptide/precursor.py
@@ -138,7 +138,7 @@ def calc_precursor_mz(precursor_df: pd.DataFrame, batch_size: int = 500000):
 
     warnings.warn(
         "`alphabase.peptide.precursor.calc_precursor_mz()` is deprecated, "
-        "it will be removed in alphabse>=2.0.0. "
+        "it will be removed in alphabase>=2.0.0. "
         "Please use `alphabase.peptide.precursor.update_precursor_mz()` instead.",
         FutureWarning,
     )

diff --git a/alphabase/psm_reader/alphapept_reader.py b/alphabase/psm_reader/alphapept_reader.py
@@ -1,5 +1,5 @@
 from pathlib import Path
-from typing import Optional
+from typing import Optional, Tuple
 
 import h5py
 import numba
@@ -15,7 +15,7 @@
 
 
 @numba.njit
-def parse_ap(precursor):
+def parse_ap(precursor: str) -> Tuple[str, str, str, str, int]:
     """Parser to parse peptide strings."""
     items = precursor.split("_")
     decoy = 1 if len(items) == 3 else 0  # noqa: PLR2004 magic value
@@ -53,8 +53,8 @@ def __init__(
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
         **kwargs,
     ):
         """Reading PSMs from alphapept's *.ms_data.hdf."""
@@ -73,7 +73,7 @@ def _init_column_mapping(self) -> None:
     def _init_modification_mapping(self) -> None:
         self.modification_mapping = psm_reader_yaml["alphapept"]["modification_mapping"]
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         with h5py.File(filename, "r") as _hdf:
             dataset = _hdf[self.hdf_dataset]
             df = pd.DataFrame({col: dataset[col] for col in dataset})

diff --git a/alphabase/psm_reader/dia_psm_reader.py b/alphabase/psm_reader/dia_psm_reader.py
@@ -1,4 +1,4 @@
-from typing import Optional
+from typing import List, Optional
 
 import numpy as np
 import pandas as pd
@@ -26,13 +26,16 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        fixed_C57=False,
-        mod_seq_columns=psm_reader_yaml["spectronaut"]["mod_seq_columns"],
-        rt_unit="minute",
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
+        fixed_C57: bool = False,  # noqa: N803 TODO: make this  *,fixed_c57  (breaking)
+        mod_seq_columns: Optional[List[str]] = None,
+        rt_unit: str = "minute",
         **kwargs,
     ):
+        if mod_seq_columns is None:
+            mod_seq_columns = psm_reader_yaml["spectronaut"]["mod_seq_columns"]
+
         super().__init__(
             column_mapping=column_mapping,
             modification_mapping=modification_mapping,
@@ -50,7 +53,7 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
     def _init_column_mapping(self) -> None:
         self.column_mapping = psm_reader_yaml["spectronaut"]["column_mapping"]
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         self.csv_sep = self._get_table_delimiter(filename)
         df = pd.read_csv(filename, sep=self.csv_sep, keep_default_na=False)
         self._find_mod_seq_column(df)
@@ -71,13 +74,16 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        fixed_C57=False,
-        mod_seq_columns=psm_reader_yaml["spectronaut"]["mod_seq_columns"],
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
+        fixed_C57: bool = False,  # noqa: N803 TODO: make this  *,fixed_c57  (breaking)
+        mod_seq_columns: Optional[List[str]] = None,
         **kwargs,
     ):
         """SWATH or OpenSWATH library, similar to `SpectronautReader`."""
+        if mod_seq_columns is None:
+            mod_seq_columns = psm_reader_yaml["spectronaut"]["mod_seq_columns"]
+
         super().__init__(
             column_mapping=column_mapping,
             modification_mapping=modification_mapping,
@@ -95,10 +101,10 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        fixed_C57=False,
-        rt_unit="minute",
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
+        fixed_C57: bool = False,  # noqa: N803 TODO: make this  *,fixed_c57  (breaking)
+        rt_unit: str = "minute",
         **kwargs,
     ):
         """Also similar to `MaxQuantReader`,
@@ -120,12 +126,12 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
     def _init_column_mapping(self) -> None:
         self.column_mapping = psm_reader_yaml["diann"]["column_mapping"]
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         self.csv_sep = self._get_table_delimiter(filename)
         return pd.read_csv(filename, sep=self.csv_sep, keep_default_na=False)
 
-    def _post_process(self, origin_df: pd.DataFrame) -> None:
-        super()._post_process(origin_df)
+    def _post_process(self) -> None:
+        super()._post_process()
         self._psm_df.rename(
             columns={PsmDfCols.SPEC_IDX: PsmDfCols.DIANN_SPEC_INDEX}, inplace=True
         )
@@ -149,10 +155,10 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        fixed_C57=False,
-        rt_unit="minute",
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
+        fixed_C57: bool = False,  # noqa: N803 TODO: make this  *,fixed_c57  (breaking)
+        rt_unit: str = "minute",
         **kwargs,
     ):
         super().__init__(
@@ -172,7 +178,7 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
     def _init_column_mapping(self) -> None:
         self.column_mapping = psm_reader_yaml["spectronaut_report"]["column_mapping"]
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         self.mod_seq_column = "ModifiedSequence"
         self.csv_sep = self._get_table_delimiter(filename)
         df = pd.read_csv(filename, sep=self.csv_sep, keep_default_na=False)

diff --git a/alphabase/psm_reader/keys.py b/alphabase/psm_reader/keys.py
@@ -1,10 +1,13 @@
+from typing import Any, List, NoReturn
+
+
 class ConstantsClass(type):
     """A metaclass for classes that should only contain string constants."""
 
-    def __setattr__(cls, name, value):
+    def __setattr__(cls, name: Any, value: Any) -> NoReturn:  # noqa: ANN401
         raise TypeError("Constants class cannot be modified")
 
-    def get_values(cls):
+    def get_values(cls) -> List[str]:
         """Get all user-defined string values of the class."""
         return [
             value

diff --git a/alphabase/psm_reader/maxquant_reader.py b/alphabase/psm_reader/maxquant_reader.py
@@ -1,6 +1,6 @@
 import copy
 import warnings
-from typing import Optional
+from typing import List, Optional
 
 import numba
 import numpy as np
@@ -31,7 +31,7 @@
 @numba.njit
 def replace_parentheses_with_brackets(
     modseq: str,
-):
+) -> str:
     mod_depth = 0
     for i, aa in enumerate(modseq):
         if aa == "(":
@@ -53,7 +53,7 @@ def replace_parentheses_with_brackets(
 def parse_mod_seq(
     modseq: str,
     mod_sep: str = "()",
-    fixed_C57: bool = True,
+    fixed_C57: bool = True,  # noqa: FBT001, FBT002, N803 TODO: make this  *,fixed_c57  (breaking)
 ) -> tuple:
     """Extract modifications and sites from the modified sequence (modseq).
 
@@ -137,10 +137,10 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        fixed_C57=True,
-        mod_seq_columns=None,
+        fdr: float = 0.01,
+        keep_decoy: bool = False,
+        fixed_C57: bool = True,  # noqa: N803 TODO: make this  *,fixed_c57  (breaking)
+        mod_seq_columns: Optional[List[str]] = None,
         **kwargs,
     ):
         """Reader for MaxQuant msms.txt and evidence.txt.
@@ -174,7 +174,10 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
 
         """
         if mod_seq_columns is None:
-            mod_seq_columns = ["Modified sequence"]
+            mod_seq_columns = [
+                "Modified sequence"
+            ]  # TODO: why not take from psm_reader.yaml?
+
         super().__init__(
             column_mapping=column_mapping,
             modification_mapping=modification_mapping,
@@ -187,7 +190,7 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         self._mod_seq_columns = mod_seq_columns
         self.mod_seq_column = "Modified sequence"
 
-    def _find_mod_seq_column(self, df) -> None:
+    def _find_mod_seq_column(self, df: pd.DataFrame) -> None:
         for mod_seq_col in self._mod_seq_columns:
             if mod_seq_col in df.columns:
                 self.mod_seq_column = mod_seq_col
@@ -241,7 +244,7 @@ def _extend_mod_brackets(self) -> None:
 
             self.modification_mapping[key] = list(mod_set)
 
-    def _translate_decoy(self, origin_df=None) -> None:
+    def _translate_decoy(self) -> None:
         if PsmDfCols.DECOY in self._psm_df.columns:
             self._psm_df[PsmDfCols.DECOY] = (
                 self._psm_df[PsmDfCols.DECOY] == "-"
@@ -250,7 +253,7 @@ def _translate_decoy(self, origin_df=None) -> None:
     def _init_column_mapping(self) -> None:
         self.column_mapping = psm_reader_yaml["maxquant"]["column_mapping"]
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         csv_sep = self._get_table_delimiter(filename)
         df = pd.read_csv(filename, sep=csv_sep, keep_default_na=False)
         self._find_mod_seq_column(df)

diff --git a/alphabase/psm_reader/msfragger_reader.py b/alphabase/psm_reader/msfragger_reader.py
@@ -1,4 +1,4 @@
-from typing import Optional
+from typing import List, Optional, Tuple
 
 import numpy as np
 import pandas as pd
@@ -15,15 +15,17 @@
 )
 
 
-def _is_fragger_decoy(proteins):
+def _is_fragger_decoy(proteins: List[str]) -> bool:
     return all(prot.lower().startswith("rev_") for prot in proteins)
 
 
 mass_mapped_mods = psm_reader_yaml["msfragger_pepxml"]["mass_mapped_mods"]
 mod_mass_tol = psm_reader_yaml["msfragger_pepxml"]["mod_mass_tol"]
 
 
-def _get_mods_from_masses(sequence, msf_aa_mods):  # noqa: PLR0912, C901 many branches, too complex TODO: refactor
+def _get_mods_from_masses(  # noqa: PLR0912, C901 too many branches, too complex TODO: refactor
+    sequence: str, msf_aa_mods: List[str]
+) -> Tuple[str, str, str, str]:
     mods = []
     mod_sites = []
     aa_mass_diffs = []
@@ -81,12 +83,6 @@ def _get_mods_from_masses(sequence, msf_aa_mods):  # noqa: PLR0912, C901 many br
 class MSFragger_PSM_TSV_Reader(PSMReaderBase):  # noqa: N801 name should use CapWords convention TODO: refactor
     def __init__(
         self,
-        *,
-        column_mapping: Optional[dict] = None,
-        modification_mapping: Optional[dict] = None,
-        fdr=0.01,
-        keep_decoy=False,
-        rt_unit="second",
         **kwargs,
     ):
         raise NotImplementedError("MSFragger_PSM_TSV_Reader for psm.tsv")
@@ -98,10 +94,10 @@ def __init__(  # noqa: PLR0913 many arguments in function definition
         *,
         column_mapping: Optional[dict] = None,
         modification_mapping: Optional[dict] = None,
-        fdr=0.001,  # refers to E-value in the PepXML
-        keep_decoy=False,
-        rt_unit="second",
-        keep_unknown_aa_mass_diffs=False,
+        fdr: float = 0.001,  # refers to E-value in the PepXML
+        keep_decoy: bool = False,
+        rt_unit: str = "second",
+        keep_unknown_aa_mass_diffs: bool = False,
         **kwargs,
     ):
         """MSFragger is not fully supported as we can only access the pepxml file."""
@@ -121,7 +117,7 @@ def _init_column_mapping(self) -> None:
     def _translate_modifications(self) -> None:
         pass
 
-    def _load_file(self, filename):
+    def _load_file(self, filename: str) -> pd.DataFrame:
         msf_df = pepxml.DataFrame(filename)
         msf_df.fillna("", inplace=True)
         if "ion_mobility" in msf_df.columns:
@@ -133,7 +129,7 @@ def _load_file(self, filename):
         self.column_mapping[PsmDfCols.TO_REMOVE] = "to_remove"
         return msf_df
 
-    def _translate_decoy(self, origin_df=None) -> None:
+    def _translate_decoy(self) -> None:
         self._psm_df[PsmDfCols.DECOY] = (
             self._psm_df[PsmDfCols.PROTEINS].apply(_is_fragger_decoy).astype(np.int8)
         )
@@ -144,11 +140,11 @@ def _translate_decoy(self, origin_df=None) -> None:
         if not self._keep_decoy:
             self._psm_df[PsmDfCols.TO_REMOVE] += self._psm_df[PsmDfCols.DECOY] > 0
 
-    def _translate_score(self, origin_df=None) -> None:
+    def _translate_score(self) -> None:
         # evalue score
         self._psm_df[PsmDfCols.SCORE] = -np.log(self._psm_df[PsmDfCols.SCORE] + 1e-100)
 
-    def _load_modifications(self, msf_df) -> None:
+    def _load_modifications(self, msf_df: pd.DataFrame) -> None:
         if len(msf_df) == 0:
             self._psm_df[PsmDfCols.MODS] = ""
             self._psm_df[PsmDfCols.MOD_SITES] = ""
@@ -176,8 +172,8 @@ def _load_modifications(self, msf_df) -> None:
                 inplace=True,
             )
 
-    def _post_process(self, origin_df: pd.DataFrame) -> None:
-        super()._post_process(origin_df)
+    def _post_process(self) -> None:
+        super()._post_process()
         self._psm_df = (
             self._psm_df.query(f"{PsmDfCols.TO_REMOVE}==0")
             .drop(columns=PsmDfCols.TO_REMOVE)