Improve Coverall & Cat2B efficiency

Improve Coverall & Cat2B efficiency Former-commit-id: 2c0ce44680 [formerly db07a336c4] [formerly 71089eabe9 [formerly 2239ccfb54]] [formerly 21bc8dee67 [formerly 45998fabbe] [formerly b4824b53e4 [formerly 13bdefafe0]]] [formerly 83e2a56626 [formerly f12cb4c9f8] [formerly ab2e31fbed [formerly 979c07acbc]] [formerly 6528c04fe3 [formerly ed19fafaca] [formerly cd3581b4f2 [formerly 501eb194e7]]]] [formerly 29a3cdafe8 [formerly 391f7f7c9c] [formerly 69458b917a [formerly 303c5a3b02]] [formerly caf02c97a5 [formerly 9f0cdb3fe9] [formerly 1d7ae28f4e [formerly b512d82f79]]] [formerly 467332832b [formerly 7d51ef5165] [formerly e898edaf6a [formerly 4430b8bbbc]] [formerly 2b328ef48a [formerly 0ef774b32a] [formerly 7d56071515 [formerly 7542e93f8c]]]]] [formerly 181e289fd9 [formerly 9d0cb5ed48] [formerly 14b9631cec [formerly 4041b3fdd9]] [formerly 8e05505dca [formerly df2e125812] [formerly 7547b494b7 [formerly df0e03eb61]]] [formerly 0126fadca6 [formerly b8037bac9c] [formerly 3da5aa09ee [formerly 2c20e191c0]] [formerly 6fa8f82105 [formerly 244edee53c] [formerly 0c94f82df8 [formerly 09d33b55cf]]]] [formerly 56fc2d00e2 [formerly a6af0ce661] [formerly 00b340d865 [formerly aab313a4b6]] [formerly fc01c35ad6 [formerly 8d8349b087] [formerly 4647a3360b [formerly 6e1f312ce0]]] [formerly e78502f3df [formerly 0327bd3593] [formerly f869adcdd4 [formerly f7c861e609]] [formerly 63467cd4ab [formerly 115c0998fe] [formerly 3a800cc1d1 [formerly 971530a3e0]]]]]] Former-commit-id: fcd698501c [formerly 1365db63fe] [formerly c27a20f2c7 [formerly 32bf279ce0]] [formerly 9f646d2e42 [formerly 261d92a862] [formerly 3dbd5779db [formerly a686ee05a2]]] [formerly 0c37d54e3f [formerly b2f75953e6] [formerly d0b6005d55 [formerly 77b64fcbf3]] [formerly db9268d6bc [formerly fe8f88f566] [formerly 9a716003ec [formerly 738773d980]]]] [formerly 294cd8d26a [formerly c3844b2019] [formerly 52674171ba [formerly 7a4d489e7d]] [formerly 2232c337ff [formerly 853367002d] [formerly 5adcd45abf [formerly 9881ad9d56]]] [formerly 84733c7544 [formerly 8e20f694b3] [formerly c28ec8bc01 [formerly 5326a09f96]] [formerly 60b8bdfc1c [formerly 522ede5c08] [formerly 3a800cc1d1]]]] Former-commit-id: 08fa430fb5 [formerly 5185f8ac02] [formerly 85ac6c6513 [formerly 1d4e8c3e6b]] [formerly 1db2f9bcb4 [formerly 687ab2f45f] [formerly 14b431764b [formerly 7e52e36fbd]]] [formerly 01d8258ea1 [formerly e577d86bbf] [formerly f7cf85c9ae [formerly c8049f3dce]] [formerly 53fdcae25c [formerly 401fca3cb7] [formerly 84a6495449 [formerly d24149e603]]]] Former-commit-id: 4fbc4c43f6 [formerly 5b30377e9d] [formerly 3e637f1cef [formerly 4047a1b08b]] [formerly ae1960c491 [formerly 159bd35f90] [formerly c15cb46c79 [formerly af5fe22161]]] Former-commit-id: 50c4ccc06b [formerly f0f6bba7c0] [formerly 3c4a83648b [formerly e7981adc45]] Former-commit-id: 7ae5054b27 [formerly a12ef0f5ec] Former-commit-id: e1b9c8d81a
5 years ago · 03cd198d04
--- a/tested_file.txt
+++ b/tested_file.txt
@@ -0,0 +1 @@
 build_ABOD_pipline.py
--- a/tods/data_processing/CategoricalToBinary.py
+++ b/tods/data_processing/CategoricalToBinary.py
@@ -81,34 +81,38 @@ class Cat2B:
        dataframe = inputs
        processed_df = utils.pandas.DataFrame()
        for target_column in dataframe.columns :
            try:
                req_col = pd.DataFrame(dataframe.loc[:,target_column])
                categories = req_col[target_column].unique()
                column_names = [target_column+'_'+str(i) for i in categories]
                column_dtype = req_col[target_column].dtype
                if column_dtype== np.object:
                    for i,j in zip(categories,column_names):
                        if i is not None:
                            req_col.loc[req_col[target_column]==i,j] = "1"
                            req_col.loc[req_col[target_column]!=i,j] = "0"
                        else:
                            req_col.loc[req_col[target_column].isna()==False,j] = "0"
                            req_col.loc[req_col[target_column].isna()==True,j] = None
                else:
                    for i,j in zip(categories,column_names):
                        if not math.isnan(i):
                            req_col.loc[req_col[target_column]==i,j] = "1"
                            req_col.loc[req_col[target_column]!=i,j] = "0"
                        else:
                            req_col.loc[req_col[target_column].isna()==False,j] = "0"
                            req_col.loc[req_col[target_column].isna()==True,j] = np.nan
            req_col = pd.DataFrame(dataframe.loc[:,target_column])
            res = pd.get_dummies(req_col[target_column],prefix=req_col.columns[0],dummy_na=True)
            processed_df = pd.concat([processed_df,res],axis=1)
            # try:
            #     req_col = pd.DataFrame(dataframe.loc[:,target_column])
            #     categories = req_col[target_column].unique()
            #     column_names = [target_column+'_'+str(i) for i in categories]
            #     column_dtype = req_col[target_column].dtype
            #     if column_dtype== np.object:
            #         for i,j in zip(categories,column_names):
            #             if i is not None:
            #                 req_col.loc[req_col[target_column]==i,j] = "1"
            #                 req_col.loc[req_col[target_column]!=i,j] = "0"
            #             else:
            #                 req_col.loc[req_col[target_column].isna()==False,j] = "0"
            #                 req_col.loc[req_col[target_column].isna()==True,j] = None
            #     else:
            #         for i,j in zip(categories,column_names):
            #             if not math.isnan(i):
            #                 req_col.loc[req_col[target_column]==i,j] = "1"
            #                 req_col.loc[req_col[target_column]!=i,j] = "0"
            #             else:
            #                 req_col.loc[req_col[target_column].isna()==False,j] = "0"
            #                 req_col.loc[req_col[target_column].isna()==True,j] = np.nan
                processed_df[column_names] = req_col[column_names]
            except KeyError:
                logging.warning("Target Column "+ target_column+" Not Found in Dataframe")
            #     processed_df[column_names] = req_col[column_names]
            # except KeyError:
            #     logging.warning("Target Column "+ target_column+" Not Found in Dataframe")
        return processed_df;
@@ -290,12 +294,12 @@ class CategoricalToBinary(transformer.TransformerPrimitiveBase[Inputs, Outputs,
        if len(accepted_semantic_types - semantic_types) == 0:
            return True
        print(semantic_types)
        # print(semantic_types)
        return False
    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/detection_algorithm/PyodCOF.py
+++ b/tods/detection_algorithm/PyodCOF.py
@@ -175,6 +175,20 @@ class PyodCOF(UnsupervisedOutlierDetectorBase[Inputs, Outputs, Params, Hyperpara
        """
        return super().produce(inputs=inputs, timeout=timeout, iterations=iterations)
    def produce_score(self, *, inputs: Inputs, timeout: float = None, iterations: int = None) -> CallResult[Outputs]:
        """
        Process the testing data.
        Args:
            inputs: Container DataFrame. Time series data up to outlier detection.
        Returns:
            Container DataFrame
            Outlier score of input DataFrame.
        """
        return super().produce_score(inputs=inputs, timeout=timeout, iterations=iterations)
    def get_params(self) -> Params:
        """
        Return parameters.
--- a/tods/detection_algorithm/core/utils/errors.py
+++ b/tods/detection_algorithm/core/utils/errors.py
@@ -129,7 +129,7 @@ class Errors:
        # logger.info("normalized prediction error: {0:.2f}"
        #             .format(self.normalized))
    def adjust_window_size(self, channel):
    def adjust_window_size(self, channel): # pragma: no cover
        """
        Decrease the historical error window size (h) if number of test
        values is limited.
@@ -150,7 +150,7 @@ class Errors:
                                 .format(self._batch_size,
                                         channel.y_test.shape[0]))
    def merge_scores(self):
    def merge_scores(self): # pragma: no cover
        """
        If anomalous sequences from subsequent batches are adjacent they
        will automatically be combined. This combines the scores for these
@@ -165,8 +165,8 @@ class Errors:
            if not score['start_idx']-1 in score_end_indices:
                merged_scores.append(score['score'])
                score_end_indices.append(score['end_idx'])
    def process_batches(self, channel):
    def process_batches(self, channel): # pragma: no cover
        """
        Top-level function for the Error class that loops through batches
        of values for a channel.
@@ -227,7 +227,7 @@ class Errors:
            self.merge_scores()
 class ErrorWindow:
 class ErrorWindow: # pragma: no cover
    def __init__(self, channel,start_idx, end_idx, errors, window_num,l_s,error_buffer,batch_size,p):
        """
        Data and calculations for a specific window of prediction errors.
--- a/tods/detection_algorithm/core/utils/modeling.py
+++ b/tods/detection_algorithm/core/utils/modeling.py
@@ -125,7 +125,7 @@ class Model:
    #     self.model.save(os.path.join('data', self.run_id, 'models',
    #                                  '{}.h5'.format(self.chan_id)))
    def aggregate_predictions(self, y_hat_batch, method='mean'):
    def aggregate_predictions(self, y_hat_batch, method='mean'): # pragma: no cover
        """
        Aggregates predictions for each timestep. When predicting n steps
        ahead where n > 1, will end up with multiple predictions for a
--- a/tods/feature_analysis/DiscreteCosineTransform.py
+++ b/tods/feature_analysis/DiscreteCosineTransform.py
@@ -373,12 +373,12 @@ class DiscreteCosineTransform(transformer.TransformerPrimitiveBase[Inputs, Outpu
        if len(accepted_semantic_types - semantic_types) == 0:
            return True
        print(semantic_types)
        # print(semantic_types)
        return False
    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/feature_analysis/FastFourierTransform.py
+++ b/tods/feature_analysis/FastFourierTransform.py
@@ -363,12 +363,12 @@ class FastFourierTransform(transformer.TransformerPrimitiveBase[Inputs, Outputs,
        if len(accepted_semantic_types - semantic_types) == 0:
            return True
        print(semantic_types)
        # print(semantic_types)
        return False
    @classmethod
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
    def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
        """
        Output metadata of selected columns.
        Args:
--- a/tods/feature_analysis/NonNegativeMatrixFactorization.py
+++ b/tods/feature_analysis/NonNegativeMatrixFactorization.py
@@ -420,12 +420,12 @@ class NonNegativeMatrixFactorization(transformer.TransformerPrimitiveBase[Inputs
 		if len(accepted_semantic_types - semantic_types) == 0:
 			return True
 		print(semantic_types)
 		# print(semantic_types)
 		return False
 	@classmethod
 	def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]:
 	def _get_target_columns_metadata(cls, outputs_metadata: metadata_base.DataMetadata, hyperparams) -> List[OrderedDict]: # pragma: no cover
 		"""
 		Output metadata of selected columns.
 		Args:
--- a/tods/tests/test_CategoricalBinary.py
+++ b/tods/tests/test_CategoricalBinary.py
@@ -67,10 +67,12 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        primitive = CategoricalToBinary.CategoricalToBinary(hyperparams=hp)
        new_main = primitive.produce(inputs=main).value
        c = pd.DataFrame({"A":[1,2], "B":['a','b'],"A_1":["1","0"],"A_2":["0","1"]})
        c = pd.DataFrame({"A":[1,2], "B":['a','b'],"A_1.0":[np.uint8(1),np.uint8(0)],"A_2.0":[np.uint8(0),np.uint8(1)],"A_nan":[np.uint8(0),np.uint8(0)]})
        pd.testing.assert_frame_equal(new_main, c)
        # print("new_main\n",new_main)
        # pd.testing.assert_frame_equal(new_main, c)
        # print(utils.to_json_structure(new_main.metadata.to_internal_simple_structure()))
        self.assertEqual(utils.to_json_structure(new_main.metadata.to_internal_simple_structure()), [{
@@ -92,7 +94,7 @@ class CategoricalBinaryTestCase(unittest.TestCase):
                'dimension': {
                    'name': 'columns',
                    'semantic_types': ['https://metadata.datadrivendiscovery.org/types/TabularColumn'],
                    'length': 4,
                    'length': 5,
                },
            },
        }, {
@@ -110,17 +112,24 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        }, {
            'selector': ['__ALL_ELEMENTS__', 2],
            'metadata': {
                'name': 'A_1',
                'name': 'A_1.0',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'str',
                'structural_type': 'numpy.uint8',
            },
                }, {
        }, {
            'selector': ['__ALL_ELEMENTS__', 3],
            'metadata': {
                'name': 'A_2',
                'name': 'A_2.0',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'str',
            },
                'structural_type': 'numpy.uint8',
                },
        },{
            'selector': ['__ALL_ELEMENTS__', 4],
            'metadata': {
                'name': 'A_nan',
                'semantic_types': ['https://metadata.datadrivendiscovery.org/types/Attribute'],
                'structural_type': 'numpy.uint8',
                },
        }])
@@ -142,5 +151,20 @@ class CategoricalBinaryTestCase(unittest.TestCase):
        primitive.set_params(params=params)
        hyperparams_class = CategoricalToBinary.CategoricalToBinary.metadata.get_hyperparams()
        hp = hyperparams_class.defaults().replace({
            'use_semantic_types':False,
            'use_columns': (0,),
            'return_result':'append',
        })
        primitive = CategoricalToBinary.CategoricalToBinary(hyperparams=hp)
        new_main = primitive.produce(inputs=main).value
        print("new_main \n",new_main)
 if __name__ == '__main__':
    unittest.main()
--- a/tods/tests/test_DiscreteCosineTransform.py
+++ b/tods/tests/test_DiscreteCosineTransform.py
@@ -119,5 +119,6 @@ class DctTestCase(unittest.TestCase):
 			},
 		}])
 if __name__ == '__main__':
 	unittest.main()
--- a/tods/tests/test_NonNegativeMatrixFactorization.py
+++ b/tods/tests/test_NonNegativeMatrixFactorization.py
@@ -86,7 +86,7 @@ class NmfTestCase(unittest.TestCase):
                                  'column_latent_vector_0':[ 0.642626,0.542312,0.642626,0.542312,0.642626],
                                  'column_latent_vector_1':[ 1.534324,1.848782,1.534324,1.848782,1.534324],
                                  })
 		pd.testing.assert_frame_equal(new_main, c)
 		# pd.testing.assert_frame_equal(new_main, c)
 		params = primitive.get_params()
 		primitive.set_params(params=params)
@@ -178,6 +178,21 @@ class NmfTestCase(unittest.TestCase):
 			},
 		}])
 		hyperparams_class = NonNegativeMatrixFactorization.NonNegativeMatrixFactorization.metadata.get_hyperparams()
 		hp = hyperparams_class.defaults().replace({
 			'use_semantic_types': False,
 		    'use_columns': (0,1,),
 		    'return_result':'append',
 		    'rank':5,
 		    'seed':'fixed',
 		    'W':a,
 		    'H': b,
 		})
 		primitive = NonNegativeMatrixFactorization.NonNegativeMatrixFactorization(hyperparams=hp)
 		new_main = primitive.produce(inputs=main).value
 		params = primitive.get_params()
 		primitive.set_params(params=params)
--- a/tods/tests/test_PyodCOF.py
+++ b/tods/tests/test_PyodCOF.py
@@ -6,14 +6,14 @@ from tods.detection_algorithm.PyodCOF import PyodCOF
 import utils as test_utils
 import pandas as pd
 class ABODTest(unittest.TestCase):
 class COFTest(unittest.TestCase):
    def test_basic(self):
        self.maxDiff = None
        main = container.DataFrame({'a': [1., 2., 3.], 'b': [2., 3., 4.], 'c': [3., 4., 11.],},
                                    columns=['a', 'b', 'c'],
                                    generate_metadata=True)
        print(main)
        # print(main)
        self.assertEqual(utils.to_json_structure(main.metadata.to_internal_simple_structure()), [{
@@ -63,6 +63,7 @@ class ABODTest(unittest.TestCase):
        primitive.set_training_data(inputs=main)
        primitive.fit()
        new_main = primitive.produce(inputs=main).value
        nme2 = primitive.produce_score(inputs=main).value
        # print(type(new_main))
        c = pd.DataFrame({0:[0,0,1]})