Ability chosen categorical features while transform data to InputData #1318

aPovidlo · 2024-08-09T14:44:10Z

This is a 🙋 feature or enhancement.

Summary

Added the ability to specify categorical features when converting data to InputData using common methods. During preprocessing, if this information is provided, the specified categorical features are identified based on this input, thereby avoiding the use of an automated and potentially naive method for detecting categorical features. This enhancement is particularly useful as it allows for avoid encoding of " recognized by fault" categorical data with one-hot encoding (OHE) method, which can otherwise consume a significant amount of memory.

github-actions · 2024-08-09T14:45:07Z

All PEP8 errors has been fixed, thanks ❤️

Comment last updated at

codecov · 2024-08-09T14:52:48Z

Codecov Report

Attention: Patch coverage is 48.64865% with 19 lines in your changes missing coverage. Please review.

Project coverage is 80.04%. Comparing base (3d49382) to head (67eac10).
Report is 3 commits behind head on master.

Files	Patch %	Lines
fedot/core/data/data.py	40.00%	18 Missing ⚠️
fedot/preprocessing/data_types.py	85.71%	1 Missing ⚠️

Additional details and impacted files

@@            Coverage Diff             @@
##           master    #1318      +/-   ##
==========================================
- Coverage   80.16%   80.04%   -0.12%     
==========================================
  Files         146      146              
  Lines       10278    10307      +29     
==========================================
+ Hits         8239     8250      +11     
- Misses       2039     2057      +18

☔ View full report in Codecov by Sentry.
📢 Have feedback on the report? Share it here.

DRMPN

I think it would still be nice to add an example and/or tests so that this useful feature is not lost.

Lopa10ko · 2024-08-12T18:44:17Z

fedot/core/data/data.py

+            if isinstance(categorical_idx[0], str):
+                raise
+            else:
+                categorical_idx = [i for i, column in enumerate(features_names) if column in set(categorical_idx)]
+
+            if isinstance(categorical_idx, list):
+                categorical_idx = np.array(categorical_idx)
+
+            categorical_features = features[:, categorical_idx].to_numpy()
+
+        data = InputData(
+            idx=idx,
+            features=features,
+            target=target,
+            task=task,
+            data_type=data_type,
+            features_names=features_names,
+            categorical_idx=categorical_idx,
+            categorical_features=categorical_features
+        )


Suggested change

if isinstance(categorical_idx[0], str):

raise

else:

categorical_idx = [i for i, column in enumerate(features_names) if column in set(categorical_idx)]

if isinstance(categorical_idx, list):

categorical_idx = np.array(categorical_idx)

categorical_features = features[:, categorical_idx].to_numpy()

data = InputData(

idx=idx,

features=features,

target=target,

task=task,

data_type=data_type,

features_names=features_names,

categorical_idx=categorical_idx,

categorical_features=categorical_features

)

if isinstance(categorical_idx[0], str):

raise

categorical_idx = [i for i, column in enumerate(features_names) if column in set(categorical_idx)]

if len(categorical_idx) > 0:

categorical_idx = np.array(categorical_idx)

categorical_features = features[:, categorical_idx].to_numpy()

else:

categorical_idx = None

data = InputData(

idx=idx,

features=features,

target=target,

task=task,

data_type=data_type,

features_names=features_names,

categorical_idx=categorical_idx,

categorical_features=categorical_features

)

nit: кажется, ненужная проверка на список для categorical_idx. лучше проверить на всякий случай то, что вообще эти списки создаются (в противном случае передать в InputData значение None)

можно, наверное, эту логику выделения np.array-ев с проверкой на то, что categorical_idx и categorical_features адекватно сформировались, вынести в отдельную приватную функцию

@Lopa10ko Тут проверка в том, что категориальные индексы можно было бы прописывать как через np.ndarray так и через list. Проверка, чтобы list перевести в np.ndarray.

понял, но в текущем варианте categorical_idx в любом случае будет списком, если я верно понимаю.

вот не вошли в первое ветвление с проверкой на isinstance(categorical_idx[0], str) не прокинули ошибку, потом ушли в генератор и получили список в любом случае

@Lopa10ko упустил это место во время работы над ним. Я там собирался реализовать то, что если пользователь передает названия колонок, а не индексы и при этом название признаков забыл внести, то как раз вылезает ошибка. Если он указал, то мы преобразуем categorical_idx в индексы и в categorical_features кладем категориальные данные.

Иногда просто легче написать признаки названием, чем высчитывать их индексы

@Lopa10ko изменения внес в коммите

Lopa10ko · 2024-08-12T18:45:05Z

fedot/core/data/data.py

+        categorical_features = None
+        if categorical_idx is not None:
+            if isinstance(categorical_idx[0], str):
+                raise


хочется получать осмысленное сообщение об ошибке, а не просто raise

@Lopa10ko Да, я хотел написать, но отложил это

Lopa10ko · 2024-08-12T18:48:22Z

fedot/core/data/data.py

+    categorical_features = None
+    if categorical_idx is not None:
+        if isinstance(categorical_idx[0], str) and features_names is None:
+            raise
+        else:
+            categorical_idx = [i for i, column in enumerate(features_names) if column in set(categorical_idx)]
+
+        if isinstance(categorical_idx, list):
+            categorical_idx = np.array(categorical_idx)
+
+        categorical_features = features_array[:, categorical_idx]


вообще, на самом деле действительно, проще будет просто перенести это в отдельную функцию с валидацией сформированных списков

@Lopa10ko Не совсем понял твое предложение

например, сделать функцию, которая бы делала дополнительную валидацию: если теперь можно передавать categorical_idx и ответственность ложится на пользователя, нужно проверить, что categorical_features получаются при этом не пустые (в противном случае передать None)

Зачем проверять? Если categorical_idx = None, то в ходе предобработки попробует обнаружить категориальные данные. Если categorical_idx = np.array([]), то категориальных данных нет и categorical_features = np.array([])

Также categorical_features это категориальные данные, которые не были подвержены кодированию в ходе предобработки и используются в бустинговых моделях

aPovidlo · 2024-08-14T10:01:19Z

I think it would still be nice to add an example and/or tests so that this useful feature is not lost.

Да, обязательно добавлю тесты, а с примерами не уверен

aPovidlo · 2024-08-20T12:47:26Z

@nicl-nno @Lopa10ko @DRMPN Подумал, что может быть еще добавить такой же функционал по указанию категориальных признаков в API методы запуска композирования? Только не знаю что лучше выбрать - указываться их при инициализации Fedot(...) или передавать в методе fit(...)?

Lopa10ko · 2024-08-20T12:51:38Z

@nicl-nno @Lopa10ko @DRMPN Подумал, что может быть еще добавить такой же функционал по указанию категориальных признаков в API методы запуска композирования? Только не знаю что лучше выбрать - указываться их при инициализации Fedot(...) или передавать в методе fit(...)?

кажется, если и добавлять такую возможность, то только для метода fit, так как для одного инстанса федота можно будет запускать обучение несколько раз, подкладывая разные данные

в конструктор для Fedot не стоит

хочется посмотреть на такое решение в действии, чтобы было понятно, зачем его прикручивать -- дальше поревьювим

nicl-nno · 2024-08-20T14:48:31Z

@nicl-nno @Lopa10ko @DRMPN Подумал, что может быть еще добавить такой же функционал по указанию категориальных признаков в API методы запуска композирования? Только не знаю что лучше выбрать - указываться их при инициализации Fedot(...) или передавать в методе fit(...)?

Да мне кажется норм и в InputData, не так часто нужна такая возможность.

aPovidlo · 2024-08-20T16:39:40Z

@nicl-nno @Lopa10ko @DRMPN Подумал, что может быть еще добавить такой же функционал по указанию категориальных признаков в API методы запуска композирования? Только не знаю что лучше выбрать - указываться их при инициализации Fedot(...) или передавать в методе fit(...)?

Да мне кажется норм и в InputData, не так часто нужна такая возможность.

Ну в принципе ладно, если нужно уточнения в данных, то могут изначально открыть их через все эти методы с указанием категориальных данных. Тогда отставлю и добавлю только тесты

aPovidlo · 2024-08-22T15:54:34Z

Migrate to PR #1320

aPovidlo added 2 commits August 9, 2024 17:23

Adding ability to choose cats features in various open method in Data

5b2de32

Adding the ability to use info about cats features while preprocessing

59a364e

aPovidlo requested review from DRMPN and Lopa10ko August 9, 2024 14:44

DRMPN reviewed Aug 9, 2024

View reviewed changes

Lopa10ko requested changes Aug 12, 2024

View reviewed changes

aPovidlo added 2 commits August 22, 2024 15:31

@Lopa10ko requested fixes

19e732e

Update for numpy array

67eac10

aPovidlo closed this Aug 22, 2024

aPovidlo mentioned this pull request Aug 22, 2024

Improving preprocessing #1320

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Ability chosen categorical features while transform data to InputData #1318

Ability chosen categorical features while transform data to InputData #1318

aPovidlo commented Aug 9, 2024

github-actions bot commented Aug 9, 2024 •

edited

Loading

codecov bot commented Aug 9, 2024 •

edited

Loading

DRMPN left a comment

Lopa10ko Aug 12, 2024

Lopa10ko Aug 12, 2024

aPovidlo Aug 14, 2024

Lopa10ko Aug 14, 2024

aPovidlo Aug 22, 2024

aPovidlo Aug 22, 2024

Lopa10ko Aug 12, 2024

aPovidlo Aug 14, 2024

Lopa10ko Aug 12, 2024

aPovidlo Aug 14, 2024

Lopa10ko Aug 14, 2024

aPovidlo Aug 20, 2024

aPovidlo Aug 20, 2024

aPovidlo commented Aug 14, 2024

aPovidlo commented Aug 20, 2024

Lopa10ko commented Aug 20, 2024 •

edited

Loading

nicl-nno commented Aug 20, 2024

aPovidlo commented Aug 20, 2024

aPovidlo commented Aug 22, 2024

Ability chosen categorical features while transform data to InputData #1318

Ability chosen categorical features while transform data to InputData #1318

Conversation

aPovidlo commented Aug 9, 2024

Summary

github-actions bot commented Aug 9, 2024 • edited Loading

Comment last updated at

codecov bot commented Aug 9, 2024 • edited Loading

Codecov Report

DRMPN left a comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

aPovidlo commented Aug 14, 2024

aPovidlo commented Aug 20, 2024

Lopa10ko commented Aug 20, 2024 • edited Loading

nicl-nno commented Aug 20, 2024

aPovidlo commented Aug 20, 2024

aPovidlo commented Aug 22, 2024

github-actions bot commented Aug 9, 2024 •

edited

Loading

codecov bot commented Aug 9, 2024 •

edited

Loading

Lopa10ko commented Aug 20, 2024 •

edited

Loading