: Feature 마다 strong 하게 contriubute 하는 것이 있고 weak한 것이 있는데. 이렇게 학습할 경우, 코로나 같이 training data에 없는 주가에 영향을 주는 특정 상황이 발생할경우 future unseen data중 strong한 feature가 useless 되는 상황이 올 수 있음. 그러므로 featrue vector중 exposure높은 vector들을 낮추자는 아이디어
2.Reugularization으로 loss에 Norm term 추가
3. model 안에서 수치 변경
~dropout rate 높이기 , action threshold높이기, batch size 조절
4. 앙상블
5. bottleneck encoder
6. softmax대신 magin 있는 모델? 너무 다 0.5 근처에서 놀고있어서 threshold 0.001만 바꿔도 수치가 확 바뀜.
날별로 plot하면 위와 같고 날마다 반복되는 값의 maximum, minimum이 일정한걸로 보아 시간과 관련된 feature로 보임(장시간에 따른 tick 횟수라던가,,, 장 시작시간, 마감시간에 거래량이 늘어나므로) -> 가운데 빈곳은 break time이라는 해석이 있음.
feature_51 = log of the average daily volume of the stock
'Negative' features
: Features 73, 75,76,77(noisy), 79, 81(noisy), 82. Tag 23 section에 다포함
'Hybrid' features(Tag 21)
:noisy로 시작하지만 특정시점부터 linear 55,56,57,58,49 . Tag 21에 포함.
resp, resp_1,2,3,4와 대응 되는것처럼 보임 ->
feature_55is related toresp_1
feature_56is related toresp_4
feature_57is related toresp_2
feature_58is related toresp_3
feature_59is related toresp
If thatisthe case then
Tag 0representsresp_4features
Tag 1representsrespfeatures
Tag 2representsresp_3features
Tag 3representsresp_2features
Tag 4representsresp_1features
i.e.
resp_1related features: 7, 8, 17, 18, 27, 28, 55, 72, 78, 84, 90, 96, 102, 108, 114, 120, and 121(Note: 79.6% of all of the missing data is found within this set of features).
resp_2related features: 11, 12, 21, 22, 31, 32, 57, 74, 80, 86, 92, 98, 104, 110, 116, 124, and 125(Note: 15.2% of all of the missing data is found within this set of features).