일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- python 경우의 수
- 비선형함수 딥러닝
- pandas 행 제거
- 비선형함수
- 일부 레이어 고정
- pandas
- sktime tutorial
- Does GNN Pretraining Help Molecular Representation?
- 시계열 라이브러리
- layer 일부 freeze
- weight 일부 고정
- pandas 특정 조건 열 제거
- pytorch 데이터셋 나누기
- Graph Theory
- molecular representation
- Skip connection
- sktime 튜토리얼
- 선형함수 딥러닝
- pytorch dataset split
- pandas row 제거
- 판다스 조건
- sktime 예제
- pandas 조건
- EDA in python
- 모델 freeze
- pretraining
- Prompt Tuning for Graph Neural Networks
- 경우의 수 파이썬
- EDA 추천 파이썬
- sktime
- Today
- Total
MoonNote
Prompt Tuning for Graph Neural Networks 본문
Prompt Tuning for Graph Neural Networks (https://arxiv.org/abs/2209.15240)
2023년 ICLR에 제출 (accpet은 되지 않음)
- 최근 널리 쓰이고 있는 (full) fine-tuning의 대안으로 Graph Prompt 방법을 제안함
- 기존의 pre-trained GNN model들에 대한 prompt tuning의 effectiveness를 보여주는 최초의 연구라고 주장함
- pre-trained GNN model의 parameter tuning 없이 graph-level transformation을 진행하는 graph prompt를 train함
- learnable pertubation을 donwstream graph의 feature space에 추가하는 GP-Feature (GPF)를 소개함
- 실험 결과, fine-tuning의 tunable parameter의 0.1%의 양으로 유사하거나 상당한 성능을 얻을 수 있다고 주장함
- (a)가 일반적인 pre-trained model에서 fine-tuning을 진행하는 모습이고,
- (b)가 제안하는 Graph Prompt Tuning 방법이다.
- (a)는 pre-trained model의 parameter를 다시 update하고, (b)는 model의 parameter는 freeze하되, input graph의 feature에 새로운 학습가능한 feature를 더해준다.
- 학습가능한 embedding matrix를 더해서 input 학습
- node feature는 그대로 두고 graph prompt feature를 더한 후 학습
- (c)는 PPI 데이터셋에서의 (a)와 (b) 방법의 비교이다.
- Figure 1 과 다르게 대부분의 데이터셋에서 최상의 아님
- learnable parameter가 훨씬 적기 때문에 당연한 결과라고 생각
- Figure 1에서 성능이 좋았던 PPI 데이터셋에 대한 학습 곡선
- 기존 fine-tuning 방법은 overfitting이 일어났기 때문에 GPF가 좋은 성능을 보임
정리하자면, 성능 면에서 엄청나게 좋은 방법은 아니지만 input data에 feature만 더하는 방식으로 parameter 수를 상당히 줄일 수 있고 어느 정도의 성능이 보장됨. GNN에 해당 방법을 처음 소개한데에 의의가 있다고 생각함
의문점
- 본문에서는 GP-Feature를 통해 node, edge, graph-level의 transformation이 일어나고, 이를 통해 학습에 좋은 영향이 미친다고 애기하고 있음
- 하지만 input graph가 transformation이 되는 것이 왜 효과적인지 의문임. graph 형태가 유지가 되어야 되지 않을까하는 생각이 든다.