일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |
- 이터널리턴
- yolo
- 언리얼엔진
- 프로그래머
- 설치
- Detectron2
- 헬스케어
- TensorFlow
- 언어모델
- ctypes
- NPY
- 욜로
- 딜러닝
- V3
- 딥러닝
- connx
- 논문
- 파이썬
- 논문리뷰
- 호흡분석
- 파워셀
- 리뷰
- C언어
- CycleGAN
- python
- 텐서플로우
- 게임개발
- 개발자
- pyqt5
- ChatGPT
- Today
- Total
사냥꾼의 IT 노트
[논문 리뷰]언어 모델의 진화, 지식 그래프 (Unifying Large Language Models andKnowledge Graphs: A Roadmap) 본문
[논문 리뷰]언어 모델의 진화, 지식 그래프 (Unifying Large Language Models andKnowledge Graphs: A Roadmap)
가면 쓴 사냥꾼 2024. 9. 4. 01:27출처: https://arxiv.org/pdf/2306.08302
데브스택이라는 기업에서 면접 진행 중인데, 해당 논문에 대한 자세한 리뷰가 필요하다 해서 오랜만에 돌아온 논문 리뷰.
Abstract
GPT를 비롯한 대형 언어 모델 (이하 LLM)은 뛰어난 능력과 일반화 가능성으로 자연어 처리 및 인공지능 분야에서 새로운 물결을 일으키고 있다. 허나 LLM은 블랙박스 모델이기 때문에 현실의 지식을 이용하고 접근하기에 부족하다. 반면 지식 그래프 (이하 KG)는 현실의 지식을 명시적으로 저장하는 구조화된 모델로서, 추론 및 해석 가능성에 대한 외부 지식을 제공해 LLM의 성능을 향상 시킬 수 있다. 하지만 KG 또한 자체척으로 발전하고 진화하기 어렵기 때문에 기존 방법에 도전하는 것 또한 본 논문의 목적이다. 결론적으로, LLM과 KG 통합을 위한 로드맵을 제시하며 이 로드맵은 세가지의 프레임워크로 구성된다.
- LLM의 사전 훈련 및 추론 단계, 또는 LLM에서 학습한 지식에 대한 이해를 높이기 위한 목적으로 KG를 통합하는 KG -enhanced LLM
- 임베딩, 완성, 구성, 그래프-텍스트 생성 및 질문 답변과 같은 다양한 KG 작업에 LLM을 활용하는 LLM-augmented KGs
- LLM과 KG가 동일한 역할을 수행하고 상호 보완이 되는 방식으로 작동해 양방향 추론을 위해 모두 향상 시키는 Synergized LLM KG
이 세가지 프레임워크 내에서 기존 노력을 검토 및 요약 -> 향후 연구 방향을 제시한다.
기존 LLM의 해석 불가능 하다는 오류 'blackbox model', 심리적 환각과 유사한 특성을 공유하여 제공된 학습 데이터에 상관 없이 믿을 수 없거나 터무니 없는 텍스트를 생성하는 오류 ' hallucination'를 해결하기 위해 KG를 접목시켜 응용할 수 있다. KG를 이용하면 해석 가능하다는 장점이 있고, 구체적인 정보를 바탕으로 LLM의 성능 향상도 기대할 수 있다.
그러나 KG 또한 구축하기 어렵고 새로운 정보에 대해서는 부족한 부분이 있다. 텍스트 정보를 무시하고 새로운 사실 표현을 어렵게 한다는 단점도 있다.
이렇기 때문에 KG와 LLM은 서로 시너지를 내어 서로의 문제를 해결할 수 있다.
Background
LLM과 KG의 종류에 대해 먼저 알아보자.
1. LLMs
사전 학습된 LLM은 다양한 자연어 처리에서 큰 잠재력을 보여주고 있다. 대부분의 LLM은 문장을 모델이 알아 들을 수 있는 벡터로 만들어주는 Encoder, 벡터를 출력 텍스트로 바꿔주는 Decoder 모듈을 포함하는 설계로 시작된다. 이 아키텍처 구조에 따라 LLM은 세 가지 그룹으로 분류할 수 있다.
1.1 Encoder-only LLMs
encoder 모듈만으로 문장을 인코딩하고 단어 사이의 관계를 예측한다. 주로 masking된 단어를 예측하는 학습 패러다임을 기반으로 학습된다. 이는 정답 데이터가 없어도 되는 unsupervised 모델로, 대규모 corpus를 기반으로 훈련되어 텍스트 구분이나 NER(Named Entity Recognition)에 효과적이지만 다른 기능을 수행하려면 추가적인 prediction head가 필요하다.
(ex: BERT, ALBERT, RoBERTa, ELECTRA)
1.2 Encoder-Decoder LLMs
encoder와 decoder 모듈 모두 적용된 Encoder-Decoder LLM은 입력 문장을 hidden layer로 인코딩시키고, target 출력 텍스트로 decoding되는 구조다. 훈련 방법이 훨씬 유연하고, 일부 문맥을 기반으로 문장을 생성하는 요약, 번역, 질의응답 등에 적합하다.
1.3 Decoder-only LLMs
decoder 모듈만 이용해 target 출력 텍스트를 생성한다. 현재 많은 사용자가 애용하는 chatGPT의 구조이다. 다음 단어를 예측하는 학습 패러다임을 기반으로 학습되고, prediction head나 fine tuning 없이도 다른 문제 해결이 가능하다.
(ex: Alpaca, Vicuna)
1.4 Prompt Engineering
prompt engineering은 LLM의 효과를 극대화 하기 위해 prompt를 생성하고 개선하는 데에 중점을 둔 자연어 입력 시퀀스로, KG와 LLM을 연결시킬 때 필요하다. 질문과 답변, 감정 분류, 상식 추론과 같은 복잡한 작업에서 LLM의 용량을 개선할 수 있다. prompt는 아래와 같은 세 가지 구성 요소가 있다.
- instruction: 모델에게 특정 task를 수행하라고 지시하는 문장
- context: 입력 텍스트 및 few-shot 예시
- input text: 모델에 의해 처리되어야 할 문장
2. Knowledge Graphs (KGs)
KG는 head - relation - tail 구조로 데이터를 표현할 수 있는 것으로, entity들과 그 사이의 ralation을 나타내는 구조로 되어 있다. KG는 다음과 같이 4개의 정보 저장 방식이 있다.
- encyclopedic KG: 위키피디아 등 백과사전 같은 전문적인 지식을 포함하는 지식 그래프
- commonsense KG: 상식과 관련된 의미론적 지식을 포함하는 지식 그래프
- domain-specific KG: 의학, 화학 등 특정 도메인에 대한 지식 그래프
- multi-modal KG: 이미지, 음향, 영상 등을 포함하는 지식 그래프
3. Roadmap & Categorization
LLM과 KG가 서로 시너지를 낼 수 있는 방법에 대한 세가지 분류에 대해 알아보고자 한다.
3.1 KG-enhanced LLMs
KG를 기반으로 LLM을 향상 시키는 방식으로, hallucination issue를 해결하거나 부족한 해석 가능성을 KG를 통해 해결 가능하다. LLM을 사전 훈련하는 과정에서 KG를 포함하거나 추론 과정에서 KG를 이용할 수 있다.
3.1.1 KG-enhanced LLM pre-training
LLM의 pre-tain 단계 동안 KG를 적용시키고 대형 말뭉치에 비지도 학습을 진행시켜 LLM의 표현력을 향상시킨다. 여기엔 세가지 종류가 있다.
- integration KGs into Training Objective
- GLM: KG 구조에 마스킹 확률을 할당, 사전 학습에 중요한 entity에 높은 마스킹 확률이 주어진다.
- E-bert: token-level과 entity-level 사이에 loss를 조절한다.
- SKEP: pos and neg sentiment를 PMI를 활용해서 결정하게 한다. 이후 식별된 sentiment 단어에 높은 마스킹 확률을 준다.
- integrating KGs into LLM inputs: 보조 그래프 지식을 LLM의 input으로 사용한다. 허나 이 방식은 지식 보조 그래프와 상호작용을 할때 knowledge noise가 생길 수 있는 단점이 존재한다.
- KBERT: visible matrix를 활용해 noise를 줄이면서 injection을 한다.
- Colake: word-knowledge graph를 통합해 noise를 줄인다.
- DkLLM: large amount of knowledge를 LLM에 주입시킨다.
- Dict-BERT: rare word의 quality representation을 높인다.
- KGs instruction-tuning: LLM을 학습시킬 때 KG 구조를 더욱 이해시켜 사용자의 의도를 효율적으로 따를 수 있다.
- KPPLM, OntoPrompt: 그래프 구조의 전이 학습을 효율적으로 할 수 있다.
- ChatKBQA, RoG: reasoning path를 효율적으로 찾을 수 있으며 해석 가능한 결과를 도출할 수 있다.
3.1.2 KG-enhanced LLM inference
기존 방식들은 재학습을 해야 실생활에서 사용이 가능했다. 허나 LLM의 inference 단계 동안 KG를 이용하면 LLM이 재학습 없이 최근 지식에 접근 가능하다. 주로 QA에서 활용한다.
- retrieval-augmented knowledge fusion
- parametric modules: dist of data를 바탕으로 한다. (linear regression, logistic regression, gaussian naive bayes)
- non-parametric modules: dist of data를 바탕으로 하지 않는다. data에 복잡한 패턴을 접목시킨다. (knn, svm, decision trees)
- KGs Prompting: inference에서 KG 구조에 LLM을 feed하기 위해 prompt를 이용, KG => text sequence로 바꾸는 작업이 존재하는데, 이 방식은 LLM이 더 추론 작업에 KG 구조를 잘 쓸 수 있게 된다.
- comparison between KG-enhanced LLM pre-training and inference: pre-training에서 재학습이 필요없다는 장점이 존재한다는걸 앞에서 서술했다. 허나 inference에서 재학습은 없으나 sub-optimal에 빠질 수 있다는 단점이 존재한다.
3.1.3 KG-enhanced LLM interpretability
기존 LLM은 해석 가능성에서 문제가 발생할 수 있다. 내부 작용을 정확하게 설명하기 어렵고, 어떤 결과가 바탕으로 생성됐는지 알기 어렵기 때문이다 (medical diagnosis, legal judgment / high-stakes 상황). KG는 구조적으로 추론 결과에 대한 해석이 가능한 장점이 있어 이를 바탕으로 LLM을 향상 시킨다.
- KGs for language model probing: LAMA 논문에서 사전 학습된 KG를 바탕으로 cloze statements를 만들고 이를 언어 모델 예측을 할 때 사용했다. 본 논문에서도 cloze statements를 사용했으나, 이는 LLM이 선호하는 형태가 아니라서 LPAQA, Autoprompt, LLM-facteval에서는 paraphrasing, 자동적으로 prompt를 만드는 방식 등을 제안했다.
- KGs for LLM Analysis: 언어 모델이 생성된 결과 분석을 위해 사용 가능하다.
3.2 LLM-augmented KGs
KG가 여전히 정확하지 않은 정보를 가지고 있을 수 있다는 한계점과 텍스트 말뭉치를 처리하기 어렵다는 한계점이 있기 때문에 LLM을 텍스트 encoder로 적용시킬 수 있고, LLM을 통해 말뭉치를 처리해서 entity와 relation을 추출하는 KG 설계를 진행할 수 있다.
3.2.1 LLM-augmented KG embedding (KGE)
KG embedding은 각 entity와 relation을 낮은 차원의 벡터로 매핑 시키는 것을 목표로 한다.
- LLMs as Text Encoders: 언어모델을 바탕으로 임베딩을 만드는 과정. 직접적이기 때문에 long-tailed relation, unseen entities에 구조적 연결성에 문제가 있을 수 있다. 이런 문제를 해결하기 위해 그래프 또한 임베딩을 통해 representation을 더 풍부하게 했다.
- LLM for joint Text and KG embedding: KGE 모델 대신에 단순히 그래프 구조와 textual information을 임베딩 공간에 동시에 넣는 방식을 택했다. entity와 relation 사이에 special token을 넣고 마스킹 시켜 학습을 진행한다.
3.2.2 LLM-augmented KG completion (KGC)
missing facts를 추론하는 전통적인 KGC는 외부의 지식을 고려하지 않고 KG의 구조에 포커스를 둔다. 허나 최근 LLM과 KGC의 통합하는 과정에서 많이 쓰인다.
- PaE: encoder only LLM을 이용해 KG facts뿐만 아니라 textual information을 사용, 그 후 masking entity를 예측한다.
- PaG: query triple을 만들어 하나의 tail entity를 예측하는 방식으로 사용된다.
3.2.3 LLM-augmented KG construction
KG를 구성할 때 entity discovery, conference resolution, relation extraction, end-to-end에서 LLM을 활용한다.
- end-to-end KG Construction: 최근 연구자들은 LLM을 이용해 end-to-end KG construction을 수행한다. raw text를 바탕으로 BERT 모델을 이용해 NER, relation extraction task를 수행한다.
3.2.4 LLM-augmented KG-to-text generation
KG에서 fact를 가져온 후 LLM을 활용해 자연어로 생성한다.
3.2.5 LLM-augmented KG question answering (KGQA)
자연어 질의와 응답 사이의 간극을 LLM을 통해 줄일 수 있다.
3.3 Synergized LLMs + KGs
LLM과 KG가 상호 보완적인 기술로, 두 기술의 통합을 통해 각각의 성능을 향상 시키며, 4개의 레이어가 있다.
- Data: LLM과 KG가 각각 textual / structural data를 처리
- Synergized Model: LLM과 KG가 서로 시너지 효과를 내며 학습
- Technique: 각각 연관된 기술이 통합되어 성능 향상
- Application: 다양한 실세계 application 처리
이처럼 LLM과 KG는 서로 악어와 악어새의 관계처럼 공생하며 향상될 수 있다. Synergized LLM + KG에는 두 가지 관점이 존재한다.
- Synergized knowledge representation: text corpus는 대량의 지식이 포함되어 있으나, 비명시적이고 비구조화 되어있다. 허나 KG의 지식은 명시적이고 구조화적이기 때문에 LLM과 KG의 지식을 효과적으로 표현하는 시너지 모델을 설계한다. 두 기술의 지식을 더 잘 이해할 수 있으므로 다운스트림 작업에 유용하다.
- Synergized Reasoning: 텍스트 말뭉치와 KG 지식을 더 잘 활용하기 위해 시너지 추론 모델을 설계한다.
- LLM-KG Fusion Reasoning: 두개의 분리된 LLM과 KG encoder를 활용해 텍스트 및 input을 처리한다. 추론을 위해 두 지식을 공동으로 융합한다.
- LLMs as Agents Reasoning: 두개의 encoder를 사용하여 지식을 융합하는 대신, LLM이 agents로 취급돼 KG와 상호 작용하여 추론을 수행한다.
Conclusion
LLM과 KG를 통합하는 것은 업계에서 점점 더 많은 관심을 받고 있는 활발한 연구 방향이다. 본 논문에서는 이 분야의 최근 연구에 대한 개요를 제공하며, 다양한 연구를 소개하고 있다.
KG를 통합하여 LLM을 향상시키는 방식, KG에 LLM을 적용하는 기존 방법을 소개하고 다양한 KG 작업을 기반으로 분류 체계를 확립한다. 마지막으로 이 분야의 과제와 향후 방향에 대해 논의하고 있다.
KG와 LLM을 통합하는 로드맵에 여러 단계가 있을 것으로 예상하고 있다. 특히 세 단계에 대한 연구가 증가할 것으로 예상한다.
- KG-enhanced LLM, LLM-augmented KGs
- Synergized LLMs + KGs
- 그래프 구조 이해, 다중 양식, 지식 업데이트
'논문 리뷰' 카테고리의 다른 글
[논문 리뷰]CycleGAN을 이용한 야간 상황 물체 검출 알고리즘 (0) | 2023.04.13 |
---|---|
[논문 리뷰]헬스케어 및 진단보조를 위한 1D YOLO 모델 기반 인간호흡 패턴 분류방법에 대한 연구 (0) | 2022.08.03 |
[논문 리뷰]YOLO v7: Trainalbe bag-of-freebies sets new state-of-the-art for real-time object detectors (0) | 2022.07.19 |
[논문 리뷰]비정상 호흡 감지를 위한 신호 분석 (0) | 2022.07.12 |
[논문 리뷰]YOLO v1 (0) | 2022.07.06 |