Spicy Tuna Sushi
본문 바로가기
정보

Keyword Extraction

by 말린malin 2023. 1. 9.

테스트 input

"경제 성장과 세계화로 많은 사람들이 항공 운송을 선택한다. 이 산업은 규제 완화와 세계 경제의 글로벌화로 구조가 네트워크 시스템으로 전환되었다. 이는 경제성 있는 각 개별 노선의 유기적 결합체로, 운송지점의 수와 각 지점의 스케줄을 결정한다."

 

- 성능도 중요하지만 Inference Time을 확인하는 것이 우선이라 생각하여 세세한 parameter 조정보다는 여러 가지 방법들을 적용해보는 것을 목표로 진행하였음

- 요약문 output이 하나의 줄글인지 / list 형태로 나오는지에 따라 다시 test를 해봐야 할 것 같음

- 추출된 키워드가 answer가 되므로 의미 없는 키워드가 추출되지 않도록 신경써야할 것임

 

FRAKE

https://github.com/cominsys/FRAKE

현재 코드로는 한국어에 적용할 수 없는 것 같음


KR-WordRank
https://github.com/lovit/KR-WordRank
단어 등장 빈도 바탕으로 키워드를 추출

빈도만으로 판단해 전체 문서에서 keyword의 중요도가 반영되지 않음

Time: 0.0063sec

      경제:     2.6559
   시스템으로:  2.3189
     구조가:    2.2754
    네트워크:   2.0481
    결합체로:   1.9302

 

LDA

https://velog.io/@mare-solis/LDA-%ED%86%A0%ED%94%BD-%EB%AA%A8%EB%8D%B8%EB%A7%81%EC%9C%BC%EB%A1%9C-%EC%BD%98%ED%85%90%EC%B8%A0-%EB%A6%AC%EB%B7%B0%EB%A5%BC-%EB%B6%84%EC%84%9D%ED%95%98%EC%9E%90

Time: 0.4332sec

[(0.08163269, '경제'), (0.061224498, '운송'), (0.061224498, '지점'), (0.061224494, '세계'), (0.040816326, '유기'),]

 

LSA

https://velog.io/@choonsik_mom/Topic-modelingLSA-LDA

TF-IDF + 잠재 의미를 끌어내는 것이므로 요약문이 list 형태로 들어올 경우 test 가능

Time: 0.0394sec

Topic 1: [('경제성', 0.28868), ('스케줄을', 0.28868), ('지점의', 0.28868), ('있는', 0.28868), ('이는', 0.28868)]
Topic 2: [('항공', 0.2357), ('세계', 0.2357), ('경제', 0.2357), ('경제의', 0.2357), ('구조가', 0.2357)]

 

CTM

https://wikidocs.net/161310

Time: 12.2744sec

['네트워크', '구조가', '지점의', '경제의', '항공']

 

KoBERTTopic

https://github.com/ukairia777/KoBERTopicError로 인해 확인하지 못했음

(수정) error 해결 but 짧은 문서로는 inference 불가

 

KeyBert

https://maartengr.github.io/KeyBERT/

사전학습된 BERT 모델을 이용하여 문서에서 Keyword를 뽑아내는 모델

시간이 너무 오래 걸림

 

skt/kobert-base-v1

Time: 7.1938sec

[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]

 

sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

Time: 5.4663sec
[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]

 

klue/bert-base

Time: 7.7183sec
[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]

 

참고

https://hmkim312.github.io/posts/Keybert%EC%99%80_kiwi%ED%98%95%ED%83%9C%EC%86%8C%EB%B6%84%EC%84%9D%EA%B8%B0%EB%A5%BC_%EC%82%AC%EC%9A%A9%ED%95%98%EC%97%AC_%ED%82%A4%EC%9B%8C%EB%93%9C%EC%B6%94%EC%B6%9C_%ED%95%98%EA%B8%B0/

 

 

https://insightcampus.co.kr/2021/07/08/keybert%EB%A1%9C-%EA%B4%80%EB%A0%A8-%ED%82%A4%EC%9B%8C%EB%93%9C-%EC%B6%94%EC%B6%9C%ED%95%98%EA%B8%B0/

댓글