테스트 input
"경제 성장과 세계화로 많은 사람들이 항공 운송을 선택한다. 이 산업은 규제 완화와 세계 경제의 글로벌화로 구조가 네트워크 시스템으로 전환되었다. 이는 경제성 있는 각 개별 노선의 유기적 결합체로, 운송지점의 수와 각 지점의 스케줄을 결정한다."
- 성능도 중요하지만 Inference Time을 확인하는 것이 우선이라 생각하여 세세한 parameter 조정보다는 여러 가지 방법들을 적용해보는 것을 목표로 진행하였음
- 요약문 output이 하나의 줄글인지 / list 형태로 나오는지에 따라 다시 test를 해봐야 할 것 같음
- 추출된 키워드가 answer가 되므로 의미 없는 키워드가 추출되지 않도록 신경써야할 것임
FRAKE
https://github.com/cominsys/FRAKE
현재 코드로는 한국어에 적용할 수 없는 것 같음
KR-WordRank
https://github.com/lovit/KR-WordRank
단어 등장 빈도 바탕으로 키워드를 추출
빈도만으로 판단해 전체 문서에서 keyword의 중요도가 반영되지 않음
Time: 0.0063sec
경제: 2.6559
시스템으로: 2.3189
구조가: 2.2754
네트워크: 2.0481
결합체로: 1.9302
LDA
Time: 0.4332sec
[(0.08163269, '경제'), (0.061224498, '운송'), (0.061224498, '지점'), (0.061224494, '세계'), (0.040816326, '유기'),]
LSA
https://velog.io/@choonsik_mom/Topic-modelingLSA-LDA
TF-IDF + 잠재 의미를 끌어내는 것이므로 요약문이 list 형태로 들어올 경우 test 가능
Time: 0.0394sec
Topic 1: [('경제성', 0.28868), ('스케줄을', 0.28868), ('지점의', 0.28868), ('있는', 0.28868), ('이는', 0.28868)]
Topic 2: [('항공', 0.2357), ('세계', 0.2357), ('경제', 0.2357), ('경제의', 0.2357), ('구조가', 0.2357)]
CTM
Time: 12.2744sec
['네트워크', '구조가', '지점의', '경제의', '항공']
KoBERTTopic
https://github.com/ukairia777/KoBERTopicError로 인해 확인하지 못했음
(수정) error 해결 but 짧은 문서로는 inference 불가
KeyBert
https://maartengr.github.io/KeyBERT/
사전학습된 BERT 모델을 이용하여 문서에서 Keyword를 뽑아내는 모델
시간이 너무 오래 걸림
skt/kobert-base-v1
Time: 7.1938sec
[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]
sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
Time: 5.4663sec
[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]
klue/bert-base
Time: 7.7183sec
[('세계화로', 0.4608), ('항공', 0.4352), ('글로벌화로', 0.4033), ('운송지점의', 0.3788), ('산업은', 0.3762)]
참고
'정보' 카테고리의 다른 글
한국어 개체명 인식기 사용하기/오류 해결 (5) | 2023.01.11 |
---|---|
Ubuntu 환경 Elasticsearch 설치하기 (0) | 2023.01.07 |
Ubuntu 환경 mecab 설치하기 (0) | 2023.01.06 |
BeautifulSoup로 이미지 저장하기 (0) | 2022.09.24 |
Python과 몽고DB 연결 및 조회하기, 값 추출하기 (0) | 2022.09.04 |
댓글