AI 임베딩 모델 한국어 성능 비교

반응형

테스트 임베딩 모델

아래 임베딩 모델을 테스트했습니다. 상위 3개 모델은 ollama에서 가장 인기 있는 임베딩 모델입니다.

  1. nomic-embed-text
  2. mxbai-embed-large
  3. snowflake-arctic-embed
  4. BAAI/bge-m3

테스트 문서

아래는 테스트에 사용한 텍스트입니다.

texts = [
  "오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요.",
  "책을 읽는 것은 마음을 편안하게 해주고 지식을 넓혀줍니다.",
  "나는 미래에 대한 두려움을 가지지 않고 미래를 기대하며 살고 있습니다.",
  "나는 어제보다 오늘 더 나은 내일을 만들기 위해 노력하고 있습니다.",
  "음악을 들으며 산책하는 것은 스트레스를 해소하는 데에 효과적입니다.",
  "요리를 하며 시간을 보내는 것은 나에게 큰 즐거움을 줍니다.",
  "새로운 언어를 배우는 것은 마음을 더 넓게 만들어 줍니다.",
  "Today, the weather is so nice that it's perfect for going out.",
  "Reading books relaxes the mind and broadens one's knowledge.",
  "Listening to music while walking is effective in relieving stress.",
  "Spending time cooking brings me great joy.",
  "Learning a new language opens up one's mind.",
];

테스트

번호 Query nomic-embed-text mxbai-embed-large snowflake-arctic-embed bge-m3
1 오늘 날씨 어때요? 나는 미래에 대한 두려움을 가지지 않고 미래를 기대하며 살고 있습니다. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. Today, the weather is so nice that it's perfect for going out.
2 What's the weather like today? Today, the weather is so nice that it's perfect for going out. Today, the weather is so nice that it's perfect for going out. Today, the weather is so nice that it's perfect for going out. Today, the weather is so nice that it's perfect for going out.
3 어떤 책을 읽는 것이 좋을까요? 나는 미래에 대한 두려움을 가지지 않고 미래를 기대하며 살고 있습니다. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 책을 읽는 것은 마음을 편안하게 해주고 지식을 넓혀줍니다.
4 What books do you recommend reading? Reading books relaxes the mind and broadens one's knowledge. Today, the weather is so nice that it's perfect for going out. Reading books relaxes the mind and broadens one's knowledge. Reading books relaxes the mind and broadens one's knowledge.
5 저는 요리를 좋아합니다. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 오늘은 날씨가 참 좋아서 외출하기에 아주 좋은 날이에요. 요리를 하며 시간을 보내는 것은 나에게 큰 즐거움을 줍니다.
6 I love cooking. Spending time cooking brings me great joy. Today, the weather is so nice that it's perfect for going out. Spending time cooking brings me great joy. Spending time cooking brings me great joy.

마치며

각 임베딩 모델의 한국어 성능 비교 결과를 바탕으로 결론을 내리면, bge-m3 임베딩 모델이 가장 일관되고 관련성 높은 결과를 제공하는 것으로 나타납니다. 다국어 환경에서는 bge-m3 모델이 가장 우수한 성능을 보이는 임베딩 모델로 평가됩습니다. 하지만 영어만을 대상으로 할 경우라면, nomic-embed-text 모델을 사용하는 것도 나쁘지 않은 선택입니다.

See Also

반응형